Skip to main content

Cloudera + Intel + Dell = ?

Listen:
Wie Cloudera in einer Pressemitteilung [1] veröffentlichte, kommt nach dem Intel-Investment [2] nun der Schulterschluss mit Dell. Hier meine Meinung dazu.

Seit Jahren versprechen Analysten Wachstumsraten im hohen zweistelligen Prozentbereich bis 2020 [3], schlussendlich ist es nur logisch das Intel über den augenblicklichen Platzhirsch Cloudera in das "BigData Business" investiert, nachdem augenscheinlich die eigene Distribution nicht so erfolgreich war als gehofft. Zudem erkauft sich Intel hier einen bedeutenden Einfluss auf das Hadoop Projekt. Neben Hortonworks ist Cloudera einer der bedeutendsten Committer des gesamten Ecosystems.
Der Einfluss Intels beginnt bei Kryptographie (Rhino) [4], weitere Möglichkeiten wären optimierter Bytecode für Intel CPU's in Impala / Spark, Advanced Networking Features im Hadoop Core (IPv6) oder die Unterstützung proprietärer Lösungen Intels, die nur in CDH verfügbar sein werden. Da Cloudera in nahezu allen relevanten Projekten des Apache Hadoop Ecosystems vertreten ist kann diese Votingmacht durchaus genutzt werden um Apache Hadoop in eine Richtung zu beeinflussen, welche von beiden Unternehmen gewünscht ist.

Langsamer Abschied von Open Source?
Bei den beiden Distributionen CDH (Cloudera) und HDP (Hortonworks) ist eine zunehmende Fragmentierung zu sehen. Sehr deutlich bei den neuesten Erwerbungen - Cloudera kauft Gazzang, Hortonworks XA Secure. Damit sind alle Distributionen ab Einsatz der jeweiligen per Distribution proprietären Verschlüsselung nicht mehr kompatibel. Deutlich wird hier sicher die Diskrepanz wenn Intels Cryptocards zum Einsatz kommen und Gazzang dahingehend optimiert wird [5].
Auch im Hadoop Core wird die Strategie sichtbar - Cloudera setzt auf das Parquet Fileformat, Hortonworks auf ORCFile. Doch die Unterschiede gehen weiter: Hortonworks setzt auf OpenSource Tools wie Ambari, Storm, Shark und Falcon, Cloudera dagegen im Umsatzträchtigen Enterpriseumfeld auf Closed Open Code (Sourcecode öffentlich, aber keine Community basierte Entwicklung) wie Impala und Closed Source bei Management (Cloudera Manager und Enterprise AddOns), Verschlüsselung (Gazzang) und Data Lineage (Navigator).
Da sowohl Hortonworks als auch Cloudera (100% of the top 5 US intelligence agencies run Cloudera) den Public und Intelligence Sector in den USA / UK bedienen darf gefragt werden ob Closed Source im umsatzstarken deutschen Umfeld (NSA Untersuchungsausschuss) eine clevere Strategie ist. Zumindest bei HDP besteht die Möglichkeit eines kompletten Audits.

Kooperation mit DELL
Dell schwächelte, bedingt durch den Einbruch im PC Markt und die bisherige Konzentration auf Bürohardware, bereits seit 2012. Michael Dell gelang es 2013 Dell wieder in eine private Gesellschaft zu überführen - gemeinsam mit den Finanzinvestor Silver Lake. Die Dell Aktie verschwand von der Börse, und der Weg war frei das Unternehmen drastisch umzubauen und auf Vertrieb zu trimmen.
Dell's Vertriebsmodell ist Stückzahlen getrieben, es zählt nur das verkaufte Blech. Da Dell keinerlei nennenswerten Umsatz mit Dienstleistungen macht und diese an Partner outsourced, ist Dell natürlich der ideale Partner für Intel und Cloudera. Es findet keine Kannibalisierung des bisherigen Geschäfts statt, im Gegenteil. Da das Geschäftsmodell aller Hadoop Distributoren auf wiederkehrenden Subscriptions beruht, ist dieser Deal nahezu unschlagbar. Dell bekommt ein Alleinstellungsmerkmal, verkauft mehr Server - Intel verdient an CPU, Memory, SSDs, Netzwerk, und Cloudera an Subscriptions [1]:
"Driven by collaboration with the open source community and efforts across Dell, Intel and Cloudera, the Dell appliance is a best of breed big data solution stack. Designed from the silicon up, this appliance can enable certain applications to run up to 100x faster, is easy to use and deploy, and is compatible with existing solutions. [...] The Dell In-Memory Appliances for Cloudera Enterprise will be available in pre-sized, pre-configured options so that enterprise customers can choose and quickly deploy the version that is right for their applications. Value-added consulting services for custom configurations are also available through Dell."
Mit anderen (saloppen) Worten - wenn der Kunde einen modernden Hadoop CDH Analytics Cluster betreiben will, ist die einzige sinnvolle und zukunftsträchtige Lösung eine Lösung von Dell / Intel / Cloudera. Denn dieses Angebot ist das beste was auf dem Markt ist und weiter sein wird. Dafür wird Intel / Cloudera / Dell sorgen. Und wenn der Kunde nun eine Hardware Lösung von $commodity_hardware_vendor will, kann er das gern machen. Nur hat er dann eben nicht die Performance, die möglich wäre - wenn man denn auf CDH setzt:
"Together, the partners said they are attempting to build a “big data ecosystem” that combines data analytics hardware and software to move advanced data analytics to mainstream applications." [6]
Was könnte diese Strategie für die Zukunft bringen?
Die Aussage, einige Anwendungen werden mit dieser Lösung bis zu 100x schneller (Anmerkung: Bis zu 100x schneller scheint ein beliebter Term im amerikanischen Marketing zu sein) werden, legt nahe das mit sehr hoher Wahrscheinlichkeit Server und Software aufeinander abgestimmt zum Einsatz kommen. Damit wird die Flexibilität in der Wahl des Herstellers seitens des Kunden erheblich eingeschränkt. Und das sieht etwas nach einem Vendor Lock durch die Hintertür aus, was aus Sicht aller (außer des Kunden) der beste Weg ist die bestehende Abhängigkeit von wiederkehrenden Subscriptions und Services zu negieren. Cloudera's CEO, Tom Reilly, zeigt deutlich in einem Interview wohin die Reise gehen soll [7]:
Intel is working on a chip that’s going to ship in five years from now. They’re sharing those designs with us and we’re collaborating with them on how we can write and take advantage of instructions in the chip to actually make them perform better for analytic workloads. So if a customer is going to build a scale-out grid, and they were planning to have a thousand nodes driving it, the work with Intel might say they can do it with 600, which is significant cost savings in the long run. That’s huge. That’s a five-year roadmap.
Ob das wirklich der Weg zum "Big Data King" ist wird die Zukunft zeigen.

[1] http://www.cloudera.com/content/cloudera/en/about/press-center/press-releases/2014/06/24/cloudera-dell-and-intel-advance-enterprise-deployments-of-hadoop.html
[2] http://www.cloudera.com/content/cloudera/en/about/press-center/press-releases/2014/06/02/cloudera-names-intel-cio-to-board-of-directors-and-announces-the.html
[3] http://www.datanami.com/2014/05/29/hadoop-market-grow-58-2020-report-says/
[4] http://blog.cloudera.com/blog/2014/06/project-rhino-goal-at-rest-encryption/
[5] http://www.cloudera.com/content/cloudera/en/about/press-center/press-releases/2014/06/03/cloudera-strengthens-hadoop-security-with-acquisition-of-gazzang.html
[6] http://www.datanami.com/2014/06/24/cloudera-dell-intel-target-big-data-ecosystem/
[7] http://www.information-age.com/it-management/strategy-and-innovation/123458167/one-year-ceo-clouderas-tom-reilly-just-cant-wait-be-big-data-king

Comments

Popular posts from this blog

Deal with corrupted messages in Apache Kafka

Under some strange circumstances, it can happen that a message in a Kafka topic is corrupted. This often happens when using 3rd party frameworks with Kafka. In addition, Kafka < 0.9 does not have a lock on Log.read() at the consumer read level, but does have a lock on Log.write(). This can lead to a rare race condition as described in KAKFA-2477 [1]. A likely log entry looks like this: ERROR Error processing message, stopping consumer: (kafka.tools.ConsoleConsumer$) kafka.message.InvalidMessageException: Message is corrupt (stored crc = xxxxxxxxxx, computed crc = yyyyyyyyyy Kafka-Tools Kafka stores the offset of each consumer in Zookeeper. To read the offsets, Kafka provides handy tools [2]. But you can also use zkCli.sh, at least to display the consumer and the stored offsets. First we need to find the consumer for a topic (> Kafka 0.9): bin/kafka-consumer-groups.sh --zookeeper management01:2181 --describe --group test Prior to Kafka 0.9, the only way to get this inform

Hive query shows ERROR "too many counters"

A hive job face the odd " Too many counters:"  like Ended Job = job_xxxxxx with exception 'org.apache.hadoop.mapreduce.counters.LimitExceededException(Too many counters: 201 max=200)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MapRedTask Intercepting System.exit(1) These happens when operators are used in queries ( Hive Operators ). Hive creates 4 counters per operator, max upto 1000, plus a few additional counters like file read/write, partitions and tables. Hence the number of counter required is going to be dependent upon the query.  To avoid such exception, configure " mapreduce.job.counters.max " in mapreduce-site.xml to a value above 1000. Hive will fail when he is hitting the 1k counts, but other MR jobs not. A number around 1120 should be a good choice. Using " EXPLAIN EXTENDED " and " grep -ri operators | wc -l " print out the used numbers of operators. Use this value to tweak the MR s

AI's False Reality: Understanding Hallucination

Artificial Intelligence (AI) has leapfrogged to the poster child of technological innovation, on track to transform industries in a scale similar to the Industrial Revolution of the 1800s. But in this case, as cutting-edge technology, AI presents its own unique challenge, exploiting our human behavior of "love to trust", we as humans face a challenge: AI hallucinations. This phenomenon, where AI models generate outputs that are factually incorrect, misleading, or entirely fabricated, raises complex questions about the reliability and trust of AI models and larger systems. The tendency for AI to hallucinate comes from several interrelated factors. Overfitting – a condition where models become overly specialized to their training data – can lead to confident but wildly inaccurate responses when presented with novel scenarios (Guo et al., 2017). Moreover, biases embedded within datasets shape the models' understanding of the world; if these datasets are flawed or unreprese