Microsoft bringt eigene Hadoop Distribution HDinsight

20121105-063526.jpg

Anlässlich der Strata- und Hadoop World Konferenz präsentierte Microsoft die eigene Hadoop Distribution HDinsight, welche zusammen mit Hortonworks entstanden ist.

Die Produkteinführung kommt mit zahlreichen Ankündigungen.So ist neben einer Version für den Windows Server auch implementierungen für Microsofts Cloud Plattform Azur verfügbar.

HDinsight nutzt die quelloffene Hortonworks Hadoop Data Platform (HDP). Neben Anbindungen zu Excel und Power Pivot. Eine eindrucksvolle Demo findet sich auf Vimeo.

Darüber hinaus wurden JavaScript und .NET SDKs für die Entwicklung von Map Reduce Anwendung vorgestellt. Man darf gespannt sein, wohin Microsofts Hadoop Reise noch geht.

Mit der Schwarzfersenantilope auf Googles Spuren: Clouderas Impala

20121029-062335.jpg

Vielen Firmen gehen Tools wie Pig, Hive und HBase nicht weit genug. Statt große Datenmengen im Batchbetrieb zu verarbeiten geht der Trend ganz klar hin zu Lösungen für Ad-hoc-Abfragen in Echtzeit.

Eine solche Engine gibt es seit kurzem auch von einem der größten Hadoop-Distributionsanbieter Cloudera. Mit Impala (Schwarzfersenantilope) präsentiert Cloudera eine Open Source Lösung auf Basis von Hadoop und HBase.

Die Architektur von Clouderas Impala geht zurück auf Arbeiten von Marcel Kornacker bei Google für das Projekt F1. Die F1 Datenbank löst in Googles Ad-Infrastruktur die MySQL-basierte Lösung ab.

Ebenso wie F1 versucht Clouderas Impala das beste beider Welten zu vereinen. Basierend auf bewährten Technlologien für die Fehlertoleranz, Skalierbarkeit und transparente Datenverteilung wie Hadoop und HBase sie bieten, setzt Impana eine Query-Engine für die Echtzeitabfrage mit Hilfe einer SQL-artigen Abfragesprache.

Impala könnte dabei Lösungen wie Hive, welche schon seit einigen Jahren existieren und SQL-artige Abfragen in MapReduce-Task umwandeln, ablösen.

Auf dem Rücken des Datenmammuts

Herzlich Willkommen auf meinem neuen Blog Das Datenmammut. Auf diesem Blog möchte ich wöchentlich und in regelmäßigen Abständen über verschiedene Themen aus dem Bereich Big Data im Allgemeinen und Hadoop im Speziellen berichten. Dazu gehören:

  • Nationale und Internationale Nachrichten rund um Themen zu Big Data und Hadoop
  • Rezensionen von Büchern zum Thema Datenanalyse, Maschinelles Lernen und Informationsverarbeitung
  • Vorstellung neuer Software und Tools
  • Praxisbeispiele zur Verarbeitung großer Datenmengen
  • Tips und Tricks zu MapReduce und der Konfiguration verschiedener Dienste des Hadoop-Ökosystems

Ich freue mich über jede Art von Anregungen, Kommentaren, Kritiken und Hinweisen.

Ramon Wartala