Mit der Schwarzfersenantilope auf Googles Spuren: Clouderas Impala

20121029-062335.jpg

Vielen Firmen gehen Tools wie Pig, Hive und HBase nicht weit genug. Statt große Datenmengen im Batchbetrieb zu verarbeiten geht der Trend ganz klar hin zu Lösungen für Ad-hoc-Abfragen in Echtzeit.

Eine solche Engine gibt es seit kurzem auch von einem der größten Hadoop-Distributionsanbieter Cloudera. Mit Impala (Schwarzfersenantilope) präsentiert Cloudera eine Open Source Lösung auf Basis von Hadoop und HBase.

Die Architektur von Clouderas Impala geht zurück auf Arbeiten von Marcel Kornacker bei Google für das Projekt F1. Die F1 Datenbank löst in Googles Ad-Infrastruktur die MySQL-basierte Lösung ab.

Ebenso wie F1 versucht Clouderas Impala das beste beider Welten zu vereinen. Basierend auf bewährten Technlologien für die Fehlertoleranz, Skalierbarkeit und transparente Datenverteilung wie Hadoop und HBase sie bieten, setzt Impana eine Query-Engine für die Echtzeitabfrage mit Hilfe einer SQL-artigen Abfragesprache.

Impala könnte dabei Lösungen wie Hive, welche schon seit einigen Jahren existieren und SQL-artige Abfragen in MapReduce-Task umwandeln, ablösen.

Schreibe einen Kommentar


(required)