Cloudera Impala – die Lösung für Echtzeitabfragen

Die wichtigsten zehn Big Data-Technologien — Daten in Echtzeit abfragen? Kein Problem mit Impala.

Ursprünglich Batch-orientiert, verleihen Erweiterungen wie die Query Engine „Cloudera Impala“ Hadoop das Prädikat „enterprise ready“. Hadoop-Distributionen werden damit in vielen Unternehmen zum de-Facto-Standard für Big Data-Anwendungen. Dieser Artikel beleuchtet die Vorteile von Impala.

SQL-Abfragen auf verteilten Clustern

Impala ist ein skalierbares und verteiltes Datenabfragetool für Hadoop, mit dem Low Latency-Abfragen von Daten aus dem Hadoop Distributed File System (HDFS) und HBase durchgeführt werden können. Weil für die in SQL formulierten Abfragen keine Daten bewegt oder umgewandelt werden müssen, verspricht Impala schneller zu sein, als Hive oder MapReduce. Dazu erzeugt Impala ein flexibles Datenmodell, das effizienter mit komplexen Daten und unterschiedlichen Datentypen umgeht als klassische Data Warehouses, die auf relationalen Datenbank-Management-Systemen (RDBMS) aufsetzen.

Impala ist in das Hadoop-Ökosystem integriert und nutzt dabei die gleichen flexiblen Datei- und Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Hive oder MapReduce. Impala erweitert das traditionell Batch-orientierte Processing von Hadoop aber um analytische Funktionen für die Echtzeitverarbeitung großer Datenmengen, beispielsweise von Streaming-Diensten oder Real-Time-Analytics. Für Anwender die SQL beherrschen, stellt Impala zudem ein effektives Entwicklungsmodell dar, da nicht jedes Mal ein neues Java-Programm geschrieben werden muss, wenn neue Arten von Analysen durchgeführt werden.

Vorteile von Impala:

Eigenständiges System zur Big Data-Verarbeitung und -Analyse, zusätzliche Kosten für ETL entfallen
Optimaler Durchsatz, da alle Platten an allen Nodes optimal ausgelastet werden
Daten müssen nicht importiert bzw. exportiert werden, da sie direkt mit Hive oder Pig gelesen werden
Die Low Latency-Verarbeitung verursacht nur eine niedrige CPU-Belastung

Echtzeitfähige Datenverarbeitung

Die mit Map Reduce auftretenden Geschwindigkeitsbeschränkungen bei der Batch-Verarbeitung können durch Impala aufgehoben werden. Für die in SQL formulierten Fragen entwirft Impala einen verteilt arbeitenden Abfrageprozess und arbeitet ihn direkt in den Datenknoten der jeweiligen Hadoop-Cluster ab. Weil Impala horizontal skaliert, steigt die Geschwindigkeit der Datenverarbeitung in einer Größenordnung, die Big Data-Projekte überhaupt erst ermöglicht. Die Verwendung von Standard-Hardware sorgt zudem dafür, dass die anfallenden Hardwarekosten überschaubar bleiben.

Diese Artikel unser Serie „Die 10 wichtigsten Big Data-Technologien“ könnten Sie auch interessieren:

Seitenanfang

Cloudera Impala – die Lösung für Echtzeitabfragen

SQL-Abfragen auf verteilten Clustern

Echtzeitfähige Datenverarbeitung

Themen

Termine