Ursprünglich Batch-orientiert, verleihen Erweiterungen wie die Query Engine “Cloudera Impala” Hadoop das Prädikat „enterprise ready“. Hadoop-Distributionen werden damit in vielen Unternehmen zum de-Facto-Standard für Big Data-Anwendungen. Dieser Artikel beleuchtet die Vorteile von Impala.
SQL-Abfragen auf verteilten Clustern
Impala ist ein skalierbares und verteiltes Datenabfragetool für Hadoop, mit dem Low Latency-Abfragen von Daten aus dem Hadoop Distributed File System (HDFS) und HBase durchgeführt werden können. Weil für die in SQL formulierten Abfragen keine Daten bewegt oder umgewandelt werden müssen, verspricht Impala schneller zu sein, als Hive oder MapReduce. Dazu erzeugt Impala ein flexibles Datenmodell, das effizienter mit komplexen Daten und unterschiedlichen Datentypen umgeht als klassische Data Warehouses, die auf relationalen Datenbank-Management-Systemen (RDBMS) aufsetzen.Impala ist in das Hadoop-Ökosystem integriert und nutzt dabei die gleichen flexiblen Datei- und Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Hive oder MapReduce. Impala erweitert das traditionell Batch-orientierte Processing von Hadoop aber um analytische Funktionen für die Echtzeitverarbeitung großer Datenmengen, beispielsweise von Streaming-Diensten oder Real-Time-Analytics. Für Anwender die SQL beherrschen, stellt Impala zudem ein effektives Entwicklungsmodell dar, da nicht jedes Mal ein neues Java-Programm geschrieben werden muss, wenn neue Arten von Analysen durchgeführt werden.
Vorteile von Impala:
- Eigenständiges System zur Big Data-Verarbeitung und -Analyse, zusätzliche Kosten für ETL entfallen
- Optimaler Durchsatz, da alle Platten an allen Nodes optimal ausgelastet werden
- Daten müssen nicht importiert bzw. exportiert werden, da sie direkt mit Hive oder Pig gelesen werden
- Die Low Latency-Verarbeitung verursacht nur eine niedrige CPU-Belastung
Echtzeitfähige Datenverarbeitung
Die mit Map Reduce auftretenden Geschwindigkeitsbeschränkungen bei der Batch-Verarbeitung können durch Impala aufgehoben werden. Für die in SQL formulierten Fragen entwirft Impala einen verteilt arbeitenden Abfrageprozess und arbeitet ihn direkt in den Datenknoten der jeweiligen Hadoop-Cluster ab. Weil Impala horizontal skaliert, steigt die Geschwindigkeit der Datenverarbeitung in einer Größenordnung, die Big Data-Projekte überhaupt erst ermöglicht. Die Verwendung von Standard-Hardware sorgt zudem dafür, dass die anfallenden Hardwarekosten überschaubar bleiben.Diese Artikel unser Serie „Die 10 wichtigsten Big Data-Technologien“ könnten Sie auch interessieren:
- 10 Big Data-Technologien, die Sie kennen sollten
- Apache Hadoop – ein bewährtes Open Source-Framework
- Apache Hive – das Data Warehouse für Hadoop
- MongoDB – Die Datenbank für alle Fälle
- Pentaho – Flexible Business Intelligence-Plattform
- Infobright – MySQL-Engine mit effektiver Datenkompression
- Apache Spark – Framework für Echtzeitanalysen
- Splunk – Big Data vereinfachen
- Hadoop Yarn – Big Data beschleunigen
- Apache Storm – Big Data-Analyse auf Echtzeitbasis