EN | DE

Cloudera Impala – die Lösung für Echtzeitabfragen

Die wichtigsten zehn Big Data-Technologien
Daten in Echtzeit abfragen? Kein Problem mit Impala.

Ursprünglich Batch-orientiert, verleihen Erweiterungen wie die Query Engine „Cloudera Impala“ Hadoop das Prädikat „enterprise ready“. Hadoop-Distributionen werden damit in vielen Unternehmen zum de-Facto-Standard für Big Data-Anwendungen. Dieser Artikel beleuchtet die Vorteile von Impala.

SQL-Abfragen auf verteilten Clustern
Impala ist ein skalierbares und verteiltes Datenabfragetool für Hadoop, mit dem Low Latency-Abfragen von Daten aus dem Hadoop Distributed File System (HDFS) und HBase durchgeführt werden können. Weil für die in SQL formulierten Abfragen keine Daten bewegt oder umgewandelt werden müssen, verspricht Impala schneller zu sein, als Hive oder MapReduce. Dazu erzeugt Impala ein flexibles Datenmodell, das effizienter mit komplexen Daten und unterschiedlichen Datentypen  umgeht als klassische Data Warehouses,  die auf relationalen Datenbank-Management-Systemen (RDBMS) aufsetzen.

Impala ist in das Hadoop-Ökosystem integriert und nutzt dabei die gleichen flexiblen Datei- und Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Hive oder MapReduce. Impala erweitert das traditionell Batch-orientierte Processing von Hadoop aber um analytische Funktionen für die Echtzeitverarbeitung großer Datenmengen, beispielsweise von Streaming-Diensten oder Real-Time-Analytics. Für Anwender die SQL beherrschen, stellt Impala zudem ein effektives Entwicklungsmodell dar, da nicht jedes Mal ein neues Java-Programm geschrieben werden  muss, wenn neue Arten von Analysen durchgeführt werden.

Vorteile von Impala:

  • Eigenständiges System zur Big Data-Verarbeitung und -Analyse, zusätzliche Kosten für ETL entfallen
  • Optimaler Durchsatz, da alle Platten an allen Nodes optimal ausgelastet werden
  • Daten müssen nicht importiert bzw. exportiert werden, da sie direkt mit Hive oder Pig gelesen werden
  • Die Low Latency-Verarbeitung verursacht nur eine niedrige CPU-Belastung

Echtzeitfähige Datenverarbeitung
Die mit Map Reduce auftretenden Geschwindigkeitsbeschränkungen bei der Batch-Verarbeitung können durch Impala aufgehoben werden. Für die in SQL formulierten Fragen entwirft Impala einen verteilt arbeitenden Abfrageprozess und arbeitet ihn direkt in den Datenknoten der jeweiligen Hadoop-Cluster ab. Weil Impala horizontal skaliert, steigt die Geschwindigkeit der Datenverarbeitung in einer Größenordnung, die Big Data-Projekte überhaupt erst ermöglicht. Die Verwendung von Standard-Hardware sorgt zudem dafür, dass die anfallenden Hardwarekosten überschaubar bleiben.

Diese Artikel unser Serie „Die 10 wichtigsten Big Data-Technologien“ könnten Sie auch interessieren:

Es war noch nie so einfach anzufangen

Lassen Sie uns über Ihr Projekt sprechen.

Wir sollten uns kennenlernen!

STANDORTE
it-novum GmbH Deutschland
Hauptsitz
Edelzeller Straße 44 36043 Fulda Deutschland

Niederlassungen
Ruhrallee 9, 44139 Dortmund Königsallee 92a, 40212 Düsseldorf
E-Mail: info@it-novum.com
Tel.: +49 661 103-434
it-novum Zweigniederlassung Österreich
Ausstellungsstraße 50 / Zugang C
1020 Wien

E-Mail: info@it-novum.at
Tel.: +43 1 205 774 1041

it-novum Schweiz GmbH
Hotelstrasse 1,
8058 Zürich

E-Mail: info@it-novum.ch
Tel.: +41 44 567 62 07

Pentaho User Meeting 2021: Usecases, Praxisbeispiele und Live-Demos zu Pentaho