EN | DE

Hadoop Yarn – Big Data beschleunigen

Hadoop Yarn sorgt für eine effiziente Clusterauslastung
Hadoop Yarn sorgt für eine effiziente Clusterauslastung

Der MapReduce-Algorithmus, der in Hadoop zur Datenanalyse eingesetzt wird, ist für die vielfältigen Anwendungsgebiete nicht immer optimal, da er ursprünglich für die Batch-Verarbeitung entwickelt wurde. Um eine größere Skalierbarkeit, Teilbarkeit und Zuverlässigkeit eines Hadoop-Clusters zu erreichen, haben die Entwickler mit Hadoop Yarn deshalb eine hierarchische Modifizierung am Cluster-Framework vorgenommen.

Paralleles Analysieren und Verdichten
Als Teil von Hadoops Kernprojekt wurde Yarn für das Ressourcenmanagement innerhalb eines
Clusters entwickelt. Das Framework ist für die parallele, verteilte Bearbeitung von Daten in einer Cluster-Umgebung zuständig. Yarn nutzt sogenannte Container, um verschiedene Anwendungen auf den speziellen Hosts voneinander zu trennen – das verbessert die Ressourcennutzung im gesamten Cluster. Neben der klassischen Batch-Verarbeitung lässt sich mit Yarn eine ganze Reihe zusätzlicher Verarbeitungsmodelle wie Graphen-, Stream- und Echtzeitverarbeitung parallel durchführen.

Trennung von Ressourcen- und Job-Management
Yarn entkoppelt die Datenverarbeitung von MapReduce und verteilt die zwei Hauptfunktionen des JobTrackers – Ressourcen-Management und Job-Scheduling – auf zwei separate Daemons: der Daemon ResourceManager und sein pro-Knoten-Slave, der NodeManager, bilden zusammen ein System zur Verwaltung der Anwendungen in verteilter Weise. Der Daemon ApplicationMaster wird vom ResourceManager beauftragt, um Teilaufgaben zusammen mit dem NodeManager auf den einzelnen Nodes auszuführen und zu überwachen. Zusätzlich wird der ResourceManager von einem Scheduler unterstützt, dessen Aufgabe es ist, die noch zur Verfügung stehenden Kapazitäten der laufenden Anwendungen zu identifizieren.

Vorteile von Yarn:

  • Höhere Geschwindigkeit und Effizienz beim Verarbeiten von großen Datenmengen im
    Apache Hadoop-System,
  • die Graphen-, Stream- und Echtzeitverarbeitung in Verbindung mit Impala oder Spark,
  • die Auslastung im Hadoop-Cluster wird gesteigert

Effiziente Clusterauslastung
Aufgrund der Teilung in Ressourcenverwaltungs- und Scheduling-Funktionen verbessert Yarn, neben einer höheren Gesamteffizienz, auch die Clusterauslastung: Daten lassen sich vom zugrundeliegenden verteilten Dateisystem und den Datenbanktabellen lesen, auf diese schreiben und aktualisieren. Daraus ergibt sich für Unternehmen ein noch breiteres Spektrum an Hadoop-Anwendungen im Big Data-Bereich.

Diese Artikel könnten Sie auch interessieren:

Es war noch nie so einfach anzufangen

Lassen Sie uns über Ihr Projekt sprechen.

Wir sollten uns kennenlernen!

STANDORTE
it-novum GmbH Deutschland
Hauptsitz
Edelzeller Straße 44 36043 Fulda Deutschland

Niederlassungen
Ruhrallee 9, 44139 Dortmund Königsallee 92a, 40212 Düsseldorf
E-Mail: info@it-novum.com
Tel.: +49 661 103-434
it-novum Zweigniederlassung Österreich
Ausstellungsstraße 50 / Zugang C
1020 Wien

E-Mail: info@it-novum.at
Tel.: +43 1 205 774 1041

it-novum Schweiz GmbH
Hotelstrasse 1,
8058 Zürich

E-Mail: info@it-novum.ch
Tel.: +41 44 567 62 07

Pentaho User Meeting 2021: Usecases, Praxisbeispiele und Live-Demos zu Pentaho