Apache Hadoop – ein bewährtes Open Source-Framework

Inhalt
Die wichtigsten zehn Big Data-Technologien
Apache Hive hilft, den Durchblick im Datenwald zu behalten

Viele Unternehmen stehen vor dem Problem, dass ihnen einfach die Zeit fehlt, um ihre Daten zu analysieren. Ein System wie Hadoop organisiert die Verarbeitung und den Datenfluss dergestalt, dass die Verarbeitungszeit bei zunehmendem Datenvolumen sinkt. Im Big Data-Bereich spielt Hadoop mittlerweile bei vielen Lösungen eine zentrale Rolle.

Je mehr Daten, desto schneller die Bearbeitung

Apache Hadoop ist ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Ursprünglich für Internet-Riesen wie Facebook, Google und Yahoo entwickelt, ist Hadoop besonders für Datenauswertungen geeignet, bei denen aufwendige Analysen durchgeführt werden müssen. Dabei gehen die verschiedenen Auswertungsverfahren im Hadoop-System weit über die Möglichkeiten traditioneller Business Intelligence-Tools hinaus.

Unternehmen profitieren durch den Einsatz von Hadoop

  • große und vielfältige Datenmengen kostengünstig gespeichert werden – damit lohnt sich auch die Vorratshaltung von Rohdaten, deren Wert oft noch unklar ist;
  • es auf preiswerter Hardware ohne Bindung an einen bestimmten Hersteller läuft;
  • die Daten auf vielfältige und flexible Weise analysiert werden können;
  • die Analyseerkenntnisse zeitnah zur Verfügung stehen und damit aktuelle Unternehmensentscheidungen unterstützt werden.

Hohe Geschwindigkeiten durch dezentrale Datenverarbeitung

Hadoop nutzt eine Shared Nothing-Architektur, die dafür sorgt, dass jeder Rechner des verteilten Systems unabhängig von den anderen seine Aufgaben erfüllt. Weil die Daten nicht erst über den Prozessor wandern müssen, sondern direkt in dezentralen Storage-Systemen verarbeitet werden, erzielt Hadoop auch bei großen Datenmengen hohe Verarbeitungsgeschwindigkeiten.

Für die Aufteilung auf mehrere Recheneinheiten des Clusters sorgt MapReduce. Das Framework ist einer der wichtigsten Bestandteile von Hadoop. Es basiert auf einem Divide-and-Conquer-Ansatz, d.h. der eigentliche Job wird in mehrere Teil-Jobs unterteilt und bearbeitet, was die Berechnungszeit insgesamt deutlich reduziert.

Fehlertoleranz und Ausfallsicherheit

Für die Speicherung der riesigen Datenmengen stellt Hadoop das fehlertolerante Speichersysem HDFS (Hadoop Distributed File System) zur Verfügung. Neben der Speicherung großer Datenmengen kann HDFS seine Kapazität stufenweise erweitern und den Ausfall signifikanter Teile der Speicherinfrastruktur überdauern, ohne Daten zu verlieren. Dazu bildet HDFS Cluster und koordiniert die Arbeit, die in ihnen anfällt. Auf der Architekturseite ist HDFS als Master-Slave-System aufgebaut. Der NameNode ist die zentrale Master-Komponente. Er verwaltet die Metadaten für alle gespeicherten Daten auf allen DataNodes, die die Slave-Komponenten der Architektur bilden.

Die umfangreichste und am meisten eingesetzte Version von Hadoop ist „Cloudera’s Distribution including Apache Hadoop“ (CDH). CDH kombiniert als einzige Hadoop-Lösung individuell auswählbare Erweiterungen, eine Batch-Verarbeitung, interaktives SQL und eine interaktive Suche sowie die kontinuierliche Verfügbarkeit auf Unternehmensniveau.

Diese Artikel könnten Sie auch interessieren: