Viele Unternehmen stehen vor dem Problem, dass ihnen einfach die Zeit fehlt, um ihre Daten zu analysieren. Ein System wie Hadoop organisiert die Verarbeitung und den Datenfluss dergestalt, dass die Verarbeitungszeit bei zunehmendem Datenvolumen sinkt. Im Big Data-Bereich spielt Hadoop mittlerweile bei vielen Lösungen eine zentrale Rolle.
Je mehr Daten, desto schneller die Bearbeitung
Apache Hadoop ist ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Ursprünglich für Internet-Riesen wie Facebook, Google und Yahoo entwickelt, ist Hadoop besonders für Datenauswertungen geeignet, bei denen aufwendige Analysen durchgeführt werden müssen. Dabei gehen die verschiedenen Auswertungsverfahren im Hadoop-System weit über die Möglichkeiten traditioneller Business Intelligence-Tools hinaus.Unternehmen profitieren durch den Einsatz von Hadoop
- große und vielfältige Datenmengen kostengünstig gespeichert werden – damit lohnt sich auch die Vorratshaltung von Rohdaten, deren Wert oft noch unklar ist;
- es auf preiswerter Hardware ohne Bindung an einen bestimmten Hersteller läuft;
- die Daten auf vielfältige und flexible Weise analysiert werden können;
- die Analyseerkenntnisse zeitnah zur Verfügung stehen und damit aktuelle Unternehmensentscheidungen unterstützt werden.
Hohe Geschwindigkeiten durch dezentrale Datenverarbeitung
Hadoop nutzt eine Shared Nothing-Architektur, die dafür sorgt, dass jeder Rechner des verteilten Systems unabhängig von den anderen seine Aufgaben erfüllt. Weil die Daten nicht erst über den Prozessor wandern müssen, sondern direkt in dezentralen Storage-Systemen verarbeitet werden, erzielt Hadoop auch bei großen Datenmengen hohe Verarbeitungsgeschwindigkeiten.Für die Aufteilung auf mehrere Recheneinheiten des Clusters sorgt MapReduce. Das Framework ist einer der wichtigsten Bestandteile von Hadoop. Es basiert auf einem Divide-and-Conquer-Ansatz, d.h. der eigentliche Job wird in mehrere Teil-Jobs unterteilt und bearbeitet, was die Berechnungszeit insgesamt deutlich reduziert.
Fehlertoleranz und Ausfallsicherheit
Für die Speicherung der riesigen Datenmengen stellt Hadoop das fehlertolerante Speichersysem HDFS (Hadoop Distributed File System) zur Verfügung. Neben der Speicherung großer Datenmengen kann HDFS seine Kapazität stufenweise erweitern und den Ausfall signifikanter Teile der Speicherinfrastruktur überdauern, ohne Daten zu verlieren. Dazu bildet HDFS Cluster und koordiniert die Arbeit, die in ihnen anfällt. Auf der Architekturseite ist HDFS als Master-Slave-System aufgebaut. Der NameNode ist die zentrale Master-Komponente. Er verwaltet die Metadaten für alle gespeicherten Daten auf allen DataNodes, die die Slave-Komponenten der Architektur bilden.Die umfangreichste und am meisten eingesetzte Version von Hadoop ist „Cloudera’s Distribution including Apache Hadoop“ (CDH). CDH kombiniert als einzige Hadoop-Lösung individuell auswählbare Erweiterungen, eine Batch-Verarbeitung, interaktives SQL und eine interaktive Suche sowie die kontinuierliche Verfügbarkeit auf Unternehmensniveau.
Diese Artikel könnten Sie auch interessieren:
- 10 Big Data-Technologien, die Sie kennen sollten
- Apache Hadoop – ein bewährtes Open Source-Framework
- Apache Hive – das Data Warehouse für Hadoop
- Cloudera Impala – die Lösung für Echtzeitabfragen
- MongoDB – Die Datenbank für alle Fälle
- Pentaho – Flexible Business Intelligence-Plattform
- Infobright – MySQL-Engine mit effektiver Datenkompression
- Apache Spark – Framework für Echtzeitanalysen
- Splunk – Big Data vereinfachen
- Hadoop Yarn – Big Data beschleunigen