Data Onboarding: so werden Data Lakes einfach und kostengünstig befüllt

Inhalt

Data Lake

 

 

Das vom Pentaho-Gründer James Dixon entwickelte Data Lake-Konzept ist für die Ausführung großer Analysesysteme ausgelegt. Die Technologie ist zum Abfragen und Untersuchen von Daten im Petabytebereich vorgesehen, die einen hohen Verarbeitungsdurchsatz erfordern. Im Data Lake-Speicher abgelegte Daten können anschließend problemlos mit Hadoop-Technologien wie MapReduce, Spark, Tez oder Hive analysiert werden.

Die Definition von Data Lake schreibt keine bestimmte Speichertechnologie vor, sondern nur Anforderungen. Während Data Lakes in der Regel gleichbedeutend mit Hadoop diskutiert werden  – – welches eine hervorragende Wahl für viele Data Lake Aufgabenstellungen ist –  kann ein Data Lake tatsächlich auf verschiedenen Technologien wie NoSQL (HBase, MongoDB), Object Stores (Amazon S3) oder RDBMS beruhen.

Ein wesentlicher Vorteil von Data Lake-Speichern ist, dass sie beliebige Daten ohne vorherige Umwandlung im systemeigenen Format speichern können. Konkret bedeutet dies, dass es nicht notwendig ist, vor dem Laden der Daten ein Schema zu definieren. Die Definition eines Schemas erfolgt direkt zum Zeitpunkt der Analyse durch die Interpretation der Daten. Damit wird das Schema – im Gegensatz zum traditionellen Data Warehouse Ansatz – erst beim eigentlichen Lesen der Daten gebildet (Schema on Read). Das erlaubt eine hohe Flexibilität der Analysen und eine starke Vereinfachung des Data Ingest.

 

Data Lake Management: 4 Best Practices für aussagekräftigere Daten

 

 

In diesem Video zeigen wir Ihnen kurz & komprimiert die wichtigsten Best Practices für einen dynamischen und zukunftskompatiblen Data Lake.

  • Automatisierung
    Die Vielfalt und Geschwindigkeit der Daten, die in den Data Lake fließen, erfordert die Automatisierung der Prozesse für die Datenerfassung und -transformation.
  • Data Profiling
    Lernen Sie Ihre aktuellen Data Assets kennen und ihren Ist-Zustand (Data Quality und Lineage).
  • Data Catalog
    Ein Datenkatalog hilft bei der Verwaltung und Pflege vorhandener Datensätze, damit Anwender den größtmöglichen Nutzen daraus ziehen können.
  • Data Governance und Metadatenmanagement
    Ein gut gepflegter Data Lake enthält qualitativ hochwertige Daten, die vertrauenswürdig und sicher sind.

 

Data Lake – Maximieren Sie den Wert Ihrer Daten

 

Sie haben bereits einen Hadoop-Cluster eingerichtet, verbringen aber zu viel Zeit mit der Beladung des Data Lake?

In diesem Video zeigen wir Ihnen, wie Sie Ihre Daten integrieren – automatisiert und kostengünstig.

Beim Beladen von Hadoop müssen normalerweise viele verschiedene Datenformate und -quellen integriert werden. Automatisierte Verarbeitungsprozesse sind deshalb wichtig, damit das Befüllen effizient, zeit- und ressourcenschonend erfolgen kann.

Die BI-und Big Data-Experten von it-novum, Stefan Müller und Philipp Heck (Data Lake Einführung von Prof. Peter Gluchowski, Vorstandsmitglied TDWI Germany e.V.), stellen im Video vor, wie Sie Ihren Data Lake dank Pentaho mit wenigen Klicks befüllen. Ein einmalig angelegtes Template wählt über Metadaten die richtigen Schritte für das jeweilige Datenformat aus und lädt die Daten automatisiert in Hadoop.

Das Beladen läuft dadurch integriert ab: Metadaten lassen sich im laufenden Betrieb in den Workflow einspeisen und hunderte von Datenquellen mit einem einzigen Template verwalten. Einfacher geht Big Data Analytics nicht!

Sehen Sie im Video, wie Sie dreifach von der automatisierten Data Lake-Befüllung profitieren:

 

  • der Entwicklungsprozess verkürzt sich drastisch
  • die Datenprozesse sind einfacher zu verwalten
  • Sie können Daten schneller Ihren Anwendern zur Verfügung stellen

 

Den Data Lake einfach befüllen – die Vorteile von Pentaho

 

  • Umfassend. Im “Metadata Injection”-Prozess können im laufenden Betrieb Metadaten in den Workflow eingespeist werden. Dadurch lassen sich hunderte von Datenquellen mit einem einzigen generischen Workflow Template verwalten. Der Daten-Upload läuft tief integriert ab.
  • Zeitersparnis. Pentaho erfasst Daten aus tausenden unterschiedlichen Dateienquellen oder Datenbanken in einem Prozess, anstatt in tausend einzelnen.
  • Arbeitserleichterung. Nur ein ETL-Template für den gesamten Datenfluss wird definiert, ohne dass die Metadaten aufwändig spezifiziert werden müssen.
  • Geringere Entwicklungskosten. Die Abhängigkeit von hart codierten Datenerhebungsverfahren wird stark reduziert. Die reguläre Datenübertragung in Hadoop läuft vereinfacht ab.

 

Ihr Vorteil

Der Data Lake-Speicher bewältigt eine hohe Zahl von Schreibvorgängen mit geringen Datenmengen bei niedriger Latenz. Daher eignet sich diese Lösung ideal für Szenarien, in denen Daten nahezu in Echtzeit und zu möglichst geringen Kosten verarbeitet werden müssen – z. B. bei Analysen von Websites und über das Internet of Things verbundene Geräte und Sensoren. NoSQL-Datenbanken wie spaltenbasierte und Schlüssel-Wert-Speicher können ebenfalls in Data Lakes integriert werden.