EN | DE

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co – Teil 1: Das Data Warehouse und seine Grenzen

Klassisches Data Warehouse (Quelle Pentaho)
Klassisches Data Warehouse (Quelle Pentaho)

Seit vielen Jahren setzen Unternehmen auf Technologien zur Datenintegration und auf ein Data Warehouse, um ihre Unternehmensprozesse zu optimieren. Denn in den Datenbergen ihrer IT-Systeme liegt wertvolles Wissen und ein enormes Potential verborgen. Mit Business Intelligence Werkzeugen lässt es sich zutage fördern. Allerdings produzieren Unternehmen immer schneller immer mehr Daten und benötigen gleichzeitig Auswertungen in immer kürzeren Intervallen. Der klassische Data Warehouse-Ansatz stößt da an seine Grenzen. Big Data-Technologien versprechen Abhilfe und eine Modernisierung des althergebrachten Data Warehouse-Konzepts.

Sate-of-the-art anno 198X
In Zeiten von Big Data, MapReduce und NoSQL wirkt das aus den 80er Jahren stammende Konzept des Data Warehouse angestaubt. Laut Definition ist es „eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“ Das Data Warehouse integriert relevante Informationen aus allen operativen Quellen eines Unternehmens und liefert Analysen und Berichte zur Steuerung des Unternehmens. Diese in Informationen verwandelten Daten tragen dazu bei, bessere Entscheidungen zu treffen und Wettbewerbsvorteile zu erringen.

Die Daten werden mit sogenannten Extraktions-, Transformations- und Ladeprozessen (ETL-Prozessen) automatisiert im Data Warehouse zusammengeführt. Dabei werden sie bereinigt, angereichert und konsolidiert. Zusätzlich können Data Marts aufgebaut werden, die für spezielle Anwendungen, Organisationseinheiten oder Geschäftsbereiche Abzüge des Data Warehouse erstellen. Data Marts sind in der Regel multidimensional aufgebaut und lassen sich daher optimal von analytischen Anwendungen nutzen. Das Data Warehouse bzw. die Data Marts sind die zentrale Datenbasis für alle Analysen und Berichte im Unternehmen.

Relationale Datenbanksysteme sind ausgereift …
Data Warehouse-Systeme basieren auf relationalen Datenbanksystemen (RDBMS), die eine Reihe von Vorteilen bieten:

•    Ausgereifte, hoch entwickelte Datenbanksoftware
•    Weit verbreitetes, schnell verfügbares Wissen
•    SQL als mächtige und standardisierte Abfragesprache
•    Viele Business Intelligence-Frontends verfügbar
•    Hohe Zuverlässigkeit und Konsistenz
•    Umfangreiche Security-Features für die Zugriffskontrolle
•    Backup- und Rollback-Features bei Datenverlusten

Neue Anforderungen an Data Warehouse und Analysen (Quelle Pentaho)
Neue Anforderungen an Data Warehouse und Analysen (Quelle Pentaho)

… und ausgereizt!
Allerdings bereitet die Skalierung von RDBMS bei extrem hohen Datenvolumen unter Umständen Probleme: Bei kommerzieller Datenbanksoftware können hohe Lizenzkosten auftreten und die Performance leidet in der Regel bei hohen Datenvolumen, wodurch ETL-Prozesse wie auch die Abfragegeschwindigkeit ausgebremst werden. Bei umfangreichen Modellen kann es außerdem schwierig sein, das Schema einer relationalen Datenbank zu erweitern und anzupassen. Zusätzlich zum reinen Volumen können auch die Frequenz der Datenerzeugung und deren Speicherung eine Herausforderung darstellen. Werden zudem immer mehr Daten in nicht standardisierten Formaten für geschäftliche Analysen herangezogen, stoßen relationale Datenbanken schnell an ihre Grenzen. Sie sind schlichtweg nicht auf die Speicherung von unstrukturierten Daten ausgelegt und deshalb keine ideale Lösung für den Umgang mit heterogenen Datenformaten.

Diese Grenzen herkömmlicher Data Warehouses haben dazu geführt, dass unterschiedliche technologische Ansätze entwickelt wurden, die diese Probleme lösen. Die nächsten Beiträge dieser kleinen Serie gehen auf neue Technologien sowie das Zusammenspiel zwischen Data Warehouse und den Big Data Stores ein und zeigen, wie sich Synergien nutzen und die Vorteile beider Ansätze kombinieren lassen:

Es war noch nie so einfach anzufangen

Lassen Sie uns über Ihr Projekt sprechen.

Wir sollten uns kennenlernen!

STANDORTE
it-novum GmbH Deutschland
Hauptsitz
Edelzeller Straße 44 36043 Fulda Deutschland

Niederlassungen
Ruhrallee 9, 44139 Dortmund Königsallee 92a, 40212 Düsseldorf
E-Mail: info@it-novum.com
Tel.: +49 661 103-434
it-novum Zweigniederlassung Österreich
Ausstellungsstraße 50 / Zugang C
1020 Wien

E-Mail: info@it-novum.at
Tel.: +43 1 205 774 1041

it-novum Schweiz GmbH
Hotelstrasse 1,
8058 Zürich

E-Mail: info@it-novum.ch
Tel.: +41 44 567 62 07

Pentaho User Meeting 2021: Usecases, Praxisbeispiele und Live-Demos zu Pentaho