Best Practice: Aufbau eines Data Warehouse System mit Open Source Software

Inhalt
Ein Warenhaus für Daten
Ein Warenhaus für Daten

Unternehmen und ihr Umfeld produzieren immer schneller, immer größere Datenmengen. Die anfallenden Daten bergen ein riesiges wirtschaftliches Potenzial – wenn sie richtig verarbeitet und analysiert werden. Ein Data Warehouse System bildet die ideale Grundlage dafür. In diesem Best Practice-Bericht zeigen wir, wie und mit welchen Open-Source-Lösungen ein leistungsfähiges Data Warehouse aufgebaut werden kann.

 

Wenn es darum geht, bessere unternehmerische Entscheidungen auf Grundlage von Datenbeständen zu treffen, ist Data Warehousing nach wie vor das bestimmende Datenhaltungskonzept vieler Unternehmen. Allerdings macht die zunehmende Datenflut die Integration heterogener Datenquellen in einem abgestimmten Datenpool zu einer technisch anspruchsvollen Aufgabe. Außerdem ist der Aufbau eines Data Warehouse häufig mit hohen Lizenz- und Hardwarekosten verbunden. Für Unternehmen, die lieber in Software-Anpassungen investieren als in Software-Lizenzen, stellen praxiserprobte Open Source-Lösungen daher eine echte Alternative dar. Im Bereich Data Management haben Open Source-Software (OSS)-Lösungen einen hohen Reifegrad erreicht. Doch eignet sich Open Source auch für den Aufbau eines performanten Datenlagers?

Diese Best Practice zeigt, wie Sie mit Open Source ein leistungsfähiges Data Warehouse realisieren. Dazu wird eine prototypische Beispielarchitektur konzipiert und aufgebaut. Zum Einsatz kommen die Lösungen Pentaho und Infobright.

Datenlager mit 5-Schichten-Architektur

Ein Data Warehouse System besteht aus fünf Ebenen: Datenquelle, Datenerfassung, Datenhaltung, Datenanalyse und Datenpräsentation. Data Warehouses führen Daten über Extraktions-, Transformations- und Ladeprozesse automatisiert zusammen und bereiten sie auf. Sollen für spezielle Anwendungen oder Geschäftsbereiche Abzüge des Data Warehouse erstellt werden, kann man zusätzlich Data Marts aufbauen. Data Marts sind in der Regel multidimensional konstruiert und daher optimal von analytischen Anwendungen nutzbar. An diesem Konzept hat sich bis heute nicht viel geändert: Data Warehouses stellen die zentrale Datenbasis für alle Analysen und Berichte dar, mit denen das Unternehmen gesteuert werden kann. Das Data Warehouse-System unseres Prototyps besitzt die in der untenstehenden Abbildung dargestellte Struktur.

Als Datengrundlage kommen die Testdaten AdventureWorks2008R2(AWR2) zum Einsatz. Der ETL-Prozess auf der Ebene der Datenerfassung wird mit Pentaho Data Integration realisiert. Das Werkzeug ist Teil der Open Source Lösung Pentaho Business Analytics Suite, die in diesem Beispiel auch für die Datenanalyse und Datenpräsentation verwendet wird. Das eigentliche Data Warehouse innerhalb der Datenhaltung wird mit dem analytischen Datenbankmanagementsystem Infobright abgebildet. Als OLAP-Server kommt Pentaho Mondrian zum Einsatz. Das notwendige XML-Schema wird mit der Pentaho Schema Workbench erzeugt. Sind diese Komponenten umgesetzt, können die Daten auf der Datenpräsentationsebene durch verschiedene Tools von Pentaho in Form von Analysen, Dashboards und Reports aufbereitet werden.

Datengrundlage: multinationales Unternehmen

Die Daten der Backup-Datei repräsentieren ein auf die Fertigung und den Vertrieb von Fahrrädern spezialisiertes, multinationales Unternehmen. Das Datenmodell besteht aus mehr als 70 Tabellen, aufgeteilt nach fünf Unternehmensbereichen. In seiner Komplexität entspricht das Modell den Datenbankstrukturen realer Unternehmen und eignet sich daher gut für Demonstrationszwecke. Der Microsoft SQL-Server ist zwar keine Open Source Software. Das Backup kann aber in CVS-Dateien umgewandelt und anschließend per Bulk Load als Massenimport in jede Open Source-Datenbank geladen werden.