Vom Data Warehouse zum Echtzeit-Daten-Streaming

Inhalt

In 5 Schritten zur Unternehmenssteuerung in Echtzeit

Heutzutage müssen Unternehmen Daten häufig in Echtzeit erfassen und aus verschiedenen Quellen auswerten, um in bestimmten Situationen sofort passende Maßnahmen ergreifen zu können. Dazu ist ein direktes Streaming von Daten und sofortige Datenanalysen erforderlich. Nur so können Unternehmen wettbewerbsfähig bleiben und schnell auf Veränderungen reagieren.

Früher war das Data Warehousing darauf ausgerichtet, die Vergangenheit zu analysieren. Es sammelte, speicherte und bewertete historische Daten, um langfristige strategische Endscheidungsprozesse zu unterstützen, wobei der Echtzeit-Nutzen dieser Daten weniger relevant war. Doch heute hat sich diese Landschaft dramatisch verändert, da Unternehmen immer mehr das „Jetzt“ kontrollieren wollen. Dieser Paradigmenwechsel ist vor allem auf den gestiegenen Bedarf an datengetriebenen, operativen Entscheidungsprozessen zurückzuführen, die auf Echtzeit-Daten basieren.

Aber wie kommen wir von einer klassischen Data-Warehouse-Architektur zum Echtzeit-Daten-Streaming? Dies wollen wir ihnen in den folgenden fünf Schritte erläutern.

1. Die Stärken des bestehenden DWHs nutzen

Die etablierte Stärke des Data Warehouse liegt in der Durchführung historischer und strategischer Analysen sowie als zentrale Quelle für Unternehmensberichte. Das Data Warehouse und die entsprechenden ETL-Prozesse haben die Fähigkeit, Daten in großen Mengen zu verarbeiten und aus den Quellsystemen zu extrahieren.

Auch bezogen auf den Wert der Daten bietet das Data Warehouse eine hohe Datenqualität, indem es Daten aus unterschiedlichen Quellen sammelt und harmonisiert und als “Single Source of Truth” für das Berichtswesen des Unternehmens fungiert. Damit gewährleistet das Data Warehouse, dass alle Berichte und Analysen auf konsistenten und verlässlichen Daten beruhen.

Dieses hohe Maß an Datenqualität und -konsistenz ist von unschätzbarem Wert für die Entscheidungsfindung und auch eine wichtige Quelle, die mit den anfallenden Streaming Daten kombiniert werden sollte. Denn nur durch diese Kombination, lässt sich die Akzeptanz einer neuen Streaming- und Echtzeitdatenlösung stark erhöhen. 

2. Streaming Infrastruktur implementieren

Im nächsten Schritt steht die Implementierung einer geeigneten Streaming-Infrastruktur im Unternehmen an, um einzelne Anwendungsfälle in Echtzeit streamen zu können. Hier kommt eine Kombination aus Debezium und Apache Kafka ins Spiel, die eine Revolution im Echtzeit-Reporting verspricht. Debezium, eine Open-Source Change Data Capture (CDC) Plattform, erlaubt es, Änderungen in der Datenbank des Quellsystems sofort zu erfassen und Kafka, eine führende Event-Streaming-Plattform, nimmt diese Änderungen auf und stellt sie zur sofortigen Verarbeitung bereit.

Diese neue Infrastruktur kann dann mit bestehenden ETL-Werkzeugen wie bspw. Pentaho kombiniert werden. Die Daten können dann bspw. in 15min Takt in bestehende DWH geladen werden und so einen Echtzeit- Anwendungsfall ergänzen ohne das für die Endnutzer weitere Infrastruktur notwendig ist.

3. Streaming auf weitere Anwendungsfälle ausdehnen

Der nächste natürliche Schritt besteht darin, die Vielfalt der Anwendungsfälle zu erhöhen. Dies erfordert allerdings Modifikationen in der bestehenden Data-Warehouse-Architektur.

Ein zentrales Hindernis bei der Implementierung dieser angepassten Architektur besteht darin, dass klassische SQL-Datenbanken oftmals nicht für Streaming-Anwendungen und damit eine hohe Anzahl von Inserts bzw. Updates ausgelegt sind. Sie wurden ursprünglich nicht für Echtzeit-Datenverarbeitung und -Streaming entwickelt, was Herausforderungen hinsichtlich Performance und Skalierbarkeit mit sich bringt.

Hier kommen Datenbanktechnologien, die speziell für Streaming-Anwendungen optimiert sind, zum Einsatz. Beispielsweise sind Snowflake und Clickhouse zwei solcher Datenbanksysteme, die speziell für die effiziente Verarbeitung von Datenstreams konzipiert wurden. Sie bieten erweiterte Funktionen zur Skalierung und Performanz, was sie ideal für den Einsatz in modernen datenintensiven Umgebungen macht.

Auch die Kapazität des ETL-Werkzeuges sollte erhöht werden, da zukünftig mit einer kontinuierlicheren Last geplant werden muss.

4. Daten eventbasiert verarbeiten

Mit immer komplexer werdenden Business-Anforderungen an die Streaming-Fähigkeiten eines Data Warehouse, stoßen die klassischen ETL-Werkzeuge an ihre Grenzen, da das Laden von Daten im Minutenzeitfenster nicht mehr ausreichend ist und eine schnellere Datenbereitstellung erforderlich ist.

Dies erfordert die Umstellung der ETL-Verarbeitung auf Werkzeuge, die speziell für Stream-Processing entwickelt wurden. Beispiele für solche Werkzeuge sind Apache Flink, Kafka Streams und Apache Spark Streaming. Diese Tools können riesige Datenströme in Echtzeit verarbeiten, Anomalien in den Daten identifizieren und sofortige Einblicke liefern. Sie unterstützen auch meist komplexe Ereignisverarbeitung, maschinelles Lernen und fortschrittliche Analysefunktionen.

5. Die Transformation zur Echtzeit-Analyse Ihrer Unternehmensdaten

Der letzte Schritt besteht darin, die Transformation zu einem Event-driven Unternehmen durchzuführen. Dies erfordert einen radikalen internen Kulturwandel, bei dem die Daten nicht mehr nur als statische Informationspunkte betrachtet werden, sondern als dynamische Business Events, die kontinuierlich analysiert und auf die reagiert werden muss.

Die bisher dargestellten Technologien spielen dabei eine Schlüsselrolle, indem sie die Erfassung, Analyse und Reaktion auf diese Ereignisse in Echtzeit ermöglichen.

Entwicklung zum Event-Driven Unternehmen

Durch die Verwendung der vorgestellten Technologien können Unternehmen sofortige Einblicke in ihre Daten erhalten und schnelle, datengesteuerte Entscheidungen treffen. Sie ermöglichen eine nahezu sofortige agile Reaktion auf Veränderungen und Ereignisse und tragen so zu einer verbesserten Geschäftsleistung bei.

Die vollständige Integration dieser Technologien in den Geschäftsbetrieb kennzeichnet die Veränderung zu einem datengesteuerten, proaktiven Geschäftsmodell.

Dies erfordert jedoch nicht nur technische Änderungen, sondern auch einen kulturellen Wandel: Daten müssen als ständige, wertvolle Quelle von Geschäftseinblicken verstanden werden und die Geschäftsabläufe müssen entsprechend angepasst werden, um diese Einblicke optimal zu nutzen.

Fazit

Zusammengefasst hat sich das Data Warehousing von einem hauptsächlich retrospektiven Tool zu einem wichtigen Bestandteil der modernen, datengetriebenen Entscheidungsfindung entwickelt. Der Fokus liegt nun auf Echtzeit-Daten, die es Unternehmen ermöglichen, aktuelle Prozesse zu überwachen, zu optimieren und zu steuern, um konkurrenzfähig zu bleiben und ihre Ziele zu erreichen.

Weitere Informationen, wie der Weg vom Data Warehouse zum Echtzeit-Streaming gelingt, verrät das kostenfreie Whitepaper „Ihr Weg zum Streaming von Echtzeit-Daten“ von it-novum.