Interview: Data Warehouse in der Cloud

Inhalt
Rene Medak, Sales Director bei Snowflake
Rene Medak, Sales Director bei Snowflake

Themen wie Geschwindigkeit, Flexibilität und Data Sharing werden im Data Warehouse-Bereich immer wichtiger für Unternehmen. Klassische Data Warehouses können die durch Digitalisierung und Big Data veränderten Anforderungen kaum noch erfüllen. Welche Vorteile die Cloud für Data Warehousing besitzt, stellt Rene Medak vom Cloud-Spezialisten Snowflake auf dem Pentaho User Meeting am 11. März vor. Ich habe mich mit ihm über die wachsende Bedeutung der Cloud für Datenhaltung und -analyse unterhalten.

 

Rene, wer bist du?

Ich bin 41 Jahre, verheiratet, habe zwei Kinder (3 und 8) und wohne in der Nähe von Fulda. Seit einigen Jahren beschäftige ich mich intensiv mit “Big Data” und dem perfekten Setup für Data Analytics. Es ist extrem spannend zu sehen, was man mit Daten alles bewegen kann!

Als langjähriger Mitarbeiter von Pentaho/Hitachi Vantara und später Hortonworks/Cloudera stehen bei mir Datenintegration, Analytics und BI täglich im Fokus. Seit vergangenem Jahr bin ich für die öffentlichen Auftraggeber in Deutschland und den kompletten österreichischen Markt bei Snowflake verantwortlich. Das Cloud Data Warehouse ist aus meiner Sicht das perfekte Herzstück einer Analytics-Plattform – kompatibel, flexibel sowie unlimitiert skalierbar – und ich bin aktuell fasziniert von der rasanten Entwicklung speziell in diesem Bereich!

 

Für viele deutsche Unternehmen ist das Thema „Daten in der Cloud“ noch mit Bedenken verknüpft. Was ist eure Antwort darauf?

Mittlerweile sind die Cloud-Bedenkenträger eher in der Unterzahl. Die großen Unternehmen setzen ganz intensiv auf eine Cloud-Strategie, zumal die Themen Geschwindigkeit, Data Sharing, und Flexibilität eine immer größere Rolle spielen und spielen werden. Auch das Monetäre ist bei stetig steigendem Datenvolumen ein entscheidender Faktor. Die Data Warehouses sind auf Spitzenzeiten ausgelegt und verursachen Tag für Tag unnötige Kosten. Mit Lösungen wie Snowflake lassen sich diese trotz viel höherer Geschwindigkeit auf einen Bruchteil reduzieren, da man strikt Storage und Compute trennt.

Snowflake setzt auf den drei großen Cloud Anbietern Amazon, Microsoft und Google auf. Der Sicherheitsstandard befindet sich in diesem Bereich auf einem hervorragenden Niveau. Der größte Markenname “Disney” lässt beispielsweise sämtliche interne Daten, den Streamingdienst Disney Plus oder die Daten aus den riesigen Vergnügungsparks über Snowflake in der Cloud analysieren. Auch große Finanzunternehmen, die vor einiger Zeit der Cloud noch recht konservativ gegenüberstanden, migrieren immer häufiger. Generell ist das Cloud Data Warehouse nicht mehr nur ein Trend, sondern eine klare Richtungsvorgabe in vielen Unternehmen.

 

Wie haben sich Lösungen und Anforderungen der Unternehmen in den letzten 10 Jahren verändert?

Es ist noch gar nicht so lange her, vielleicht 6-7 Jahre, da haben Unternehmen erst begonnen, über das Thema Big Data nachzudenken. Für viele war es lange Zeit nicht interessant, da man glaubte, dass unter dem Begriff nur eine große Ansammlung von Daten zu verstehen ist, die man oftmals aufgrund der Speicherplatzkosten nicht vorhalten wollte.

Heute wissen die meisten, dass die Herausforderung eine ganz andere war: unstrukturierte Daten wie Log Files, Videofiles, Sensordaten etc. wurden immer bedeutender und es mussten Lösungen geschaffen werden, auch diese Daten verarbeiten zu können. Moderne ETL Tools für das Transformieren der Daten oder eine Bereinigung der Daten für akkurate Ergebnisse im Reporting wurden ein Muss, denn “Handcoding” war nicht mehr zeitgemäß und auch in einem zeitkritischen Markt keine Option mehr. Ein typisches Setup war somit ein Data Warehouse inklusive eines ETL-Werkzeugs wie Pentaho oder Talend und einer passenden BI-Lösung.

Das rapide ansteigende Datenvolumen zwang Unternehmen dazu, ein Ausufern der Kosten zu verhindern und die unstrukturierten Daten zu speichern und zu verarbeiten. NoSQL-Datenbanken wie MongoDB oder CouchDB wurden implementiert, auf denen sämtliche Daten ablegt wurden. Allerdings gingen zum Unmut vieler IT-Mitarbeiter die Vorteile einer SQL Datenbank verloren. Durchgesetzt hat sich dieses Vorgehen deshalb nur in Teilen.

Vor einiger Zeit machten die Hadoop-Plattformanbieter wie MAPR, Hortonworks und Cloudera von sich reden. Sie ermöglichten den Aufbau eines Data Lakes mit Open Source-Technologie, der generell erstmal kostenfrei war. Ich bin persönlich ein großer Fan von offenen Technologie, die man mit den richtigen Closed Source-Komponenten wunderbar kombinieren kann. Allerdings ist der Aufbau eines Hadoop-Umfeldes mit seinen vielen Apache Hadoop Tools und Entwicklungsschritten eine Mammutaufgabe für viele Unternehmen und man sieht im Markt einen eher abfallenden Trend. Dies liegt womöglich auch an den hohen Support- und Consultingkosten und am Expertenmangel. Auch wenn man alle Daten im großen Hadoop Datalake vorhält, so ist die Verarbeitung und Konsumierung nochmal eine andere Aufgabe.

Das alles hat dazu geführt, dass sich am Markt eine recht große Unsicherheit breit gemacht hat. Dass war einer der Faktoren, die Snowflake derart schnell zum Marktführer gemacht haben.

 

Warum ist das so?

Unternehmen kämpfen heute mit Datensilos, vielen internen und externen Datenquellen, Problemen beim Ingest & Queries der Daten, zu langen Ladezeiten aufgrund immer größeren Datensätzen, die dazu noch permanent mit Livedaten angereichert werden. Oftmals sind die Daten nicht akkurat und trotzt steigender Instandhaltungs- und Hardware-Kosten wird das Ziel, Entscheidungen auf Basis von Reports zu treffen, nicht erreicht.

Snowflake schlägt mit seiner Cloud Data Warehouse Lösung nun genau in diese Kerbe. Unstrukturierte und strukturierte Daten auf SQL-Basis verarbeiten, Rechenleistung buchen, wie man sie benötigt, Storage skalieren und nie wieder für ein Reporting in der Warteschleife hängen, keine Concurrency-Probleme und dies auch noch ohne Instandhaltungsausgaben. Viele Unternehmen sehen darin die perfekte Lösung eines Data Warehouse. Außerdem hat man das Herzstück einer Analytics-Plattform geschaffen, das sich mit allen wichtigen Tools am Markt integrieren lässt.

 

Aber wie sieht die vielleicht perfekte Lösung für Unternehmen heute aus?

Es gibt mittlerweile Streamingtools, AI und Machine Learning. Die Wahrheit ist aber, dass nur wenige Unternehmen Anwendungen dafür haben. Wenn wir eines in den vergangenen Jahren gelernt haben, dann dass man den Unternehmen und zwar der IT und vor allem den Fachanwendern im Self Service Reporting-Bereich das Leben so einfach wie möglich machen muss. Es ist sicher immer usecase-abhängig zu betrachten, aber generell ist meine Empfehlung ein modernes ETL Tool, ein Cloud Data Warehouse und eine BI Software als Grundgerüst jeder Analytics-Plattform.

Zusammenfassend kann man sagen, dass man sich vor allem in den letzten drei Jahren in verschiedenen Bereichen mehr oder weniger erfolgreich versucht hat. Es scheint sich aber ein klarer Trend abzuzeichnen, und dieser ist sehr cloud-lastig. Geschwindigkeit, Datenqualität, Flexibilität, Daten schnell mit Partnern teilen und eine “single source of truth” sind die wichtigsten Eckpfeiler, um eine Voraussetzung zu schaffen: Daten komplett vertrauen zu können, um in Zukunft Entscheidungen ruhigen Gewissens treffen zu können.


 

Diese Artikel könnten Sie auch interessieren: