Use Cases mit Pentaho

Inhalt
Jürgen Sluyterman, RSAG
70 Pentaho-Anwender zählte das PUM19

Die Sonne glitzert hinter den Bankentürmen, dabei zeigt die Wetter-App für Frankfurt Regen an. Die Datenbasis des Wetterdienstes scheint nicht besonders gut zu sein. Oder nur nicht ausreichend integriert? Gute Tipps für Datenintegration könnten die Frankfurter Wetterfrösche direkt vor Ort bekommen: das Pentaho User Meeting fand heute zum 6. Mal in der Mainmetropole statt.

Machine und Deep Learning, SAP Analytics, Auswertung von Bewegtbilddaten: die Vorträge des Pentaho User Meetings spiegelten aktuelle Technologiethemen wider. Dabei klang immer wieder durch, dass ohne die Verknüpfung verschiedener Datenquellen, intern wie extern sowie aus der Cloud, keine tiefgehenden Einblicke in Daten möglich sind.

Pentaho und Hitachi Vantara

Pedro Alves
Pedro Alves

Pedro Alves, der bei Hitachi Vantara für Pentaho verantwortlich ist, zählte zunächst die üblichen “Kopfschmerzgründe” beim Umgang mit Daten auf. Neben immer komplexer werdenden Datenumgebungen sind dies vor allem auch größere Anforderungen an Integrationen von Daten zwischen und in verschiedenen Systemen bis hin zu Multi-Cloud-Umgebungen. Dass Unternehmen wichtige Wettbewerbsvorteile aus ihren Daten generieren können, wird pausenlos betont. Pedro nannte konkrete Beispiele aus der Praxis:

  • BT: die Zeit für die Identifizierung einer Cyber-Attacke konnte von Wochen auf Sekunden reduziert werden.
  • Carfax: Computing-Kosten konnten um 25% und Storage-Kosten um 55% gesenkt werden.
  • Stiwa: um 15% gesteigerte Produktivität und um 35% geringere IT-Integrationskosten
  • Caterpillar: durch Predictive Maintenance sparte ein Kunde 8 Millionen Dollar

Was Pentaho besonders macht, sind nicht nur die grenzenlosen Möglichkeiten, Daten aus unterschiedlichsten Systemen zu integrieren, sondern auch das nahtlose Einpassen in jegliche IT-Infrastruktur. Dadurch sind auch komplette Analytics-Architekturen in der Cloud möglich, z.B. mit AWS.

Was ist neu in Pentaho 8.2?

Pentaho Data Integration ist die größte und wichtigste Komponente der Pentaho-Plattform. Jens Bleuel, Senior Product Manager Pentaho Data Integration, stellte vor, was sich in Version 8.2 geändert hat:

  • Verbesserter Zugang, Integration und Verarbeitung einer größeren Vielzahl von Datenquellen mit einem integrierten Portfolio
  • Data Engineers können Modelle verwalten und besser mit Data Scientists zusammenarbeiten
  • Teamzusammenarbeit und Plattformskalierbarkeit wurden stark verbessert

Eine der größten Neuerungen ist die Verfügbarkeit des HCP Connectors für die Integration in das Hitachi-Ökosystem, sprich für die Hitachi Content Plattform. Mit dem Connector können erstmals z.B. riesige Bilder oder Videodateien gespeichert und mit Pentaho weiterverarbeitet werden. Das ermöglicht erstmals auch die Bearbeitung von und das Arbeiten mit Metadaten dieser Art von Dateien. Für Anwender heißt das, dass z.B. Compliance-Fälle adressiert (Unveränderbarkeit von Daten) und sichere Big Data Analyse-Workflows aufgebaut werden können.

Deutsche See: Pentaho im Lebensmittelsektor

Helmut Borghorst, Deutsche See
Helmut Borghorst, Deutsche See

„Moin!“ Helmut Borghorst von Deutsche See gehört mit 10 Jahren Erfahrung mit Pentaho zu den Anwenderveteranen. Das Projekt zeigt, dass für eine erfolgreiche Pentaho-Installation kein Informatikstudium nötig ist: der Diplom-Kaufmann Borghorst führte Pentaho 2009 bei dem Lebensmittelunternehmen ein und hat seitdem das System sukzessive zu einer umfangreichen Reporting- und Analyseplattform ausgebaut.

Deutsche See verarbeitet Fisch und Meeresfrüchte aus der ganzen Welt. In den drei Produktionsstätten in Bremerhaven und 19 Niederlassungen bundesweit arbeiten 1800 Mitarbeiter und beliefern 35.000 Kunden mit 3.500 Artikeln. Neben reinen Fischprodukten werden auch Feinkostsalate, Antipasti, Salate und Sandwiches hergestellt. Die Stammdaten (Produkte, Menge, Preise etc.) hält Deutsche See in einem Kernsystem, auf das alle weiteren Unternehmensbereiche zugreifen und die auch von Pentaho genutzt werden.

Auf Pentaho basiert das Reporting- und Analysesystem, ein unternehmensweites Portal, das einen ganzheitlichen Blick auf die Kunden, Produkte und Verkäufe erlaubt. Das System basiert auf Version 7.0 und einer Oracle-Datenbank mit über 274 GB Datendateien. 500 User arbeiten mit dem Portal, das ca. 18.500 Objekte enthält, mehr als 10 Millionen Belege und insgesamt 51 Millionen Datensätze. Das Portal wurde mit Ctools aufgebaut und umfasst mehrere Bereiche:

  • Vorbereitung: hier bekommen die Kundenberater Berichte für ihre jeweiligen Kunden bzw. Kundenbesuche angezeigt, z.B. welche Artikel hat der Kunde gekauft bzw. nicht mehr gekauft? Wieviel Umsatz generiert er?
  • Unternehmen: Finanzen- und Controlling-Berichte für die Unternehmensführung, die als pdf zur Verfügung gestellt werden
  • Verkauf: Verkaufszahlen und Tendenzen
  • Service: Service- und Logistikberichte
  • Marketing: Top-Listen zu Fischarten und Sortiment
  • Vorlagen: zur Erstellung von Kunden-/Großkundenanalysen

Das Portal generiert die Berichte und Auswertungen in verschiedenen Formaten. Dadurch können neben Pentaho Analyzer/Ctools-Berichten je nach Benutzergruppe auch PDF-, Word- und Excelberichte angezeigt werden. So basieren die Reports zur Profitabilität und Artikelanalyse auf Ctools, während die Planerreichung und das Geschäftsergebnis in Nicht-Pentaho-Formaten erzeugt werden (pdf, xls, doc).

10 Jahre Pentaho, 10 Jahre Herausforderungen

Beim Aufbau des Portals sah sich Deutsche See mit verschiedenen Herausforderungen konfrontiert. Dazu zählten u.a.

  • Heterogene Anwendergruppen vom Koch, Servicemitarbeiter und Verkäufer bis hin zur Geschäftsführung
  • Oberfläche: Pentaho ist nicht gleich Excel (bunt, client-basiert)
  • individuelle Stammdaten/Hierarchien mussten reglementiert werden, da es Anwender gab, die in ihren Excel-Files auch noch persönliche Stammdaten eingepflegt hatten
  • Benutzerberechtigungen: um diese richtig steuern zu können, wurde ein Portal erstellt mit verschiedenen Bereichen für die einzelnen Anwendergruppen. Daten und Berichte werden bereichsabhängig angezeigt
  • Performance war in Spitzenzeiten zu niedrig

Wenn die Anwenderzahl um 100% wächst…

….sind oft Performance-Probleme die Folge. Auch Deutsche See musste mit der Herausforderung fertig werden, die Leistung der Anwendung trotz eines vergrößerten User-Kreises von anfänglich 250 Anwendern zu 500 Personen zu gewährleisten. Mit der Unterstützung von it-novum ergriff Deutsche See die folgenden Maßnahmen:

  • Upgrade des Cores (von zunächst vier auf später acht und schließlich 12) und der Infrastruktur des Pentaho BA Servers für Mittel- und Spitzenlasten
  • Speichererweiterung des BI-Server um 50%
  • Serverparameter optimiert (Anzahl Prozesse/Core-Zuordnung)
  • Alle Analyzer-Berichte wurden genau unter die Lupe genommen und den Anwendern in Schulungen gezeigt, wie sie die Cubes richtig auswählen und den Bericht so aufbauen, dass es keine Performance-Probleme gibt
  • Anwender werden gebeten, detalliert Rückmeldung zu geben, sobald sie auf Leistungsprobleme treffen

Machine Learning mit Pentaho

Ken Wood, ML-Experte und Leiter der Hitachi Labs
Ken Wood, ML-Experte und Leiter der Hitachi Labs

Künstliche Intelligenz ist eine sehr allgemeine Kategorie ist, um viele verschiedene Dinge intelligent aussehen zu lassen. Machine Learning ist eines dieser Dinge. Ken Wood, Leiter der Forschungseinheit Hitachi Labs und Experte für Machine Learning, stellte ML-Möglichkeiten mit Pentaho vor. Um Machine Learning in Pentaho zu ermöglichen, haben die HV Labs das Plugin Machine Intelligence (PMI) entwickelt. Ziel war es, Maschinenlernen zu unterstützen, ohne Code schreiben zu müssen. PMI wurde 2014 in Pentaho eingeführt.

PMI ist mehr als nur Modelle testen, es wurde implementiert, um damit echte Probleme zu lösen wie Ken Wood betonte. Das Plugin umfasst fünf Ausführungsengines (bzw. Büchereien) und ist als Framework konzipiert, in das weitere Plugins eingebunden werden können. Der Vorteil derartiger Plugins liegt in ihrer Einfachheit: je einfacher ML-Technologien zu bedienen sind, umso mehr Anwendergruppen nutzen sie und umso größer wird die Produktivität von Data Scientists. Die Besonderheit von Machine Learning mit Pentaho ist, dass mit ein und demselben ETL-Prozess verschiedene Execution Engines verwendet werden können. Das hat zur Folge, dass sich der Arbeitsaufwand weg vom Machine Learning hin zur Datenaufbereitung verlagert.

Beim Einsatz von PMI können Genauigkeitsmessungen miteinander verglichen werden und sind untereinander einheitlich, unabhängig vom Algorithmus oder der Engine-Kombination. Fortgeschrittene Konzepte, an denen die Hitachi Labs gerade forschen, um sie in zukünftige Versionen von PMI zu integrieren:

  • Versteckte Ergebnisse von ML-Modellen (Interpretation und Extrapolierung von Nicht-Testergebnissen), Kombination von Ergebnissen
  • Breites Spektrum an Deep Learning-Modellen
  • Verbesserung von Modellvorhersagen

Darüber hinaus ist geplant, PMI mit Sprachfunktionen auszustatten, da so ML-Aufträge schneller und leichter erstellt werden können. Umgesetzt ist dies schon bei der „Hey Ray“-App, mit der Röntgenbilder ML-gestützt ausgewertet werden. Auch wenn Hey Ray eine intelligente Applikation ist, griff bei der Demo auch bei ihr der berühmte Vorführeffekt. Ken verschob daher die Live-Demo auf die Pause an seinem gut besuchten Demostand.

Auswertung von SAP-Daten mit externen Daten

Christopher Keller und Jürgen Sluyterman: Integration von SAP-Daten
Christopher Keller und Jürgen Sluyterman: Integration von SAP-Daten

Die Analyse von Daten aus SAP-Systemen ist so mühsam wie essentiell, um die richtigen Einblicke in das Geschäftsgeschehen zu erhalten. Der Hitachi Data Connector for SAP ERP and Business Warehouse (kurz HDC for SAP) zapft SAP-Systeme an, um die Informationen in Pentaho zu laden, wo sie für Berichte und Analysen gemeinsam mit anderen Daten zur Verfügung stehen.

Im Einsatz ist der Connector beim Entsorgungsunternehmen RSAG, wo er für einen ganzheitlichen Blick auf die Prozesse und Geschäftszahlen sorgt. Wie Christopher Keller, it-novum, und Jürgen Sluyterman, RSAG, zeigten, gab es bei der Integration von SAP-Daten eine Reihe von Hürden zu überwinden. So wurden die SAP-Systeme beim kommunalen Zweckverband gehostet, was den Zugriff auf die Daten erschwerte. Einmal gebaute Berichte waren zu starr, um Veränderungen in der Struktur oder bei den Leistungen wiederzuspiegeln. Für die Leistungsverrechnung waren Schnittstellen zu operativen Systemen nötig.

Mit dem Hitachi Data Connector war es möglich, Daten aus SAP in Pentaho zu laden, ohne die SAP-Systeme beim Zweckverband anfassen zu müssen. Der Connector lädt die Daten täglich, zu bestimmten Zeiten (z.B. vor dem Monatsabschluss) auch öfter. Veränderungen in der Struktur und den Prozessen des Verbands spiegeln sich dadurch sofort auch in den Berichten wieder und müssen nicht zeitverzögert manuell angepasst werden. Bei den Schilderungen von Jürgen Sluyterman wurde immer wieder deutlich, wie abhängig Datenanalysen von der Kooperationsbereitschaft interner Stakeholder sind. Lösungen wie der Connector helfen, diese Hürden zu umgehen, indem sie bestehende Systeme und Prozesse unangetastet lassen.

Video Analytics: das Ausschöpfen riesiger ungenutzter Datenpotenziale

Analyse von Videodaten: Gunther Dell
Analyse von Videodaten: Gunther Dell

Eine der größten ungenutzten Datenquellen stand im Mittelpunkt von Gunther Dells Vortrag. Videos bzw. Bewegtbilddaten werden schon seit langem von Organisationen gespeichert, aber ihre Auswertung steht erst ganz am Anfang. Das hängt mit ihrer Struktur zusammen, die Analysen schwierig macht und große Rechenressourcen benötigt.

Der Hitachi Video Analytics Connector (HVA) ermöglicht es erstmals, Videodaten in Pentaho zu laden und dort zusammen mit Daten aus anderen Quellen zu analysieren. Damit lassen sich zahlreiche Herausforderungen lösen, nicht nur im Bereich Sicherheit im öffentlichen Raum. Gunther Dell präsentierte eine Reihe von spannenden Szenarien, in denen Videodaten ganz neue Möglichkeiten eröffnen – von der Regulierung von Verkehrsströmen über die automatische Auslösung von Sicherheitswarnungen bis hin zum Durchleuchten von Entsorgungsströmen und besseren Nutzung von öffentlichen Ressourcen.

HVA unterstützt das Einlesen von Daten via Batch oder Streaming Mode sowie von 13 Hitachi Video Analytics-Modulen. Er ist vollständig in Pentaho Data Integration integriert und ermöglicht dadurch Analysen zusammen mit Daten aus anderen Systemen, z.B. Cloud-Plattformen, Sensoren oder Warenwirtschaftssystemen.

Abbildung von Business-Prozessen im Energiemarkt

Pentaho im hochkomplexen Energiehandelssektor: Vortrag von Jens Junker
Pentaho im hochkomplexen Energiehandelssektor: Vortrag von Jens Junker

Pentaho als Allround-Werkzeug im hochkomplexen Energiemarkt war das Thema des Vortrags von Jens Junker, VNG Handel & Vertrieb GmbH. Der Erdgasgroßhändler setzt PDI als „Schweizer Taschenmesser“ ein, um große Datenmengen zu bewegen und Schnittstellen zu betreiben.

Die Anwendungslandschaft von VNG umfasst eine Reihe von Bewertungssystemen, das Trading-System, Abwicklungs- und Abrechnungssysteme, SAP und weitere. Pentaho wird als Schnittstellentool eingesetzt, um Daten von einem System in ein anderes zu übertragen bzw. zu kombinieren. Des weiteren werden mit Pentaho Business-Prozesse automatisiert. Als Beispiel schilderte Jens Junker die Erstellung eines UTI (Unique Transaction Identifier) im Rahmen der Marktinfrastrukturverordnung, eine EU-Verordnung zur Regulierung des außerbörslichen Derivatehandels (Englisch abgekürzt EMIR). Alle Handelsgeschäfte, die im Sinne von EMIR gemeldet werden müssen, benötigen eine UTI. Dank Pentaho konnte der manuelle Aufwand zur Erzeugung der UTI auf Null reduziert werden.

Der Lebenszyklus eines Trades (Kauf- oder Verkaufstransaktion von Erdgas) umfasst die Abwicklung, Planung, Bestätigung als auch Abrechnung (unter anderem mit SAP). Daneben gibt es weitere komplexe Prozesse für das Abrufen von Daten der regulierenden Behörden oder aus Börsensystemen. Diese dienen zur Vermeidung und Erkennung von Unregelmäßigkeiten im Handelsgeschäft.

Pentaho ist bei VNG seit 2012 im Einsatz. Evaluiert wurden auch Talend, SAS und Informatica, am einfachsten zu bedienen war jedoch Pentaho („Viel Design, wenig Code“). Das Tool löste OWB und PowerMart ab und stellte sich auch gegenüber dem 2014 eingeführten Inubit als überlegen heraus, da nicht so komplex.

Sechsstellige Einsparungen

Pentaho half VNG dabei, Kosten zu senken und Prozesse effizienter zu gestalten. Die Daten der Portfoliobewertung (Valuation) bilden die Grundlage für den Handel. Durch immer mehr Transaktionen ist die Portfoliobewertung in den letzten Jahren kontinuierlich gewachsen und komplexer geworden. Valuations müssen archiviert und auf Nachfrage den Aufsichtsbehörden vorgelegt werden. Eine Valuation hat 5,3 Millionen Zeilen, pro Tag summiert sich das auf 7,6 Millionen Zeilen á 125 Spalten. Die Archivierung über das Trading-System Allegro war deshalb nicht möglich. Mit Pentaho wurde ein ETL-Prozess erstellt, der eine Kompressionsrate von 91% erreicht. So konnte pro Jahr eine sechsstellige Summe eingespart werden.

Viel Zeit spart das Unternehmen auch bei Wirtschaftsprüfungen: benötigen die Wirtschaftsprüfer bestimmte Daten, wird schnell eine Transformation in Pentaho erstellt und die Daten exportiert. VNG ist dadurch handlungsfähiger geworden und kann Compliance-Anforderungen besser und schneller erfüllen.

Getestet und für gut befunden: die “Ökosystem-Expo”

Obgleich vom Thema her teils grundverschieden, zeigten die verschiedenen Beiträge deutlich die Vielfältigkeit und Flexibilität der Pentaho-Plattform. Ob Energiebranche oder Lebensmittelhandel, ob klassische Datenintegration oder Machine Learning-Algorithmen, mit Pentaho lassen sich Daten aller Art aufbereiten, kombinieren und auswerten. Die dieses Mal erstmals abgehaltene Mini-Expo mit Demoständen, an denen Entwickler Fragen zu verschiedenen Lösungen aus dem Pentaho-Ökosystem persönlich beantworteten, stieß auf großes Interesse. Ich bedanke mich bei allen Teilnehmern und den Referenten für die spannenden Beiträge – wir sehen uns 2020 beim nächsten User Meeting!