Pentaho 11 Release: Vollständige Web-ETL, neues UI und starke Performance-Verbesserungen
Das Release von Pentaho XI, das in den kommenden Wochen erwartet wird, bringt wichtige Verbesserungen für die User Experience und die Performance mit sich. Das auffälligste Update ist das Redesign der Pentaho User Console, bei dem die Oberfläche nun standardmäßig im Dark Modus erscheint.
Technologisch rückt die Plattform weiter ins Web: Es ist jetzt möglich, ETL-Strecken (Jobs und Transformationen) direkt im Browser zu erstellen. Hierfür ist keine separate Desktopinstallation mehr notwendig, da die Installation auf dem Server erfolgt. Auch das Semantik Model (die frühere Schema Workbench) wurde in den Browser verlagert. Nutzer können dort ihr aufgebautes Modell mit Fakten- und Dimensionstabellen einsehen und direkt eine Vorschau der Daten durchführen.
Das Rechtekonzept wurde ebenfalls angepasst, um eine einheitliche UX für alle Plattformen (Pentaho, BI Server) zu gewährleisten. Für die Community ist relevant, dass es nun endlich eine BI-only Option gibt, die nur den BI Server ohne das ETL-Tool (Kettle) umfasst, was auf viele Nachfragen zurückzuführen ist.
Die Performance profitiert von Kettle Improvements: Nachdem die Standard Steps bereits in Version 10 beschleunigt wurden, wandern nun auch die Big Data Steps schrittweise in die optimierte Architektur. Zudem unterstützt Pentaho 11 nun Java 21.
Data Linage und die Bedeutung für die Regulierung
Ein Feature, das als essenziell für fast jeden Kunden ist, ist Pentaho Data Linage. Über ein neues Plugin sendet die ETL-Strecke bei jedem Lauf Metadaten im Open-Lineage Format an den Pentaho Data Catalog. Diese Funktion schafft eine lückenlose Nachvollziehbarkeit der Datenflüsse.
Anwender können nun die komplette Historie verfolgen, vom angezeigten Dashboard (zum Beispiel einem Power BI Report) bis hin zur Faktentabelle und der ursprünglichen Staging-Tabelle. Diese Transparenz ist nicht nur ein Komfortgewinn, sondern erfüllt auch regulatorische Anforderungen, die beispielsweise bei Banken und Versicherungen durch Vorschriften wie Dora oder BCBS 239 gefordert werden. Die Data Linage entlastet die IT, indem sie die Auskunftspflicht über die Herkunft und Logik der Daten automatisiert.
Im Data Catalog können Anwender Business Terms vergeben, wodurch eine Brücke zwischen dem technischen Modell und dem fachlichen Modell geschlagen wird. Zusätzlich werden Informationen wie ein Trust Score, die Sensitivität der Daten (etwa das Vorkommen personenbezogener Daten) und der Data Owner angezeigt. Der Data Catalog bietet zudem ein „Shopping System“ für Datenprodukte, über das Abonnements eingerichtet und Benachrichtigungen bei Änderungen versendet werden können.
Zukünftige Interaktion: Large Language Models (LLM)
Pentaho arbeitet daran, Large Language Models (LLMs) wie etwa Cloud-native oder Open-Source-Varianten wie Ollama an den Data Catalog anzudocken. Obwohl sich diese Funktion noch im Alpha- oder Beta-Status befindet, soll sie den Fachbereichen ermöglichen, Fragen zur Herkunft von Kennzahlen in natürlicher Sprache zu stellen, ohne ein Ticket bei der IT erstellen zu müssen. Das LLM greift auf die Metadaten im Datenkatalog zu und kann eine präzise Antwort liefern.
Fazit
Pentaho 11 läutet eine Ära des webbasierten Arbeitens ein, was die Handhabung der ETL-Strecken deutlich vereinfacht. Die wichtigste Neuerung für Transparenz und Governance ist die automatisierte Data Linage im Pentaho Data Catalog, die die Einhaltung regulatorischer Anforderungen unterstützt. Mit der Anbindung von LLMs an den Datenkatalog zeichnen sich zudem zukünftige Möglichkeiten ab, wie Fachbereiche eigenständig und schnell Antworten auf komplexe Fragen zur Datenherkunft erhalten können.
PUM 2026: Netzwerken mit Skyline-Blick in Frankfurt
Ziel ist es, das Produktmanagement von Pentaho, einschließlich der Produkt Owner für den Data Catalog und andere Bereiche, live vor Ort in Deutschland zu versammeln. Die Registrierung ist bereits möglich, wobei Teilnehmer wählen können, ob sie persönlich teilnehmen oder sich remote zuschalten wollen.
Datum und Ort:
- Hauptveranstaltung: 11. Juni 2026, Frankfurt, „Out of Office“
- Vorabend-Event: 10. Juni 2026