Pentaho AI: Wie Generative AI in Pentaho 11 Einzug hält – und was das für Nutzer bedeutet

Mit der Integration von Generative AI in die Pentaho-Plattform – konkret in Form der Pentaho GenAI Plugin Suite – beginnt für viele Nutzer ein neues Kapitel. Während sich Pentaho in den letzten Jahren stark auf Data Integration, Reporting und klassische Analytics konzentriert hat, erweitert sich die Plattform nun gezielt in Richtung KI-gestützter Datenverarbeitung. Für Kunden, die aktuell Pentaho 9 oder 10 im Einsatz haben, bedeutet das vor allem eines: Die Rolle von Pentaho verändert sich – von einem reinen ETL- und BI-Werkzeug hin zu einer Plattform, die aktiv bei der Interpretation und Anreicherung von Daten unterstützt.

Im Zentrum dieser Entwicklung steht das sogenannte AI Chat Plugin. Technisch handelt es sich dabei um einen neuen Step innerhalb von Pentaho Data Integration (PDI), der es ermöglicht, direkt aus einer Transformation heraus mit Large Language Models zu interagieren. Damit wird eine Fähigkeit in die Plattform integriert, die bislang außerhalb von Pentaho stattfinden musste: die Verarbeitung unstrukturierter Daten durch KI.

Diese Integration ist deshalb so relevant, weil sie die bisherige Arbeitsweise grundlegend erweitert. Datenpipelines bestehen nicht mehr nur aus Extraktion, Transformation und Laden, sondern können nun auch semantische Verarbeitungsschritte enthalten. Daten werden nicht mehr nur bewegt und transformiert – sie werden interpretiert, klassifiziert und inhaltlich angereichert.

Ein wesentlicher Baustein dieses Ansatzes ist die Offenheit gegenüber verschiedenen AI-Anbietern. Das Plugin unterstützt mehrere LLM-Provider, darunter:

  • OpenAI
  • Azure OpenAI
  • AWS Bedrock
  • Ollama – für lokal betriebene Modelle

Diese Flexibilität ist insbesondere für Unternehmen wichtig, die entweder regulatorischen Anforderungen unterliegen oder bewusst auf Multi-Cloud-Strategien setzen. Gleichzeitig ermöglicht sie es, je nach Anwendungsfall unterschiedliche Modelle zu verwenden – beispielsweise leistungsstärkere Modelle für komplexe Analysen oder kostengünstigere Varianten für einfache Aufgaben.

Der eigentliche Mehrwert entsteht jedoch nicht durch die bloße Anbindung von AI-Services, sondern durch deren Einbettung in bestehende Datenprozesse. Das AI Chat Plugin ist vollständig in die PDI-Logik integriert. Prompts können direkt im Transformation Flow definiert werden, Daten aus vorherigen Steps lassen sich als Input verwenden, und die generierten Ergebnisse fließen unmittelbar in nachgelagerte Verarbeitungsschritte ein.

Damit wird AI nicht mehr als externes System angebunden, sondern zu einem nativen Bestandteil der Datenintegration. Für Bestandskunden ist das ein entscheidender Unterschied, denn bestehende Prozesse können erweitert werden, ohne dass eine komplett neue Architektur aufgebaut werden muss.

In der Praxis eröffnet das eine Vielzahl neuer Anwendungsfälle. Neben klassischen Prompt-basierten Interaktionen, bei denen einfache Fragen oder Aufgaben an ein Modell gestellt werden, ermöglicht das Plugin auch die Verarbeitung von Dokumenten und anderen unstrukturierten Datenquellen. So können beispielsweise Textdateien analysiert, Inhalte zusammengefasst oder Informationen extrahiert werden. Darüber hinaus unterstützt das Plugin auch multimodale Szenarien, etwa die Verarbeitung von Bildern, sofern der gewählte Provider dies erlaubt.

Ein besonders spannender Aspekt ist die Unterstützung von Embeddings. Dokumente können in Vektoren umgewandelt und in einer integrierten, in-memory-basierten Vektorstruktur gespeichert werden. Diese Vektoren lassen sich anschließend wiederverwenden, um kontextbasierte Abfragen effizienter zu gestalten. Gerade für Szenarien wie semantische Suche oder Retrieval-Augmented Generation (RAG) bildet das eine wichtige Grundlage. Gleichzeitig zeigt sich hier bereits, dass Pentaho nicht nur einfache AI-Funktionalität integriert, sondern gezielt auf fortgeschrittene Anwendungsfälle vorbereitet.

Für User bedeutet das vor allem, dass sich die Möglichkeiten der Automatisierung deutlich erweitern. Während bisher regelbasierte Logik, SQL oder Skripte im Vordergrund standen, können nun auch komplexe, schwer formal zu beschreibende Aufgaben automatisiert werden. Typische Beispiele sind:

  • Klassifikation und Bewertung von Texten
  • automatische Zusammenfassungen
  • Extraktion strukturierter Informationen aus unstrukturierten Quellen
  • Generierung von JSON oder anderen strukturierten Formaten aus Freitext

Diese neuen Möglichkeiten bringen jedoch auch neue Anforderungen mit sich. Ein zentraler Aspekt ist das sogenannte Prompt Engineering. Die Qualität der Ergebnisse hängt maßgeblich davon ab, wie Anfragen an das Modell formuliert werden. Das Plugin trägt dem Rechnung, indem es sowohl einfache Freitext-Prompts als auch strukturierte Ansätze unterstützt, beispielsweise über Environment Variablen oder systemseitige Instruktionen für das Modell.

Damit verschiebt sich ein Teil der Entwicklungslogik von klassischer Programmierung hin zur Gestaltung von Prompts und Interaktionen mit dem Modell. Für viele Teams ist das ein neues Feld, das entsprechendes Know-how erfordert.

Auch aus technischer Sicht gibt es einige Punkte, die bei der Einführung berücksichtigt werden sollten. So ist die Wahl des richtigen Modells entscheidend für Performance, Kosten und Ergebnisqualität. Die im Plugin hinterlegten Standardwerte dienen primär zu Testzwecken und sind nicht für den produktiven Einsatz gedacht. Ebenso ist zu beachten, dass die aktuelle Version des Plugins keine klassische Batch-Verarbeitung unterstützt. Stattdessen empfiehlt sich die Nutzung von Embeddings, um wiederkehrende Abfragen effizient abzubilden und Kosten zu reduzieren.

Darüber hinaus bestehen noch gewisse Einschränkungen, etwa bei der Verarbeitung großer Dateien oder im Bereich der Fehlerbehandlung, die aktuell primär über Logging erfolgt. Diese Punkte zeigen, dass sich die Lösung noch weiterentwickeln wird, gleichzeitig aber bereits heute produktiv nutzbare Szenarien ermöglicht.

Strategisch betrachtet markiert die Integration von AI einen wichtigen Schritt in der Weiterentwicklung der Pentaho-Plattform. Pentaho positioniert sich damit nicht mehr nur als Werkzeug zur Datenintegration, sondern als Plattform, die Daten und AI-Funktionalität miteinander verbindet. Für Unternehmen eröffnet sich dadurch die Möglichkeit, bestehende Investitionen weiter zu nutzen und gleichzeitig neue, AI-getriebene Anwendungsfälle umzusetzen.

Für Bestandskunden ist daher die wichtigste Erkenntnis: Generative AI ist kein isoliertes Feature, das man „bei Bedarf“ ergänzt, sondern ein Baustein, der zunehmend integraler Bestandteil moderner Datenarchitekturen wird. Der Schlüssel zum Erfolg liegt darin, die Technologie gezielt einzusetzen, geeignete Use Cases zu identifizieren und die Integration schrittweise aufzubauen.

Gerne unterstützen wir Sie dabei, konkrete AI-Use-Cases in Ihrer bestehenden Pentaho-Umgebung zu identifizieren, erste Prototypen umzusetzen und eine skalierbare Architektur für den produktiven Einsatz zu entwickeln. In gemeinsamen Workshops oder Proof-of-Concepts zeigen wir Ihnen praxisnah, wie sich Generative AI sinnvoll in Ihre Datenprozesse integrieren lässt – von der ersten Idee bis zur nachhaltigen Implementierung.