Warum Governance, Qualität und Transparenz entscheidend sind
Wir reden viel über Künstliche Intelligenz (KI) und die verschiedensten Algorithmen, die überall integriert werden. Doch während der KI-Hype anhält, scheitern viele Projekte am leidigen Thema Datenqualität. Nach der Trainingsphase von KI-Modellen wird oft klar, dass die Modelle doch nicht so funktionieren wie erwartet und nachtrainiert werden müssen oder schlichtweg an der mangelnden Datenqualität scheitern.
Die Blackbox KI: Vertrauen ist gut, Transparenz ist besser
Für die allermeisten Nutzer ist KI eine Blackbox. Gerade im Business-Kontext ist das leider richtig gefährlich. Ein weit verbreitetes Phänomen ist der Automation Bias: Wir vertrauen der Maschine mehr als uns selbst. Dies kann zu massiven und teuren Problemen führen, beispielsweise wenn man sich trotz erkennbarer Fehler auf das Navigationssystem verlässt und mit dem LKW in der Sackgasse landet.
Deswegen ist Transparenz essenziell. Wir müssen darauf achten, wie KI-Modelle gespeist werden und auf Basis welcher Daten sie Entscheidungen treffen. Vertrauen muss sich die KI erst verdienen. Es muss nachvollziehbar sein, auf welchen Variablen und Parametern die Entscheidungen getroffen wurden.
Die Gefahr des „Präzisen Unsinns“: Das Problem schlechter Datenqualität
Ohne Kontext ist jedes Ergebnis – beispielsweise die Zahl des Umsatzes pro Kunde – gefährlich. Früher gab es in der Data-Warehouse-Welt klar definierte Kennzahlen, die dokumentiert waren. Heute kann die Abfrage einer KI ohne Kontext eine beliebige Zahl zurückliefern, ohne zu erklären, welche Parameter berücksichtigt oder weggelassen wurden (z.B. nur aktive Kunden des letzten Jahres vs. alle Kunden der letzten 10 Jahre).
Werden KI-Features im Blindflug und ohne Beachtung der Datenqualität eingebaut, erhöht sich zwar möglicherweise die Präzision, aber es wird lediglich präziser Unsinn produziert. Es fehlen der notwendige Kontext, die Definition, die Datenqualität und die Dokumentation.
Das Problem schlechter Datenqualität potenziert sich stark: Greifen Abteilungen wie Marketing, Sales oder andere auf einen fehlerhaften Datensatz zu, arbeiten alle mit den falschen Annahmen.
Die drei Stellschrauben für Datenexzellenz: Integration, Qualität und Governance
Um Datenexzellenz zu erreichen und als Vorstufe für jegliche KI-Modelle zu dienen, sind drei zentrale Stellschrauben entscheidend: Datenintegration, Datenqualität und Datengovernance. Ohne eine saubere Umsetzung dieser Bereiche werden selbst die besten KI-Algorithmen immer schlechte Ergebnisse liefern.
Die größte Herausforderung besteht darin, die Brücke zwischen der IT und dem Fachbereich zu schlagen. Die IT muss verschiedenste Datenquellen anbinden (wie klassische Oracle-Datenbanken, IoT/IIOT-Daten, Data Lakes, Kafka Streaming Engines, PostgreSQL und MySQL). Der Fachbereich hingegen wünscht sich nützliche KI-Features, benötigt aber auch Klarheit über die Herkunft und Qualität der Daten.
1. Datenintegration: Die technische Basis
Die Datenintegration bezieht sich auf die nachhaltige Gestaltung der Datenpipelines. Dabei geht es nicht nur darum, Daten von A nach B zu schieben, sondern sicherzustellen, dass diese Prozesse robust sind. Pipelines, die beispielsweise mit Python-Skripten erstellt werden, müssen nachhaltig sein, über Restartability verfügen, ein sauberes Logging besitzen und schedulebar sein. Oft fehlt es gerade bei Skripten an diesen Aspekten, sowie am Fehler-Handling, was die Komplexität für den Fachbereich erhöht, da die Business-Logik kaum nachvollziehbar ist.
Grafische ETL-Tools (wie beispielhaft Pentaho Data Integration) können hier helfen, den Datenfluss und die Business-Logik visuell darzustellen, was die Kommunikation mit dem Fachbereich erleichtert, im Vergleich zu reinen Python-Skripten.
2. Datenqualität: Kontinuierliche Überwachung
Ist die Datenintegration einmal etabliert, muss die Datenqualität konstant gehalten oder idealerweise verbessert werden. Datenqualität umfasst die korrekte Behandlung von Null Values, die Einhaltung der richtigen Datenformate (insbesondere in komplexen Umgebungen wie JSON, wo sich das Schema schnell ändern kann), und die Gewährleistung, dass Schemata über die Zeit stabil bleiben und verarbeitet werden können.
Elemente, die zu einer sogenannten Data Downtime führen, müssen permanent überwacht werden. Dazu gehören:
- Fehlende oder falsch ausgefüllte Werte.
- Sich ändernde Schemata.
- Unvollständige Datensätze.
- Mangelnde Aktualität der Daten.
- Duplikate.
3. Data Governance: Prozesse und Verantwortlichkeit
Datengovernance ist notwendig, um wertige Datenprodukte zu schaffen. Dies beinhaltet die Definition von Data Ownership (Verantwortliche), die Festlegung von Prozessen und die Nutzung von Tagging. Diese Governance-Regelwerke müssen gemeinsam mit dem Kunden erarbeitet werden und umfassen sowohl fachliche als auch prozesstechnische Aspekte.
Idealerweise sollte Data Governance dezentral in den Business Units verankert sein, da die Verantwortlichen dort dedizierter in ihren Domänen arbeiten können, auch wenn manche Organisationen dies zentral steuern.
Data Lineage: Nachvollziehbarkeit und regulatorischer Druck
Eine saubere Data Lineage (Datenherkunft) ist nicht nur wünschenswert, sondern aufgrund zunehmenden regulatorischen Drucks in vielen Branchen, insbesondere bei Banken und Versicherungen, zwingend erforderlich.
Regularien wie BCBS239 fordern die vollständige Nachvollziehbarkeit und Integrität von Risikodaten über alle Systeme, Prozesse und Transformationen hinweg. Ebenso verlangen DORA (Digital Operational Resilience Act) und die EBA Risk/BKIt Regularien die Nachvollziehbarkeit von Datenquellen, Prozessen und Datenflüssen sowie das Nachweisen eines Datenqualitätsmanagements und definierte Verantwortlichkeiten.
Die Lineage muss den kompletten Transformationsstrang sauber nachweisen können – von der Quellsystem (z.B. CRM-System) über Transformationen (ETL oder Python) bis hin zum finalen Report. Hierbei kann der Open Lineage Standard helfen, Transformationen über verschiedene Systeme hinweg abzubilden.
Es ist notwendig, sowohl die ETL-Datenstrecke (Transformationsebene) als auch die Report Lineage (welche Kennzahl in einem Bericht, z.B. in Tableau, auf welches spezifische Datenbankfeld zurückgeht) abzubilden, um eine lückenlose Kette von der Quelle bis zum endgültigen Reportfeld zu gewährleisten.
Die Kosten schlechter Datenqualität: "Garbage In, Garbage Out"
Das alte Prinzip „Garbage in, Garbage out“ ist weiterhin gültig. Werden KI-Features ohne Beachtung von Kontext, Definition, Datenqualität und Dokumentation eingebaut, mag die Präzision steigen, aber es wird lediglich präziser Unsinn produziert.
Schlechte Datenqualität potenziert sich im Unternehmen, da Marketing, Sales und andere Abteilungen auf fehlerhafte Datensätze zugreifen und auf falschen Annahmen arbeiten.
Die Kosten einer Data Downtime sind hoch und setzen sich zusammen aus der Zeit bis zur Erkennung des Datenproblems (was Monate oder Jahre dauern kann, wenn die Definition von Anfang an falsch war) und der Zeit bis zur finalen Lösung.
Worst-Case-Szenarien sind vielfältig:
- Falsche Auskünfte durch Chatbots.
- Falsche Produktempfehlungen im Online-Versandhandel, was den Umsatz beeinträchtigt.
- Fehlerhafte Zahlen auf Dashboards, beispielsweise durch Dubletten oder unberücksichtigte Null Values.
Datenqualität schafft Business Value
Datenqualität schafft nachweisbaren Mehrwert, was essentiell ist, um das Business von Investitionen in Governance- und Qualitätstools zu überzeugen.
Konkrete Beispiele für den Business Value:
- Ein Online-Versandhandel konnte die Kaufhistorien bereinigen und vereinheitlichen. Die dadurch verbesserte KI-gestützte Empfehlungs-Engine führte zu 18 % mehr Bestellwert und 15 % höheren Interaktionsraten.
- Im Einzelhandel konnte durch die Bereinigung und Konsolidierung von Dubletten bei Stammdaten eine Senkung der Marketingkosten von bis zu 840.000€ pro Jahr erreicht werden, da Briefe und Flyer nicht mehr mehrfach oder an fehlerhafte Adressen versendet wurden.
- Durch das Tracking von Datenflüssen in der Logistik können Effizienzgewinne erzielt und Vertragsstrafen vermieden werden.
Fazit und der Weg zur Data Excellence
Die größten Herausforderungen beim Aufbau von Datenexzellenz sind prozessual und organisatorisch – die Zusammenarbeit zwischen Fachbereich und IT, sowie die Definition der Zuständigkeiten. Die technischen Probleme sind häufig einfacher zu lösen.
Der Schlüssel liegt darin, den Business-Anwender zum eigenständigen Handeln zu befähigen (enabling). Dies kann durch Plattformen geschehen, die proaktive Warnmeldungen liefern, wenn eingestellte Qualitätsregeln verletzt werden, sodass der Data Owner benachrichtigt wird. Der Fachbereich kann dann die Vorfälle prüfen (z.B. ob es sich um einen Fehler in der Geschäftslogik oder im Zulieferersystem handelt) und die Korrektur mit den Data Engineers (z.B. über Issue-Management-Systeme wie Jira oder Service Now) anstoßen.
Wichtig ist, dass diese Tools die Zuverlässigkeit und die Vertrauenswürdigkeit der Daten erhöhen und die Ergebnisse der Qualitätschecks idealerweise in den Datenkatalog eingespeist werden, damit Fachanwender sofort sehen können, wie es um die Qualität eines Datensatzes bestellt ist.
Um Projekte zum Erfolg zu führen, gilt der wichtigste Tipp aus der Praxis: Startet klein und sucht klare Use Cases. Projekte scheitern, wenn kein richtiger Mehrwert (harte Zahlen zur Kostenvermeidung oder Umsatzsteigerung) erzeugt werden kann. Übermäßige Dokumentationen, technische Datenqualitätsprüfungen oder Metadaten-Taggings, die von niemandem gesucht werden, sind nur teuer und verlangsamen die Entwicklung.