Die 5 besten Tipps für Datenintegrationsprobleme

Inhalt

Datensilos, lange Ladezeiten, eine schlechte Datenqualität und die Anforderungen durch Echtzeitanwendungen machen Datenintegration zu einer anspruchsvollen Data Science-Aufgabe. Hinzu kommen regulatorische Vorgaben und Compliance-Vorschriften. Mit verschiedenen technologischen Maßnahmen ist es jedoch möglich, Daten nutzbringend auszuwerten.

Problem 1: Wie lassen sich Daten anbinden und verwerten

Von Datensilos und ihrer Beseitigung

Daten sind in jedem Unternehmen reichlich vorhanden, aber leider oft nur isoliert und schwer zugänglich. Diese Datensilos gilt es zunächst aufzulösen – das hat für jede Datenstrategie oberste Priorität. Solche Silos entstehen, wenn Daten separat in einzelnen Enterprise-Applikationen und Abteilungslösungen gespeichert werden. Die Daten stehen dann nur für die konkrete Anwendung zur Verfügung. Ohne den Bezug zum restlichen Unternehmen mit seiner Vielzahl an Datenquellen fehlt aber jeglicher Kontext, um wertvolle Erkenntnisse zu gewinnen. Zudem ist der Datenzugriff oft nur den Nutzern der jeweiligen Anwendung möglich.

Über strukturierte, semi- und unstrukturierte Daten

Analysten rechnen mit einem Datenwachstum von bis zu 800 Prozent in den kommenden fünf Jahren. Bis zu 80 Prozent dieser Daten werden unstrukturiert sein. Beim Auflösen der Datensilos ist die unterschiedliche Beschaffenheit der Daten zu beachten: strukturierte, semi-strukturierte und unstrukturierte. Jede dieser Datenarten bringt eigene Herausforderungen für die Verarbeitung und Integration mit sich.

Ein typisches Beispiel für strukturierte Daten sind SAP-Daten. Semi- und unstrukturierte Daten sind beispielsweise Logs, Sensor- und Videodaten. Gegenwärtig wertet man nur den geringsten Teil dieser Informationen aus, denn

  • sie liegen in sehr unterschiedlichen Formaten vor, etwa als Bilder, Texte, Maschinen- und Sensordaten. Dadurch ist es schwierig, ein passendes Tool zu finden, das auf alle Informationen zugreifen und das jeweilige Datenformat lesen und verarbeiten kann.
  • das Datenvolumen ist extrem hoch.
  • sie müssen in geeigneter Form extrahiert werden.
  • oft müssen spezifische (manuelle) Lösungen entwickelt werden, damit sich die Daten überhaupt anbinden lassen.
  • die Vielzahl an Daten-Updates und die fehlende Vergleichbarkeit ihrer Quellen verkomplizieren die Prozesse.
  • es fehlt häufig an Fachwissen über Datenintegration und den Umgang mit Datenquellen.

EXKURS: Herausforderungen im Umgang mit SAP-Daten

77 Prozent aller Transaktionsumsätze weltweit durchlaufen SAP-Systeme. Die nahezu unzähligen Unternehmensanwendungen machen SAP zu einer der wichtigsten Datenquelle für viele Unternehmen. Der Zugriff darauf ist aber meist alles andere als einfach:

  • SAP-Daten sind in der Regel nur mit relativ hohem Aufwand über standardisierte Schnittstellen – unter Einhaltung der SAP Security – zugänglich.
  • SAP führt Berechnungen on the fly durch, also beim Abruf des gewünschten Business-Prozesses. Viele Daten stehen deshalb nur während der Laufzeit der Applikation bereit und lassen sich somit für Analysen nicht oder nur schwer heranziehen. Typische Beispiele sind Lieferabrufe oder Verfügbarkeiten.
  • SAP-Daten anzubinden und weiterzuverarbeiten, erfordert großes Wissen über die zugrunde liegenden Datenquellen, Tabellen und Strukturen.

Einen ausführlichen Leitfaden zur richtigen Aufbereitung von SAP-Daten für Analysen finden Sie hier.

Die Lösung: Moderne Datenarchitektur mit Data Pipelines

Daten-Pipelines gestatten es, strukturierte, semi-strukturierte und unstrukturierte Informationen aus den unterschiedlichsten Quellen zu extrahieren, aufzubereiten und schließlich zu analysieren. Von zentraler Bedeutung hierbei ist die Kontextualisierung von Daten.

Strukturierte Daten

Datenintegrations-(DI) Werkzeuge für die Entwicklung von Daten-Pipelines erlauben einen flexiblen Zugriff auf strukturierte Informationen, etwa Kunden- oder SAP-Daten aus unterschiedlichsten Quellen, einerlei, ob es sich dabei um ein ERP-, CRM- oder ein anderes operatives System handelt. Bei SAP umgeht man das beschriebene „on the fly“-Problem, weil die DI-Werkzeuge auch selbst auf den jeweiligen Business-Prozess zugreifen, der die SAP-Daten verwendet.

Die Daten werden für die nachgelagerten Business Intelligence-Applikationen optimiert und in einem Data Warehouse abgelegt. Dieser Ablauf bietet viele Vorteile:

  • Einfaches Blending der Daten mit Daten aus anderen Quellen und unstrukturierten Daten
  • Keine Umwege mehr über Excel
  • Maximaler Erkenntnisgewinn durch die Einbeziehung aller Datenquellen und das Korrelieren dieser Daten
  • Optimale Grundlage für viele Data Science Usecases
  • Maximale Flexibilität für zukünftige datengetriebene Usecases
  • In Bezug auf SAP: schneller Zugriff auf die strukturierten Daten unter Beachtung der SAP Sicherheitsrichtlinien (SAP Policies)

EXKURS: Temporäre Pufferung von SAP-Daten

Um SAP-Daten unter Beachtung der Policy-Richtlinien zu integrieren, sollte eine DI-Software bereitgestellte SAP-Funktionen aufrufen. Da aber SAP Informationen intern in eigenen temporären Tabellen puffert, besteht die Gefahr von Time-outs. Es sollte daher eine DI-Software zum Einsatz kommen, die die Pufferung von SAP-Tabellen gering hält. Eine Lösung wie der Hitachi Data Connector for SAP ruft im Server-Mode nur kleine Pakete ab. Das Puffern übernimmt und steuert der integrierte Pentaho Server von Hitachi Vantara.

Unstrukturierte Daten

Schätzungen zufolge liegen weltweit rund 80 Prozent der Daten in unstrukturierter Form vor. Geht es um ihre Integration, sollte eine DI-Software große Datenmengen durch Parallelisierung verarbeiten können. Ein leistungsstarkes ETL-(Extract, Transform, Load)-Werkzeug ist beispielsweise Pentaho Data Integration. Damit lassen sich Daten aus allen Arten von Quellsystemen laden, von Logdaten über Fertigungssysteme bis hin zu SAP-Lösungen.

Problem 2: Von Ladezeiten und Ressourcenaufwand

Ein bekanntes Problem im Umgang mit Daten ist die Performance, ob beim Laden von Daten oder bei der Skalierung. Häufig sollen Daten während eines ganz bestimmten Zeitfensters geladen werden. Um etwaige Probleme dabei zu vermeiden, muss man zunächst die Umgebungsvariablen kennen und dokumentieren. Dann sollte geklärt werden, welche weiteren Abteilungen und Stakeholder involviert sind und sich ruhig noch einmal fragen, ob die aufgetretenen Performance-Probleme wirklich welche sind.

Es ist empfehlenswert, für jeden konkreten Fall den Ist-Zustand mit messbaren Parametern zu beschreiben. So lässt sich nach dem Optimieren genau nachvollziehen, ob die Änderungen den Prozess tatsächlich effizienter und/oder leichter handhabbar gemacht haben.

Auf folgende Fragen sollten IT-Fachleute, aber auch Verantwortliche für Big Data, Data Analytics und Business Intelligence die Antworten kennen:

  • Was ist meine Gesamt-Ladezeit und was ist mein Zeitfenster?
  • Wie viel Ressourcenaufwand braucht jeder einzelne Task?
  • Wie viel Zeitaufwand braucht jeder Task?
  • Wo ist mein Engpass beim Laden?
  • Wie kann ich dieses Bottleneck umgehen/verbessern/refaktorieren?

Danach steht die Entscheidung, wie weiter vorgegangen wird: Lassen sich Tasks überspringen? Kann man Prozesse effizienter machen, indem bestimmte Daten beispielsweise nur noch monatlich statt wöchentlich neu geladen werden?

Dabei braucht es die Mitsprache der identifizierten Stakeholder – wie Application Manager, Softwareentwickler oder Hardware Provider. Sie können helfen, potenzielle Bottlenecks aufzulösen. Jede Änderung sollte dazu führen, den Prozess erneut hinsichtlich seiner Effizienz zu analysieren und zu vermessen.

Über Datenskalierung

Das Datenaufkommen nimmt zu und die Datenmengen wachsen immer schneller. Das bringt neue Herausforderungen mit sich: Wie lässt sich die Datenflut sinnvoll speichern? Welche der Daten sind überhaupt von Nutzen und was sollte mit dem Datenmüll geschehen? Wie schützt man sensible Daten im Sinne der DSGVO oder anderer Regularien? Und wie erkennt das System, welche der Daten schutzwürdig sind?

Besonders kritisch ist der Umgang mit personenbezogenen Informationen. Bei HR-Daten etwa muss ausgeschlossen sein, dass diejenigen, die die Daten für Analysezwecke oder für Vorhersagen nutzen, sie dem einzelnen Mitarbeiter zuordnen können. Und das, obwohl die Daten ja gerade zur besseren Auswertung mit anderen Daten verknüpft und konsolidiert worden sind.

Die Lösung: Der Delta-Mechanismus

Unter Delta-Mechanismus ist das partielle Laden von Daten zu verstehen. Denn: Wozu bei einem Update jeweils den vollständigen Datensatz laden, wenn doch ein großer Teil der Daten gleichgeblieben ist? Es genügt, nur die geänderten Werte zu überschreiben. Dabei ist es ohne Bedeutung, ob es um tagaktuelle Daten geht oder die Beladung stündlich oder noch öfter erfolgt (Near-Realtime Daten). Diese recht simple Idee ist allerdings nicht so einfach umzusetzen. Geklärt werden müssen folgende Fragen:

  • Wann und für welchen Zeitraum benötige ich die Daten?
  • Reicht mir der letzte Datenstand und wie aktuell müssen die Daten dabei sein?
  • Werden die Daten in ihrem Verlauf gebraucht, also auch die Vorgängersätze, etwa zu Vergleichszwecken? Und wie weit muss die Historie zurückgehen?

Liegen die Antworten vor, kann man sich darauf beschränken, nur die relevanten Daten zu laden, nach dem Motto: so viel wie nötig, so wenig wie möglich.

Folgende Vorgehensweise hat sich bewährt: Die Daten werden zunächst von der Quelle ohne jegliche Änderung oder Anpassung in das Data Warehouse übertragen. Im DWH findet dann die Delta-Bestimmung statt. Das bedeutet, das System findet heraus, wo es Änderungen zum vorherigen Datensatz gibt. Nach der Konsolidierung werden die Daten in Datencubes bereitgestellt. Aus diesen Cubes ziehen sich dann die Dashboards und Reports die aktuell gültigen Werte.

Durch den Delta-Mechanismus lassen sich sehr große Datenmengen, die täglich über 24 Stunden hinweg anfallen, mit angereicherter Business Logic über Nacht in nur drei bis vier Stunden verarbeiten. Das ist möglich, weil viele Verarbeitungsschritte parallel ablaufen.

Die Vorteile dieser Vorgehensweise, jeweils nur die geänderten Daten neu zu laden, liegen auf der Hand: Infolge der schnelleren Ladevorgänge lassen sich definierte Zeitfenster besser einhalten, während alle nötigen Daten zur richtigen Zeit verfügbar sind. Zudem werden die Speicher nicht mit unnötigem Daten-Ballast gefüllt. Letztlich verringert sich auch die Fehlerquote, da weniger Vorgänge ablaufen und es weniger Fehlermöglichkeiten gibt.

Gut zu wissen: Nodes beschleunigen das Beladen mit Daten
Gute Erfahrungen, um die Datenverarbeitung weiter zu beschleunigen, hat man mit dem Einsatz von Aktiv-/Passiv-Nodes gemacht, die die Last verteilen. Jede Nacht sollte automatisch ein Wechsel der IP-Adressen für die konkrete Applikation stattfinden. Im Ergebnis lassen sich dadurch die Intervalle, wann der Server zu beladen ist, beträchtlich vergrößern.

Problem 3: Schlechte Datenqualität

Ob duplizierte, unvollständige oder inkonsistente Daten: schlechte Datenqualität kostet die Wirtschaft beträchtliche Summen. Diese Kosten steigen von Jahr zu Jahr, da die Datenabhängigkeit der Unternehmen kontinuierlich zunimmt. Zudem können Entscheider aufgrund der geringen Datenqualität das Vertrauen in Big Data-Analysen verlieren und deshalb lieber darauf verzichten wollen. Doch gegen unzureichende Datenqualität kann man etwas tun.

Duplizierte Daten

Sind die gleichen Daten mehrfach im System abgelegt, dann liegt das in der Regel an einem schlechten Integrationsprozess. Redundante Daten beanspruchen nicht nur Speicherplatz, sondern können zu fehlerhaften Handlungen oder Aussagen führen. Ist beispielsweise in einem CRM-System eine Kundenadresse x-mal hinterlegt, dann erhält dieser Kunde möglicherweise auch x Anschreiben im Zuge einer Marketingkampagne, was keinen professionellen Eindruck hinterlässt.

Unvollständige Daten

Eine schlechte Datenintegration kann auch dazu führen, dass Daten gelöscht werden oder verloren gehen. Die Datensätze werden somit unbrauchbar, denn

  • die Zusammenhänge zwischen den verbliebenen Daten stimmen nicht mehr.
  • für die vorhandenen Daten fehlt der Kontext.
  • Die Gewichtung zwischen den Daten verschiebt sich und liefert so fehlerhafte Aussagen.

Inkonsistente Daten

Inkonsistent bedeutet, dass nicht alle Daten in einem einheitlichen, vom System lesbaren Format vorliegen. Im einfachsten Fall sind nur schlecht verwaltete Konventionen für die Dateinamen die Ursache. Ein anderer Grund könnte sein, dass die verschiedenen Datentypen miteinander vermischt sind, etwa wenn in einem Datensatz für Temperaturangaben auch Preise stehen. Auch hier sind die Auswirkungen unschön, denn nicht lesbare Daten sind für das System quasi nicht vorhanden – mit den oben beschriebenen Konsequenzen. Wenn die Daten zwar lesbar sind, jedoch nicht im einheitlichen Format vorliegen,fällt ein Mehraufwand an, um sie umzuwandeln.

Datenquellen vorab auf ihre Qualität prüfen

Sind die originären Daten bereits falsch, dann zieht sich dieser Fehler durch den gesamten Prozess. Daher ist es besonders wichtig, dass Unternehmen sehr sorgfältig bei der Aufnahme von Daten vorgehen bzw. die Qualität ihrer Datenquellen genau prüfen.

Sorgenkinder in vielen Firmen sind Adress- und Telefondaten. Ein Grund dafür ist, dass sie häufig manuell eingepflegt werden, etwa von den Mitarbeitern ins ERP-System oder vom Kunden in eine Eingabemaske auf der Webseite. Schnell schleicht sich da ein Tippfehler ein, oder eine Angabe wird vergessen. Gibt der Kunde die Adresse telefonisch an, kann es akustische Missverständnisse geben.

Zwar lassen sich fehlerhafte oder unvollständige Angaben nicht ganz ausschließen, Unternehmen können aber eine technische Unterstützung einbauen. Datenqualitätssoftware erkennt Felder in einer Datenbank, die wahrscheinlich nicht richtig oder ungenau ausgefüllt sind. So werden beispielsweise bei einer deutschen Postleitzahl nur fünfstellige Eingaben als richtig anerkannt. Je nachdem, welche Datentypen fehlen, kann das System fehlende Informationen auch aus anderen Datenquellen abrufen und ergänzen. Beispielweise, indem es auf eine Post-Datenbank zugreift und die Postleitzahl ermittelt, die zur angegebenen Vorwahl passt.

Die Lösung: Hochwertige Daten automatisiert integrieren

Die meisten der oben aufgeführten Probleme lassen sich lösen, indem man die im Unternehmen anfallenden Daten strukturiert ablegt und sie automatisiert integriert. Zuvor ist eine Planung zwingend, die festlegt, wie die Daten künftig strukturiert sein sollen, welche Datenquellen vorliegen und wie der Prozess der Datenintegration abzulaufen hat. Insbesondere sollte sichergestellt sein, dass die anfallenden Daten standardisierte Bezeichnungen erhalten und nur in den festgelegten Formaten vorliegen. Eine strukturierte, verbindlich festgelegte Datenablage unterstützt insbesondere die IT bei späteren Erweiterungen oder Updates.

Man sollte zudem darauf achten, ein System zur Datenintegration einzusetzen, das bereits während des Data Blending doppelte Daten automatisch identifiziert und entfernt.
Der automatisierte Zugriff auf die Datenquellen sorgt überdies dafür, dass die Daten vollständig integriert werden und keine Fehler durch manuelle Eingaben auftreten.

Problem 4: Streaming-Daten

Die Beschaffenheit von Daten hat sich in den letzten Jahren rasant geändert: Streaming-Anwendungen mit ihrer hohen Aktualisierungsgeschwindigkeit erfordern einen ganz neuen Umgang mit den Daten. Deshalb sind viele Datenarchitekturen nicht für ihre Verarbeitung geeignet.

Von den Grenzen konventioneller ETL-Tools

Viele Unternehmen nutzen ETL-Tools, um die Daten aus ihren verschiedenen Systemen – vom CRM-System bis hin zur Fertigungssteuerung – zu extrahieren und in das Data Warehouse zu laden. Herkömmliche ETL-Programme wie das Complex Event Processing (CEP) sind jedoch nicht dafür geeignet, mehrere Anwendungen mit Echtzeit-Datenfeeds synchron zu halten.

Die Data Warehouse-Architektur hat sich für deskriptive Analysen und historisches Reporting bewährt. Die Anforderungen dieser Architektur an Datenextraktion, Staging-Plattformen und die synchronisierte Datenvalidierung und -transformation verzögern jedoch den gesamten Prozess beträchtlich. Für Streaming-Anwendungen mit ihrer hohen Aktualisierungsgeschwindigkeit sind sie zudem nicht geeignet.

Gut zu wissen: Complex Event Processing eignet sich besonders für strukturierte Daten
CEP-Techniken liefern sehr gute Ergebnisse bei der Verarbeitung strukturierter Daten. Sie können jedoch nur eine gewisse Zahl von Vorgängen in der Sekunde verarbeiten. Fallen – wie bei Big Data – sehr große Mengen hauptsächlich unstrukturierter Daten an, müssen andere Methoden zum Einsatz kommen, die u.a.

  • große Datenströme parallel verarbeiten,
  • Daten linear skalieren,
  • Daten In-Memory analysieren und
  • Datenverarbeitung näher an die Datenquellen platzieren.

Die Lösung: das Data Warehouse mit einer Streaming Engine kombinieren

Um die Datenintegration massiv zu beschleunigen und die Daten nahezu in Echtzeit zu verarbeiten, ist es sinnvoll, dem eigentlichen ETL-Tool eine Streaming Engine wie etwa Apache Storm vorzuschalten. Eine solche Engine verarbeitet auch IoT- oder Maschinendaten.

Möchte man, dass die Daten unmittelbar auf einem Live-Dashboard erscheinen, sollte die Streaming Engine ein Datenintegrationstool nutzen, das eine Verbindung für das Dashboard bereitstellt. So erhält das Dashboard die Daten direkt aus dem ETL-Tool ohne den Umweg über das DWH. Werden die Streaming-Daten jedoch auch im Data Warehouse benötigt, zum Beispiel für die Historisierung oder die Anreicherung mit anderen Daten, dann ist es sinnvoll, sie aus der Streaming Engine zusätzlich in das DWH zu übertragen. Das sollte je nach Datenaufkommen mehrfach am Tag bzw. mehrfach pro Stunde geschehen.

Gut zu wissen: Mit Lambda schneller, flexibler und kostengünstiger sein
In großen Enterprise-Umgebungen empfehle ich, die Vorteile einer Lambda-Architektur zu nutzen:

  • Reduzierte Kosten
  • Skalierbarkeit und automatisierte Abläufe
  • Lambda verarbeitet Daten im Millisekunden-Bereich
  • Hohe Einsatzflexibilität

Problem 5: Compliance

Datenintegration und Compliance bringt sicher nicht jeder im ersten Moment zusammen. Doch Unternehmensinformationen müssen im Rahmen regulatorischer Vorschriften verarbeitet werden. Die dabei nötigen Abläufe lassen sich in ETL-Prozessen abbilden und so automatisieren und effizient gestalten.

Informationsverarbeitung bei der Erfüllung regulatorischer Vorgaben

Nicht nur die DSGVO und allgemeine Compliance-Vorschriften wie Verhaltenscodices bestimmen das Handeln von Unternehmen. Viele Branchen bewegen sich darüber hinaus innerhalb eines dichten Netzes aus Regelwerken und Verordnungen auf nationaler, europäischer und internationaler Ebene. Besonders engmaschig und komplex ist dieses Netz im Finanz-, Pharma- und Energiesektor. Im Mittelpunkt steht dabei immer die Integration und Verarbeitung von Daten, beispielsweise um gesetzliche Vorschriften oder Meldepflichten zu erfüllen.

Die Erfüllung regulatorischer Vorgaben geschieht in bzw. mit Hilfe verschiedener Anwendungen und Datenbanken, die teils im Unternehmen selbst liegen, teils bei externen Dienstleistern, Agenturen oder Behörden. Ein Blick auf den stark von Regulatorien geprägten Finanzbereich verdeutlicht die Rolle von Datenverarbeitungsprozessen: Geldinstitute müssen eine Vielzahl von Meldepflichten erfüllen, die vom Nachweis von Eigenmitteln über die Meldung von Großkrediten bis zur Vorlage korrekter Produktbewertungen (z.B. bei Anleihen) reichen. Die dahinter liegenden Prozesse integrieren Informationen aus verschiedenen Systemen, von denen die meisten externe Datenquellen sind: Zentralbanken, Ratingagenturen, Schufa oder Marktdatenprovider wie Reuters oder Bloomberg halten Informationen vor, die für die tägliche Abwicklung von Bankgeschäften essentiell sind. Selbst das Kernbankensystem, in dem alle Transaktionen und Kundendaten einer Bank erfasst werden, wird von externen Dienstleistern gehostet. Das zeigt, wie dicht das Netz aus Datenverarbeitungsprozessen im Bankensektor ist und wie wichtig Informationen aus Drittsystemen für das Tagesgeschäft von Geldinstituten sind.

Alle diese Daten müssen integriert und verarbeitet werden. Unabhängig davon, ob die Informationen aus internen oder externen Systemen stammen, sind viele dieser Prozesse sehr komplex. Unternehmen betreiben eine große Anzahl solcher Prozesse, um ihren gesetzlichen Meldepflichten nachkommen zu können. Aufgrund der ständigen Zunahme der Regelwerke und ihrer Komplexität, die vor allem durch die europäische Integration getrieben ist, ist es längst nicht mehr möglich, diese Prozesse manuell durchzuführen.

Die Lösung: Business-Prozesse digitalisieren

Business-Prozesse, die große Mengen von Daten verarbeiten, lassen sich in IT-Prozessen abbilden und so automatisieren. Durch die Automatisierung verringern sich nicht nur mögliche Fehlerquellen, es lassen sich auch in kurzer Zeit große Datenmengen verarbeiten und gesetzliche Dokumentationspflichten erfüllen. IT-gestützt ist es zudem relativ einfach möglich, Überprüfungsmechanismen einzubauen, die für eine fehlerfreie Datenübermittelung und -verarbeitung sorgen.

Software für Datenintegration bildet die einzelnen Prozessschritte ab und integriert die involvierten Daten. Unabdingbare Voraussetzung dafür sind Schnittstellen, denn nur so lassen sich externe Systeme und Datenbanken anbinden. Je mehr vorgefertigte Konnektoren für die Schnittstellen die Datenintegrationssoftware mitbringt, desto mehr Zeit wird eingespart. Durch eine optimale Datenintegration reduzieren Unternehmen die Zeit für die Aufbereitung und Analyse ihrer Daten, denn sie macht die manuelle Erfassung von Daten überflüssig. So müssen z.B. Compliance-Verantwortliche nicht jedes Mal Daten neu verknüpfen, wenn sie einen Compliance-Bericht erstellen, da die Prozesse bereits eingerichtet sind. Das spart nicht nur Ressourcen, sondern die Prozesse gewährleisten auch, dass regulatorische Vorgaben eingehalten werden können.

Um all diese Maßnahmen den spezifischen Bedingungen eines Unternehmens anzupassen und sie gewinnbringend umzusetzen, ist es ratsam, das Expertenwissen eines qualifizierten Dienstleisters zu nutzen. Dieser sollte nicht nur über jahrelange Erfahrung aus zahlreichen Analytics- und Datenintegrations-Projekten verfügen, sondern auch Spezialwissen über Datenquellen wie zum Beispiel SAP-Systeme. Wichtig ist auch ein tiefes und breitgefächertes technologisches Wissen (Data Engineering, Data Science, Data Viz) für vielfältige Usecases sowie die Kompetenz, Schulungen der Anwender durchzuführen.