EN | DE

Die 5 besten Tipps für Datenintegrationsprobleme

Mangelnde Datenqualität ist ein häufiges Problem
Mangelnde Datenqualität ist ein häufiges Problem
Ob duplizierte, unvollständige oder inkonsistente Daten: schlechte Datenqualität kostet die Wirtschaft beträchtliche Summen. Diese Kosten steigen von Jahr zu Jahr, da die Datenabhängigkeit der Unternehmen kontinuierlich zunimmt. Zudem können Entscheider aufgrund der geringen Datenqualität das Vertrauen in Big Data-Analysen verlieren und deshalb lieber darauf verzichten wollen. Doch gegen unzureichende Datenqualität kann man etwas tun.

Während ich in den ersten beiden Beiträgen dieser Serie beschrieben habe, wie man Daten anbindet und verwertet bzw. wie man die Performance von Datenabfragen verbessert, widme ich mich im dritten Beitrag dem wichtigen Thema der Datenqualität. Meistens handelt es sich um eines der drei folgenden Probleme:

Duplizierte Daten

Sind die gleichen Daten mehrfach im System abgelegt, dann liegt das in der Regel an einem schlechten Integrationsprozess. Redundante Daten beanspruchen nicht nur Speicherplatz, sondern können zu fehlerhaften Handlungen oder Aussagen führen. Ist beispielsweise in einem CRM-System eine Kundenadresse x-mal hinterlegt, dann erhält dieser Kunde möglicherweise auch x Anschreiben im Zuge einer Marketingkampagne, was keinen professionellen Eindruck hinterlässt.

Unvollständige Daten

Eine schlechte Datenintegration kann auch dazu führen, dass Daten gelöscht werden oder verloren gehen. Die Datensätze werden somit unbrauchbar, denn

  • die Zusammenhänge zwischen den verbliebenen Daten stimmen nicht mehr.
  • für die vorhandenen Daten fehlt der Kontext.
  • Die Gewichtung zwischen den Daten verschiebt sich und liefert so fehlerhafte Aussagen.

Inkonsistente Daten

Inkonsistent bedeutet, dass nicht alle Daten in einem einheitlichen, vom System lesbaren Format vorliegen. Im einfachsten Fall sind nur schlecht verwaltete Konventionen für die Dateinamen die Ursache. Ein anderer Grund könnte sein, dass die verschiedenen Datentypen miteinander vermischt sind, etwa wenn in einem Datensatz für Temperaturangaben auch Preise stehen. Auch hier sind die Auswirkungen unschön, denn nicht lesbare Daten sind für das System quasi nicht vorhanden – mit den oben beschriebenen Konsequenzen. Wenn die Daten zwar lesbar sind, jedoch nicht im einheitlichen Format vorliegen,fällt ein Mehraufwand an, um sie umzuwandeln.

Datenquellen vorab auf ihre Qualität prüfen

Sind die originären Daten bereits falsch, dann zieht sich dieser Fehler durch den gesamten Prozess. Daher ist es besonders wichtig, dass Unternehmen sehr sorgfältig bei der Aufnahme von Daten vorgehen bzw. die Qualität ihrer Datenquellen genau prüfen.

Sorgenkinder in vielen Firmen sind Adress- und Telefondaten. Ein Grund dafür ist, dass sie häufig manuell eingepflegt werden, etwa von den Mitarbeitern ins ERP-System oder vom Kunden in eine Eingabemaske auf der Webseite. Schnell schleicht sich da ein Tippfehler ein, oder eine Angabe wird vergessen. Gibt der Kunde die Adresse telefonisch an, kann es akustische Missverständnisse geben.

Zwar lassen sich fehlerhafte oder unvollständige Angaben nicht ganz ausschließen, Unternehmen können aber eine technische Unterstützung einbauen. Datenqualitätssoftware erkennt Felder in einer Datenbank, die wahrscheinlich nicht richtig oder ungenau ausgefüllt sind. So werden beispielsweise bei einer deutschen Postleitzahl nur fünfstellige Eingaben als richtig anerkannt. Je nachdem, welche Datentypen fehlen, kann das System fehlende Informationen auch aus anderen Datenquellen abrufen und ergänzen. Beispielweise, indem es auf eine Post-Datenbank zugreift und die Postleitzahl ermittelt, die zur angegebenen Vorwahl passt.

Die Lösung: Hochwertige Daten automatisiert integrieren

Die meisten der oben aufgeführten Probleme lassen sich lösen, indem man die im Unternehmen anfallenden Daten strukturiert ablegt und sie automatisiert integriert. Zuvor ist eine Planung zwingend, die festlegt, wie die Daten künftig strukturiert sein sollen, welche Datenquellen vorliegen und wie der Prozess der Datenintegration abzulaufen hat. Insbesondere sollte sichergestellt sein, dass die anfallenden Daten standardisierte Bezeichnungen erhalten und nur in den festgelegten Formaten vorliegen. Eine strukturierte, verbindlich festgelegte Datenablage unterstützt insbesondere die IT bei späteren Erweiterungen oder Updates.

Man sollte zudem darauf achten, ein System zur Datenintegration einzusetzen, das bereits während des Data Blending doppelte Daten automatisch identifiziert und entfernt.
Der automatisierte Zugriff auf die Datenquellen sorgt überdies dafür, dass die Daten vollständig integriert werden und keine Fehler durch manuelle Eingaben auftreten.

Eine umfassende Beschreibung dieser und vier weiterer Lösungen finden Sie im Whitepaper „Die 5 besten Lösungen für Datenintegration“.

Diese Artikel könnten Sie auch interessieren:

Es war noch nie so einfach anzufangen

Lassen Sie uns über Ihr Projekt sprechen.

Wir sollten uns kennenlernen!

STANDORTE
it-novum GmbH Deutschland
Hauptsitz
Edelzeller Straße 44 36043 Fulda Deutschland

Niederlassungen
Ruhrallee 9, 44139 Dortmund Königsallee 92a, 40212 Düsseldorf
E-Mail: info@it-novum.com
Tel.: +49 661 103-434
it-novum Zweigniederlassung Österreich
Ausstellungsstraße 50 / Zugang C
1020 Wien

E-Mail: info@it-novum.at
Tel.: +43 1 205 774 1041

it-novum Schweiz GmbH
Hotelstrasse 1,
8058 Zürich

E-Mail: info@it-novum.ch
Tel.: +41 44 567 62 07

Pentaho User Meeting 2021: Usecases, Praxisbeispiele und Live-Demos zu Pentaho