data cleansing

Aus gesinn.it

Wechseln zu: Navigation, Suche

   

Data Cleansing - Datenbereinigung

   
Pentaho

 

Die Qualität von Daten ist die Basis fundierter Geschäftsentscheidungen. Und sie trägt wesentlich zum reibungslosen Ablauf von Geschäftsprozessen bei. Hohe Datenqualität sorgt für die richtigen Entscheidungen, vermeidet Kosten und erhöht die Kundenzufriedenheit.

Die Datenbereinigung entfernt und korrigiert Fehler in Datenbanken oder anderen Informationssystemen. Diese Fehler können beispielsweise aus inkorrekten (falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.

In drei Schritten zu sauberen Daten

Der Ablauf zur Bereinigung der Daten gliedert sich typischerweise in drei Schritte:

Schritt 1: Strukturieren
Die Strukturierung bringt die Daten in ein einheitliches Format, beispielsweise werden zusammengesetzte Daten, wie die Adresse eines Kunden, in ihre Bestandteile zerlegt (Straße, Hausnummer, Postleitzahl und Ort). Oder es wird ein Datum in ein einheitliches Datenformat gebracht (2017-11-20).

Schritt 2: Normieren
Bei der Normierung werden die vorhandenen Daten gegen Referenzdaten abgeglichen. Diese Normierung kann z. B. für die Rechtsform von Organisationen, akademische Titel oder Funktionsbezeichnungen durchgeführt werden. So können beispielsweise die Abkürzungen GF, GSF, GeschF. durch den normierten Wert Geschäftsführer ersetzt werden, wodurch nicht nur die spätere Bereinigung stark vereinfacht wird, sondern auch statistische Auswertungen erst möglich werden.

Schritt 3: Bereinigen

  • Ableiten aus anderen Daten (z. B. die Anrede aus dem Vornamen)
  • Ersetzen durch andere Daten (z. B. aus anderen Systemen)
  • Standard-Werte verwenden (z. B. 0 statt leer)
  • Fehlerhafte Daten entfernen (z. B. HTML-Tags oder Steuerzeichen)
  • Duplikate entfernen (z. B. Artikelstammdaten mit unterschiedlichen Schreibweisen "Schraube M3 verzinkt" vs. "Zinkschraube M3")
  • Zusammenfassungen auftrennen (z. B. Kontaktdaten in Ansprechpartner und Organisation)

Individuelle Lösungen, schnelle Implementierung und niedrige Kosten

Die von uns eingesetzten Open Source Werkzeuge unterstützen den Datenbereinigungs-Prozess optimal durch umfassende Konnektivität und flexible Transformationsmöglichkeiten und sind dabei mit niedrigen Lizenz- und Integrationskosten auch für kleine und mittelständische Unternehmen erschwinglich.

Als erfahrener Dienstleister beraten wir Sie hinsichtlich Ihrer individuellen Anforderungen und begleiten Ihr Projekt von der Konzeption über die Umsetzung bis hin zum laufenden Betrieb.

 
Ihr Ansprechpartner
Alexander Gesinn AP.png

Alexander GESINN
+49 9435 65218-0

Produktempfehlung
Besuchen Sie uns
TechBase

Showroom TechBase
Franz-Mayer-Straße 1
93053 Regensburg