Data Intelligence

Leitfaden zum Datenqualitätsmanagement #1 - Die 9 Dimensionen der Datenqualität

Actian Germany GmbH

1. April 2022

Die 9 Dimensionen der Datenqualität

Der Begriff Datenqualität bezieht sich auf die Fähigkeit eines Unternehmens, die Qualität seiner Daten im Laufe der Zeit zu erhalten. Glaubt man einigen Datenexperten, so ist die Verbesserung der Datenqualität das Allheilmittel für alle unsere geschäftlichen Probleme und sollte daher oberste Priorität haben. 

Wir glauben, dass dies nuanciert sein sollte: Datenqualität ist ein Mittel unter anderen, um die Unsicherheiten bei der Erreichung der Unternehmensziele zu begrenzen. 

In dieser Artikelserie gehen wir auf alles ein, was Datenexperten über Datenqualitätsmanagement (DQM) wissen müssen:

    1. Die neun Dimensionen der Datenqualität
    2. Die mit der Datenqualität verbundenen Herausforderungen und Risiken
    3. Die wichtigsten Merkmale von Datenqualitätsmanagement-Tools
    4. Der Datenkatalog zum DQM

Einige Definitionen von Datenqualität

Fragt man Datenanalysten oder Dateningenieure nach einer Definition von Datenqualität, so erhält man sehr unterschiedliche Antworten, selbst innerhalb desselben Unternehmens, bei ähnlichen Profilen. Einige werden sich beispielsweise auf die Einheitlichkeit der Daten konzentrieren, während andere lieber auf die Standardisierung verweisen werden. Sie können Ihre eigene Interpretation haben.

Die Norm ISO 9000-2015 definiert Qualität als "die Fähigkeit eines Ensembles von inhärenten Merkmalen, Anforderungen zu erfüllen".

DAMA International (The Global Datenmanagement Community) - ein führender internationaler Verband, der sowohl geschäftliche als auch technische Datenmanagement umfasst - passt diese Definition an einen Datenkontext an: "Datenqualität ist der Grad, in dem die Datendimensionen die Anforderungen kennenlernen ."

Der dimensionale Ansatz für Datenqualität

Aus operativer Sicht lässt sich Datenqualität wie folgt beschreiben Dimensionen der Datenqualitätwobei sich jede Dimension auf einen bestimmten Aspekt der Qualität bezieht.

Die vier am häufigsten verwendeten Dimensionen sind im Allgemeinen Vollständigkeit, Genauigkeit, Gültigkeit und Verfügbarkeit. In der Literatur gibt es viele Dimensionen und unterschiedliche Kriterien zur Beschreibung der Datenqualität. Es besteht jedoch kein Konsens darüber, was diese Dimensionen eigentlich sind.

So zählt DAMA beispielsweise sechzig Dimensionen auf - während die meisten Anbieter von Software für das Datenqualitätsmanagement (DQM) in der Regel nur fünf oder sechs anbieten.

Die neun Dimensionen der Datenqualität

Bei Zeenea glauben wir, dass der ideale Kompromiss darin besteht, folgende Aspekte zu berücksichtigen neun Dimensionen der Datenqualität: Vollständigkeit, Genauigkeit, Gültigkeit, Einzigartigkeit, Beständigkeit, Aktualität, Nachvollziehbarkeit, Klarheit und Verfügbarkeit.

Wir werden diese neun Dimensionen und die verschiedenen Konzepte, auf die wir uns in dieser Veröffentlichung beziehen, anhand eines einfachen Beispiels erläutern:

Arthur ist damit beauftragt, Marketingkampagnen an Kunden und Interessenten zu versenden, um die neuesten Angebote seines Unternehmens vorzustellen. Dabei stößt er jedoch auf gewisse Schwierigkeiten:

  • Arthur schickt manchmal mehrmals Mitteilungen an dieselben Personen.
  • Die in seinem CRM angegebenen E-Mails sind oft ungültig.
  • Interessenten und Kunden erhalten nicht immer die richtigen Inhalte.
  • Einige Informationen über die Interessenten sind veraltet.
  • Einige Kunden erhalten E-Mails mit falschen Geschlechtsangaben.
  • Es gibt zwei Adressen für Kunden/Interessenten, aber es ist schwierig zu verstehen, worauf sie sich beziehen.
  • Er weiß nicht, woher einige der von ihm verwendeten Daten stammen und wie er auf deren Quelle zugreifen kann.

Nachstehend sind die Daten aufgeführt, die Arthur für seine Verkaufsbemühungen zur Verfügung stehen. Wir werden sie verwenden, um jede der neun Dimensionen der Datenqualität zu veranschaulichen:

1. Vollständigkeit

Sind die Daten vollständig? Fehlen Informationen? Ziel dieser Dimension ist es, die leeren, ungültigen oder fehlenden Daten zu ermitteln. In diesem Beispiel stellt Arthur fest, dass E-Mail-Adressen fehlen:

Um hier Abhilfe zu schaffen, könnte er versuchen herauszufinden, ob andere Systeme über die benötigten Informationen verfügen. Arthur könnte auch Datenspezialisten bitten, die fehlenden E-Mail-Adressen manuell einzufügen.

2. Genauigkeit

Stimmen die vorhandenen Werte mit den tatsächlichen Daten überein, d. h. mit den Daten, die wir in der realen Welt vorfinden?

Arthur hat festgestellt, dass einige Briefe, die an wichtige Kunden geschickt werden, wegen falscher Postanschriften zurückgeschickt werden. Unten sehen wir, dass eine der Adressen nicht mit den Standard-Adressformaten in der realen Welt übereinstimmt:

Hier könnte es für Arthur hilfreich sein, Dienste zur Überprüfung der Postanschrift zu nutzen.

3. Gültigkeit

Stimmen die Daten mit der Syntax ihrer Definition überein? Mit dieser Dimension soll sichergestellt werden, dass die Daten mit einem Modell einer bestimmten Regel übereinstimmen.

Arthur hat festgestellt, dass er regelmäßig unzustellbare E-Mails erhält. Ein weiteres Problem ist, dass bestimmte Interessenten/Kunden nicht die richtigen Inhalte erhalten, weil sie nicht richtig qualifiziert wurden. Zum Beispiel hat die E-Mail-Adresse annalincoln@apple nicht das richtige Format und der Kundentyp Kunde ist nicht korrekt.

Um dieses Problem zu lösen, könnte er zum Beispiel sicherstellen, dass die Werte für den Kundentyp Teil einer Liste von Referenzwerten (Kunde oder Interessent) sind und dass die E-Mail-Adressen einem bestimmten Format entsprechen.

4. Beständigkeit

Sind die verschiedenen Werte derselben Aufzeichnung mit einer bestimmten Regel konform? Das Ziel ist es, die Kohärenz der Daten zwischen mehreren Spalten zu gewährleisten.

Arthur hat festgestellt, dass sich einige seiner männlichen Kunden darüber beschweren, dass sie E-Mails erhalten, in denen sie als Miss bezeichnet werden. Bei Lino Rodrigez scheint es einen Widerspruch zwischen den Spalten Geschlecht und Titel zu geben.

Um diese Art von Problemen zu lösen, ist es möglich, eine logische Regel zu erstellen, die sicherstellt, dass der Titel Mr. lautet, wenn die ID Gender Male ist.

5. Rechtzeitigkeit

Ist die Zeitspanne zwischen der Erstellung der Daten und ihrer Verfügbarkeit angemessen? Ziel ist es, dass die Daten in möglichst kurzer Zeit zugänglich sind.

Arthur hat festgestellt, dass bestimmte Informationen über potenzielle Kunden nicht immer auf dem neuesten Stand sind, weil die Daten zu alt sind. Als Unternehmensregel gilt, dass Daten über einen potenziellen Kunden, die älter als 6 Monate sind, nicht verwendet werden können.

Er könnte dieses Problem lösen, indem er eine Regel erstellt, die zu alte Daten identifiziert und ausschließt. Eine Alternative wäre, die gleichen Informationen in einem anderen System zu nutzen, das frischere Daten enthält.

6. Einzigartigkeit

Gibt es doppelte Datensätze? Ziel ist es, sicherzustellen, dass die Daten nicht doppelt vorhanden sind.

Arthur bemerkte, dass er dieselben Mitteilungen mehrmals an dieselben Personen schickte. Lisa Smith zum Beispiel ist in dem Ordner doppelt vorhanden:

In diesem vereinfachten Beispiel sind die duplizierten Daten identisch. Fortgeschrittenere Algorithmen, wie z. B. Jaro, Jaro-Winkler oder Levenshtein, können duplizierte Daten genauer umgruppieren.

7. Klarheit

Ist das Verständnis der Metadaten für den Datenkonsumenten einfach? Hier geht es darum, die Bedeutung der Daten zu verstehen und Interpretationen zu vermeiden.

Arthur hat Zweifel an den beiden angegebenen Adressen, da es nicht einfach ist, zu verstehen, was sie darstellen. Die Bezeichnungen Street Address 1 und Street Address 2 sind auslegungsbedürftig und sollten nach Möglichkeit geändert werden.

Die Umbenennung innerhalb einer Datenbank ist oft ein komplizierter Vorgang und sollte mit mindestens einer Beschreibung korrekt dokumentiert werden.

8. Rückverfolgbarkeit

Ist es möglich, die Rückverfolgbarkeit von Daten zu gewährleisten? Das Ziel ist es, den Ursprung der Daten zu ermitteln, zusammen mit allen Umwandlungen, die sie durchlaufen haben.

Arthur weiß nicht wirklich, woher die Daten kommen und wo er auf die Datenquellen zugreifen kann. Es wäre sehr nützlich für ihn gewesen, dies zu wissen, da es sichergestellt hätte, dass das Problem an der Quelle behoben worden wäre. Er hätte wissen müssen, dass die Daten, die er mit seinem Marketing-Tool verwendet, aus den Daten des Data Warehouse des Unternehmens stammen, die wiederum aus dem CRM-Tool bezogen werden.

9. Verfügbarkeit

Wie können die Daten von den Nutzer eingesehen oder abgerufen werden? Das Ziel ist es, den Zugang zu den Daten zu erleichtern.

Arthur weiß nicht, wie er einfach auf die Quelldaten zugreifen kann. Unter Beibehaltung des bisherigen Schemas möchte er mühelos auf Daten aus dem Data Warehouse oder dem CRM-Tool zugreifen.

In einigen Fällen muss Arthur einen förmlichen Antrag stellen, um direkt Zugang zu diesen Informationen zu erhalten.

Holen Sie sich unseren Leitfaden zum Datenqualitätsmanagement für data driven Organisationen

Für weitere Informationen über Datenqualität und DQM laden Sie unseren kostenlosen Leitfaden herunter: "Leitfaden zum Datenqualitätsmanagement".

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.