Data Intelligence

7 Lügen der Datenkataloge #2: Keine Qualitätslösung

Actian Germany GmbH

Juni 21, 2021

Datenqualität

Der Markt für Datenkatalog hat sich rasant entwickelt und gilt heute als unverzichtbar für die Umsetzung einer data driven Strategie. Dieser Markt ist Opfer seines eigenen Erfolgs geworden und hat mehrere Akteure aus angrenzenden Märkten angezogen.

 Diese Akteure haben ihre Marketingpositionierung überarbeitet, um sich als Datenkatalog zu präsentieren.

Die Realität sieht so aus, dass diese Unternehmen zwar relativ wenig über die eigentlichen Datenkatalog wissen, aber mit einem ihrem Marketingbudget entsprechenden Erfolg versuchen, die Kunden davon zu überzeugen, dass es sich bei einem Datenkatalog nicht nur um ein High-Performance für Datenteams handelt, sondern um eine integrierte Lösung, die eine ganze Reihe anderer Themen abdeckt.

Das Ziel dieser Blogserie ist es, das Angebot dieser Anbieter von Datenkatalog in letzter Minute zu dekonstruieren.

Ein Datenkatalog ist keine Datenqualitätsmanagement (DQM) Lösung

Unterschätzen Sie nicht die Bedeutung der Datenqualität für die erfolgreiche Durchführung eines Datenprojekts, ganz im Gegenteil. Es erscheint mir nur absurd, dies in die Hände einer Lösung zu legen, die von Natur aus nicht in der Lage ist, die Kontrollen zum richtigen Zeitpunkt durchzuführen.

Lassen Sie uns erklären: Es gibt eine sehr elementare Regel für die Qualitätskontrolle, eine Regel, die praktisch in jedem Bereich angewendet werden kann, in dem Qualität ein Thema ist, sei es eine industrielle Produktionskette, Softwareentwicklung oder die Küche eines 5-Sterne-Restaurants: Je früher ein Problem entdeckt wird, desto weniger kostet es, es zu beheben.

Um das zu verdeutlichen: Ein Autohersteller wird wohl kaum davon absehen, die Batterie eines neuen Fahrzeugs zu testen, bis es gebaut ist und alle Produktionskosten bereits angefallen sind und die Behebung eines Fehlers am meisten kosten würde. Nein. Jedes Teil wird genau kontrolliert, jeder Produktionsschritt wird geprüft, fehlerhafte Teile werden entfernt, bevor sie überhaupt in den Produktionskreislauf integriert werden, und die gesamte Produktionskette kann gestoppt werden, wenn in irgendeiner Phase Qualitätsprobleme festgestellt werden. Die Qualitätsmängel werden in der frühestmöglichen Phase des Produktionsprozesses behoben, wo sie am wenigsten Kosten verursachen und am haltbarsten sind.

"In einer modernen Datenorganisation beruht die Datenproduktion auf denselben Prinzipien. Wir haben es mit einer Montagekette zu tun, deren Ziel es ist, der Nutzung einen hohen Mehrwert zu verleihen. Bei jedem Schritt müssen Qualitätskontrollen und Korrekturen vorgenommen werden. Art und Umfang der Kontrollen hängen davon ab, wofür die Daten verwendet werden."

Wenn Sie mit Daten arbeiten, stehen Ihnen natürlich auch Pipelines zur Verfügung, um Ihre Anwendungen zu speisen. Diese Pipelines können Dutzende von Schritten umfassen - Datenerfassung, Datenbereinigung, verschiedene Transformationen, Mischung verschiedener Datenquellen usw.

Bei der Entwicklung dieser Pipelines kommen wahrscheinlich eine Reihe von Technologien zum Einsatz, von in-house Skripten bis hin zu teuren ETLs und exotischen Middleware-Tools. Innerhalb dieser Pipelines müssen Sie Ihre Qualitätskontrolle so früh wie möglich einführen und steuern, indem Sie sie an die Anforderungen des Endprodukts anpassen. Die Datenqualität erst am Ende der Kette zu messen, ist nicht nur absurd, sondern auch völlig ineffizient.

Es ist daher schwer zu erkennen, wie ein Datenkatalog (dessen Zweck es ist, alle potenziell nutzbaren Datensätze zu inventarisieren und zu dokumentieren, um das Daten-Discovery und die Nutzung von Daten-Discovery erleichtern) ein nützliches Instrument zur Messung und verwalten Qualität sein kann.

Ein Datenkatalog arbeitet mit verfügbaren Datenbeständen, mit allen Systemen, die Daten enthalten, und sollte so wenig invasiv wie möglich sein, um schnell im gesamten Unternehmen eingesetzt werden zu können.

Eine DQM-Lösung arbeitet mit dem Datenfeed (den Pipelines), konzentriert sich auf die Produktionsdaten und ist von vornherein aufdringlich und zeitaufwändig in der Bereitstellung. Ich kann mir keine Software-Architektur vorstellen, die beide Probleme lösen kann, ohne die Qualität eines der beiden Probleme zu beeinträchtigen.

Anbieter von Datenkatalog , die versprechen, Ihre Datenqualitätsprobleme zu lösen, befinden sich unserer Meinung nach in einer Zwickmühle und es scheint unwahrscheinlich, dass sie über eine "verkaufsorientierte" demo hinausgehen können.

Die Lösungen der DQM-Anbieter (die oft auch ETLs verkaufen) sind oft zu komplex und zu kostspielig, um als glaubwürdige Datenkataloge eingesetzt zu werden.

Die gute Nachricht ist, dass die orthogonale Natur von Datenqualität und Datenkatalogisierung es einfach macht, dass spezialisierte Lösungen in jedem Bereich nebeneinander existieren können, ohne sich gegenseitig in die Quere zu kommen.

Ein Datenkatalog ist zwar nicht für die Qualitätskontrolle gedacht, kann aber die Informationen über die Qualität der darin enthaltenen Datensätze nutzen, was natürlich viele Vorteile mit sich bringt.

Der Datenkatalog nutzt diese Metadaten zum Beispiel, um die Informationen (und mögliche Warnungen, die er identifizieren kann) mit den Datenkonsumenten zu teilen. Der Katalog kann aus diesen Informationen Nutzen , um seine Such- und Empfehlungsmaschine anzupassen und so andere Nutzer auf qualitativ hochwertigere Datensätze zu lenken.

Und beide Lösungen lassen sich mit geringem Kostenaufwand über ein paar APIs integrieren.

Mitnehmen

Die Datenqualität muss so früh wie möglich im Rahmen der Einspeisung in die Pipeline bewertet werden.

Die Rolle des Datenkatalog besteht nicht darin, Qualitätskontrollen durchzuführen, sondern die Ergebnisse dieser Kontrollen so weit wie möglich zu teilen. Datenkataloge sind von Natur aus schlechte DQM-Lösungen, und DQM-Lösungen sind mittelmäßige und übermäßig komplexe Datenkataloge.

Eine Integration zwischen einer DQM-Lösung und einem Datenkatalog ist sehr einfach und stellt den pragmatischsten Ansatz dar.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.