Data Intelligence

Datenherkunft in einer Big Data

Actian Germany GmbH

1. März 2018

data-lineage

Die Datenabfolge wird als eine Art Datenlebenszyklus definiert. Es handelt sich dabei um eine detaillierte Darstellung von Daten im Laufe der Zeit: ihre Herkunft, Prozesse und Umwandlungen. Obwohl dies kein brandneues Konzept ist, findet derzeit ein Paradigmenwechsel statt.

Die Datenherkunft aus einem Data Warehouse zu erhalten, war zum Beispiel eine ziemlich einfache Aufgabe. Dieses zentralisierte Speichersystem ermöglichte es "von vornherein", die Datenherkunft aus den am selben Ort gespeicherten Daten zu ermitteln.

Das Datenökosystem hat sich seit dem Aufkommen von Big Data sehr schnell entwickelt, da verschiedene Technologien und Speichersysteme auf den Markt gekommen sind, die die Informationssysteme in Unternehmen verkomplizieren.

Es ist unmöglich geworden, ein einziges zentralisiertes Werkzeug in Organisationen zu behalten und durchzusetzen. Software und Methoden, die von Urbanisten und IS-Architekten der "alten Welt" verwendet wurden, sind immer weniger wartungsfähig, was ihre Arbeit obsolet und unlesbar macht.

Wie können Sie also eine effiziente Datenabfolge in einer Big Data visualisieren?

Um einen globalen Überblick über die IS-Daten eines Unternehmens zu erhalten, werden neue Werkzeuge entwickelt. Wir sprechen von einem Datenkatalog. Er ermöglicht es, ein Maximum an Metadaten aus allen Datenbeständen über eine Nutzer Schnittstelle zu bearbeiten. Durch die Zentralisierung all dieser Informationen ist es möglich, die Datenabfolge in einem Big Data Umgebung auf verschiedenen Ebenen zu erstellen:

Auf der Ebene der Datensätze

Das kann eine Tabelle in Oracle sein, ein Thema in Kafka oder sogar ein Verzeichnis in der Daten-Lake. Ein Datenkatalog zeigt die Prozesse und Datensätze auf, die es ermöglicht haben, den endgültigen Datensatz zu erstellen.

Dieser Datenabstammungsstandard allein ermöglicht es den Datennutzern jedoch nicht, alle ihre Fragen zu beantworten. Unter anderem bleiben diese Fragen offen: Was ist mit sensiblen Daten? Welche Spalten wurden mit welchen Verfahren erstellt? usw.

Auf Säulenebene

Eine detailliertere Methode, sich diesem Thema zu nähern, besteht darin, die verschiedenen Umwandlungsstufen eines Datensatz in einer Zeitleiste von Aktionen/Ereignissen darzustellen. Durch die Auswahl eines bestimmten Feldes können die Benutzer sehen, durch welche Spalten und Aktionen es entstanden ist.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, verwalten und Analyse von Daten in Cloud, Hybrid- und On-Premises . Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und Analytik liefert Actian High-Performance Lösungen, die Unternehmen in die Lage versetzen, data driven Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und hat Branchenauszeichnungen für Leistung und Innovation erhalten. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im Actian-Blog behandeln wir Themen, die von Dateneingang bis hin zu KI-gesteuerter Analytik reichen.