Daten-Intelligenz

Datenherkunft in einer Big Data

Actian Germany GmbH

1. März 2018

data-lineage

Die Datenabfolge wird als eine Art Datenlebenszyklus definiert. Es handelt sich dabei um eine detaillierte Darstellung von Daten im Laufe der Zeit: ihre Herkunft, Prozesse und Umwandlungen. Obwohl dies kein brandneues Konzept ist, findet derzeit ein Paradigmenwechsel statt.

Die Datenherkunft aus einem Data Warehouse zu erhalten, war zum Beispiel eine ziemlich einfache Aufgabe. Dieses zentralisierte Speichersystem ermöglichte es "von vornherein", die Datenherkunft aus den am selben Ort gespeicherten Daten zu ermitteln.

Das Datenökosystem hat sich seit dem Aufkommen von Big Data sehr schnell entwickelt, da verschiedene Technologien und Speichersysteme auf den Markt gekommen sind, die die Informationssysteme in Unternehmen verkomplizieren.

Es ist unmöglich geworden, ein einziges zentralisiertes Werkzeug in Organisationen zu behalten und durchzusetzen. Software und Methoden, die von Urbanisten und IS-Architekten der "alten Welt" verwendet wurden, sind immer weniger wartungsfähig, was ihre Arbeit obsolet und unlesbar macht.

Wie können Sie also eine effiziente Datenabfolge in einer Big Data visualisieren?

Um einen globalen Überblick über die IS-Daten eines Unternehmens zu erhalten, werden neue Werkzeuge entwickelt. Wir sprechen von einem Datenkatalog. Er ermöglicht es, eine maximale Menge an Metadaten aus allen Datenspeichern über eine Nutzer Schnittstelle zu verarbeiten. Durch die Zentralisierung all dieser Informationen ist es möglich, in einer Big Data auf verschiedenen Ebenen eine Datenabfolge zu erstellen:

Auf der Ebene der Datensätze

Das kann eine Tabelle in Oracle sein, ein Topic in Kafka oder auch ein Verzeichnis im Daten-Lake. Ein Datenkatalog zeigt die Prozesse und Datensätze auf, die es ermöglicht haben, den endgültigen Datensatz zu erstellen.

Dieser Datenabstammungsstandard allein ermöglicht es den Datennutzern jedoch nicht, alle ihre Fragen zu beantworten. Unter anderem bleiben diese Fragen offen: Was ist mit sensiblen Daten? Welche Spalten wurden mit welchen Verfahren erstellt? usw.

Auf Säulenebene

Eine detailliertere Methode, sich diesem Thema zu nähern, besteht darin, die verschiedenen Umwandlungsstufen eines Datensatz in einer Zeitleiste von Aktionen/Ereignissen darzustellen. Durch die Auswahl eines bestimmten Feldes können die Benutzer sehen, durch welche Spalten und Aktionen es entstanden ist.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.