Data Intelligence

Datenherkunft in einer Big Data

Actian Germany GmbH

1. März 2018

data-lineage

Die Datenabfolge wird als eine Art Datenlebenszyklus definiert. Es handelt sich dabei um eine detaillierte Darstellung von Daten im Laufe der Zeit: ihre Herkunft, Prozesse und Umwandlungen. Obwohl dies kein brandneues Konzept ist, findet derzeit ein Paradigmenwechsel statt.

Die Datenherkunft aus einem Data Warehouse zu erhalten, war zum Beispiel eine ziemlich einfache Aufgabe. Dieses zentralisierte Speichersystem ermöglichte es "von vornherein", die Datenherkunft aus den am selben Ort gespeicherten Daten zu ermitteln.

Das Datenökosystem hat sich seit dem Aufkommen von Big Data sehr schnell entwickelt, da verschiedene Technologien und Speichersysteme auf den Markt gekommen sind, die die Informationssysteme in Unternehmen verkomplizieren.

Es ist unmöglich geworden, ein einziges zentralisiertes Werkzeug in Organisationen zu behalten und durchzusetzen. Software und Methoden, die von Urbanisten und IS-Architekten der "alten Welt" verwendet wurden, sind immer weniger wartungsfähig, was ihre Arbeit obsolet und unlesbar macht.

Wie können Sie also eine effiziente Datenabfolge in einer Big Data visualisieren?

Um einen globalen Überblick über die IS-Daten eines Unternehmens zu erhalten, werden neue Werkzeuge entwickelt. Wir sprechen von einem Datenkatalog. Er ermöglicht es, ein Maximum an Metadaten aus allen Datenbeständen über eine Nutzer Schnittstelle zu bearbeiten. Durch die Zentralisierung all dieser Informationen ist es möglich, die Datenabfolge in einem Big Data Umgebung auf verschiedenen Ebenen zu erstellen:

Auf der Ebene der Datensätze

Das kann eine Tabelle in Oracle sein, ein Thema in Kafka oder sogar ein Verzeichnis in der Daten-Lake. Ein Datenkatalog zeigt die Prozesse und Datensätze auf, die es ermöglicht haben, den endgültigen Datensatz zu erstellen.

Dieser Datenabstammungsstandard allein ermöglicht es den Datennutzern jedoch nicht, alle ihre Fragen zu beantworten. Unter anderem bleiben diese Fragen offen: Was ist mit sensiblen Daten? Welche Spalten wurden mit welchen Verfahren erstellt? usw.

Auf Säulenebene

Eine detailliertere Methode, sich diesem Thema zu nähern, besteht darin, die verschiedenen Umwandlungsstufen eines Datensatz in einer Zeitleiste von Aktionen/Ereignissen darzustellen. Durch die Auswahl eines bestimmten Feldes können die Benutzer sehen, durch welche Spalten und Aktionen es entstanden ist.

actian avatar logo

Über Actian Corporation

Actian versetzt Unternehmen in die Lage, Daten in großem Umfang sicher verwalten und zu steuern, komplexe Datenumgebungen zu optimieren und die Bereitstellung von KI-fähigen Daten zu beschleunigen. Der Data-Intelligence-Ansatz von Actian kombiniert Daten-Discovery, Metadaten und föderierte Governance, um eine intelligentere Datennutzung zu ermöglichen und die Compliance zu verbessern. Mit intuitivenFunktionen können geschäftliche und technische Anwender Datenbestände in Cloud, Hybrid- und On-Premises finden, verstehen und ihnen vertrauen. Actian liefert flexible Datenmanagement an 42 Millionen Nutzer in Fortune-100-Unternehmen und anderen Unternehmen weltweit und erreicht dabei eine Kundenzufriedenheit von 95%.