Data Intelligence

Datenherkunft in einer Big Data

Actian Germany GmbH

1. März 2018

data-lineage

Die Datenabfolge wird als eine Art Datenlebenszyklus definiert. Es handelt sich dabei um eine detaillierte Darstellung von Daten im Laufe der Zeit: ihre Herkunft, Prozesse und Umwandlungen. Obwohl dies kein brandneues Konzept ist, findet derzeit ein Paradigmenwechsel statt.

Die Datenherkunft aus einem Data Warehouse zu erhalten, war zum Beispiel eine ziemlich einfache Aufgabe. Dieses zentralisierte Speichersystem ermöglichte es "von vornherein", die Datenherkunft aus den am selben Ort gespeicherten Daten zu ermitteln.

Das Datenökosystem hat sich seit dem Aufkommen von Big Data sehr schnell entwickelt, da verschiedene Technologien und Speichersysteme auf den Markt gekommen sind, die die Informationssysteme in Unternehmen verkomplizieren.

Es ist unmöglich geworden, ein einziges zentralisiertes Werkzeug in Organisationen zu behalten und durchzusetzen. Software und Methoden, die von Urbanisten und IS-Architekten der "alten Welt" verwendet wurden, sind immer weniger wartungsfähig, was ihre Arbeit obsolet und unlesbar macht.

Wie können Sie also eine effiziente Datenabfolge in einer Big Data visualisieren?

Um einen globalen Überblick über die IS-Daten eines Unternehmens zu erhalten, werden neue Werkzeuge entwickelt. Wir sprechen von einem Datenkatalog. Er ermöglicht es, ein Maximum an Metadaten aus allen Datenbeständen über eine Nutzer Schnittstelle zu bearbeiten. Durch die Zentralisierung all dieser Informationen ist es möglich, die Datenabfolge in einem Big Data Umgebung auf verschiedenen Ebenen zu erstellen:

Auf der Ebene der Datensätze

Das kann eine Tabelle in Oracle sein, ein Thema in Kafka oder sogar ein Verzeichnis in der Daten-Lake. Ein Datenkatalog zeigt die Prozesse und Datensätze auf, die es ermöglicht haben, den endgültigen Datensatz zu erstellen.

Dieser Datenabstammungsstandard allein ermöglicht es den Datennutzern jedoch nicht, alle ihre Fragen zu beantworten. Unter anderem bleiben diese Fragen offen: Was ist mit sensiblen Daten? Welche Spalten wurden mit welchen Verfahren erstellt? usw.

Auf Säulenebene

Eine detailliertere Methode, sich diesem Thema zu nähern, besteht darin, die verschiedenen Umwandlungsstufen eines Datensatz in einer Zeitleiste von Aktionen/Ereignissen darzustellen. Durch die Auswahl eines bestimmten Feldes können die Benutzer sehen, durch welche Spalten und Aktionen es entstanden ist.

actian avatar logo

Über Actian Corporation

Actian versetzt Unternehmen in die Lage, Daten in großem Umfang sicher zu verwalten und zu steuern. Die Data-Intelligence-Lösungen von Actian helfen beim Optimieren komplexer Datenumgebungen und einer beschleunigten Bereitstellung von KI-fähigen Daten. Actian-Lösungen sind flexibel, lassen sich nahtlos integrieren und arbeiten zuverlässig in On-Premises-, Cloud- und Hybrid-Umgebungen. Erfahren Sie mehr über Actian, die Datenabteilung von HCLSoftware, unter actian.com.