A Daten-Lake ist ein Lager , das Daten vollständig speichert - die Datendateien werden in ihrem ursprünglichen Format aufbewahrt -, bis sie für die Analyse benötigt werden. Die Daten-Lake ist der Prozess des Verschiebens, Aufbereitens und Ladens von Daten zur Analyse in ein Data Warehouse. Ein Nutzen eines Daten-Lake besteht darin, dass er große Mengen an Rohdaten, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten, kosteneffizient speichern kann, bis sie zur Verwendung bereit sind.
Warum ist die Daten-Lake wichtig?
Data Lakes sind als Speichersysteme sehr nützlich. Die Integrationstechnologie macht die in einem Daten-Lake gespeicherten Daten für das Unternehmen nützlich, indem sie einen automatischen Pfad zu einem Analysesystem schafft. Der Daten-Lake bietet einen zentralen Ort zum Sammeln von Daten aller Art, die bei Bedarf für Analysen verwendet werden können. Ein Daten-Lake unterscheidet sich von einem Data Warehouse, das sich ideal für die Analyse strukturierter, intern gespeicherter Daten eignet. Mit der richtigen Analytics Database können Abfragen erweitert werden, um auf Daten zuzugreifen, einschließlich unstrukturierter Daten, die extern in einem Daten-Lake gespeichert sind. In diesem Fall wird die externe Datei in der Datenbank registriert, und ein Konnektor sendet die Anfrage an die externe Datenquelle.
Integration eines Daten-Lake mit einer Analyseplattform
Nachfolgend finden Sie einige Ansätze, die Unternehmen gewählt haben, um ihre Data Lakes mit einer Data Analytics zu verbinden:
Traditionelles Data Warehouse
Für die Übertragung von Daten aus einem Daten-Lake in ein traditionelles Data Warehouse wird idealerweise eine Datenintegrationslösung wie Actian DataConnect verwendet, die die Datenbewegungen, -transformationen und -filterungen verwaltet, die erforderlich sind, um die Daten in eine geeignete Form für aussagekräftige Analysen zu bringen.
Erweitertes Data Warehouse
Wenn die Quelldaten im Daten-Lake in einer analysefähigen Form vorliegen, wie es bei vielen Hadoop-Datenformaten der Fall ist, kann eine Analysetechnologie von Vorteil sein. Zum Beispiel kann die Actian Vector-Datenbank mit dem eingebauten Konnektor auf mehr als 50 Datenformate zugreifen, einschließlich Hadoop-formatierter Dateidaten. Ebenso kann die Actian Data Platform Data-Warehouse-Projekte und deren erforderliche Datenintegrationen hosten.
Daten-Lakehouse
Die Daten-Lakehouse Konzept kombiniert die Fähigkeiten eines Data Warehouse mit der Daten-Lake , die keine separate Integrationstechnologie erfordert. Ein Daten-Lakehouse ist ein strukturiertes Lager , das in einer Datenbank als Tabellen gespeichert wird und auch semi-strukturierte Datenformate wie JSON-Strings speichern kann. Flat Files speichern unstrukturierte Daten wie Video-, Audio- und Textströme in einem oder mehreren Dateisystemen. Ein integrierter Datenkatalog speichert Metadaten , die das Datenformat, die Herkunft der Etiketten und vieles mehr beschreiben. Datenkonnektoren bieten die Möglichkeit, auf alle Datentypen im Daten-Lakehouse zuzugreifen.
Funktionen zur Datenintegration
Nachfolgend sind wesentliche Fähigkeiten der Datenintegrationstechnologie aufgeführt:
Daten Konnektoren
Data Lakes speichern eine Vielzahl von Datentypen und Dateiformaten. Die entsprechende Datenintegrationslösung benötigt Konnektoren, die alle erforderlichen Formate abdecken. Die offene Datenbankkonnektivität (ODBC) bietet eine offene Anwendungsprogrammierschnittstelle (API) für einfache Formate. Spark stellt eine Verbindung zu komplexeren Datenformaten her, die von Hadoop-Dateisystemen verwendet werden. Die ideale Integrationstechnologie sollte die Möglichkeit bieten, bei Bedarf eigene Konnektoren zu erstellen. Actian DataConnect unterstützt Hunderte von Konnektoren und bietet einen universellen Konnektor für die Erstellung von Verbindungen zu selbst entwickelten Anwendungen.
Datenpipeline Orchestrierung
Actian DataConnect und KNIME bieten visuelle Workflow-Design-Tools für die Konstruktion von Datenflüssen, um die Daten vom Daten-Lake zum analytischen Zielsystem zu bewegen. Actian DataFlow lässt sich in KNIME einbinden, um Datenumwandlungs- und Analysefunktionen bereitzustellen, die als parallele Multithreading-Operationen ausgeführt werden können, um die Ausführungszeiten zu reduzieren.
Terminplanung
Integrationslösungen sollten einen zentralen Überblick über alle Datenpipelines bieten und es der IT-Abteilung ermöglichen, Datenbewegungen zu planen und anzuhalten.
Zentrale Verwaltung
Integrationslösungen können Integrationen überwachen, Ausnahmen protokollieren, Wiederholungsversuche durchführen und die IT-Abteilung bei Fehlern alarmieren.
Flexibler Einsatz
Data Lakes können sowohl On-Premises als auch auf Cloud betrieben werden. Eine hybride Integrationslösung bietet die größte Flexibilität Deployment .
Vorteile der cloudbasierten Datenintegration
Die Vorteile einer Datenintegrationslösung mit einem Daten-Lake sind u.a:
- Macht Datenbestände im Daten-Lake einfach für die Analyse vorzubereiten.
- Bietet fertige Konnektoren zu Hunderten von Dateiformaten, Anwendungs-APIs und Streaming-Datenmanagern.
- Vereinfacht die Verwaltung von Datenpipelines durch zentralisierte Überwachung und Verwaltung.
- Senkung der Verwaltungskosten dank der Wiederverwendung von Skripten und der zentralen Sichtbarkeit der Datenbewegungen.
Die Daten-Lakehouse bietet weitere Vorteile, wie z. B. die Bereitstellung eines Metadaten , der Formate, Abstammung und Zusammenhänge zwischen verschiedenen Datensätzen beschreibt.
Actian und die Data Intelligence Plattform
Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.
Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.