Uncategorized

Daten-Lake Integration

Grafik von Bergen aus digitalen Binärcode-Mustern, die die Daten-Lake in einer technologischen Landschaft darstellen.

A Daten-Lake ist ein Lager , das Daten vollständig speichert - die Datendateien werden in ihrem ursprünglichen Format aufbewahrt -, bis sie für die Analyse benötigt werden. Die Daten-Lake ist der Prozess des Verschiebens, Aufbereitens und Ladens von Daten zur Analyse in ein Data Warehouse. Ein Nutzen eines Daten-Lake besteht darin, dass er große Mengen an Rohdaten, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten, kosteneffizient speichern kann, bis sie zur Verwendung bereit sind.

Warum ist die Daten-Lake wichtig?

Data Lakes sind als Speichersysteme sehr nützlich. Die Integrationstechnologie macht die in einem Daten-Lake gespeicherten Daten für das Unternehmen nützlich, indem sie einen automatischen Pfad zu einem Analysesystem schafft. Der Daten-Lake bietet einen zentralen Ort zum Sammeln von Daten aller Art, die bei Bedarf für Analysen verwendet werden können. Ein Daten-Lake unterscheidet sich von einem Data Warehouse, das sich ideal für die Analyse strukturierter, intern gespeicherter Daten eignet. Mit der richtigen Analytics Database können Abfragen erweitert werden, um auf Daten zuzugreifen, einschließlich unstrukturierter Daten, die extern in einem Daten-Lake gespeichert sind. In diesem Fall wird die externe Datei in der Datenbank registriert, und ein Konnektor sendet die Anfrage an die externe Datenquelle.

Integration eines Daten-Lake mit einer Analyseplattform

Nachfolgend finden Sie einige Ansätze, die Unternehmen gewählt haben, um ihre Data Lakes mit einer Data Analytics zu verbinden:

Traditionelles Data Warehouse

Für die Übertragung von Daten aus einem Daten-Lake in ein traditionelles Data Warehouse wird idealerweise eine Datenintegrationslösung wie Actian DataConnect verwendet, die die Datenbewegungen, -transformationen und -filterungen verwaltet, die erforderlich sind, um die Daten in eine geeignete Form für aussagekräftige Analysen zu bringen.

Erweitertes Data Warehouse

Wenn die Quelldaten im Daten-Lake in einer analysefähigen Form vorliegen, wie es bei vielen Hadoop-Datenformaten der Fall ist, kann eine Analysetechnologie von Vorteil sein. Zum Beispiel kann die Actian Vector-Datenbank mit dem eingebauten Konnektor auf mehr als 50 Datenformate zugreifen, einschließlich Hadoop-formatierter Dateidaten. Ebenso kann die Actian Data Platform Data-Warehouse-Projekte und deren erforderliche Datenintegrationen hosten.

Daten-Lakehouse

Die Daten-Lakehouse Konzept kombiniert die Funktionen eines Data Warehouses mit der Daten-Lake , die keine separate Integrationstechnologie erfordert. A Daten-Lakehouse ist ein strukturiertes Lager , das in einer Datenbank als Tabellen gespeichert wird und auch semi-strukturierte Datenformate wie JSON-Strings speichern kann. Flat Files speichern unstrukturierte Daten wie Video-, Audio- und Textströme in einem oder mehreren Dateisystemen. Ein integrierter Datenkatalog speichert Metadaten , die das Datenformat, die Herkunft der Etiketten und vieles mehr beschreiben. Datenkonnektoren bieten die Möglichkeit, auf alle Datentypen im Daten-Lakehouse zuzugreifen.

Funktionen zur Datenintegration

Nachfolgend sind wesentliche Funktionen der Datenintegrationstechnologie aufgeführt:

Daten Konnektoren

Data Lakes speichern eine Vielzahl von Datentypen und Dateiformaten. Die entsprechende Datenintegrationslösung benötigt Konnektoren, die alle erforderlichen Formate abdecken. Die offene Datenbankkonnektivität (ODBC) bietet eine offene Anwendungsprogrammierschnittstelle (API) für einfache Formate. Spark stellt eine Verbindung zu komplexeren Datenformaten her, die von Hadoop-Dateisystemen verwendet werden. Die ideale Integrationstechnologie sollte die Möglichkeit bieten, bei Bedarf eigene Konnektoren zu erstellen. Actian DataConnect unterstützt Hunderte von Konnektoren und bietet einen universellen Konnektor für die Erstellung von Verbindungen zu selbst entwickelten Anwendungen.

Datenpipeline Orchestrierung

Actian DataConnect und KNIME bieten visuelle Workflow-Design-Tools für die Konstruktion von Datenflüssen, um die Daten vom Daten-Lake zum analytischen Zielsystem zu bewegen. Actian DataFlow lässt sich in KNIME einbinden, um Datenumwandlungs- und Analysefunktionen bereitzustellen, die als parallele Multithreading-Operationen ausgeführt werden können, um die Ausführungszeiten zu reduzieren.

Terminplanung

Integrationslösungen sollten einen zentralen Überblick über alle Datenpipelines bieten und es der IT-Abteilung ermöglichen, Datenbewegungen zu planen und anzuhalten.

Zentrale Verwaltung

Integrationslösungen können Integrationen überwachen, Ausnahmen protokollieren, Wiederholungsversuche durchführen und die IT-Abteilung bei Fehlern alarmieren.

Flexibler Einsatz

Data Lakes können sowohl On-Premises als auch auf Cloud betrieben werden. Eine hybride Integrationslösung bietet die größte Flexibilität Deployment .

Vorteile der Cloud Datenintegration

Die Vorteile einer Datenintegrationslösung mit einem Daten-Lake sind u.a:

  • Macht Datenbestände im Daten-Lake einfach für die Analyse vorzubereiten.
  • Bietet fertige Konnektoren zu Hunderten von Dateiformaten, Anwendungs-APIs und Streaming-Datenmanagern.
  • Vereinfacht die Verwaltung von Datenpipelines durch zentralisierte Überwachung und Verwaltung.
  • Senkung der Verwaltungskosten dank der Wiederverwendung von Skripten und der zentralen Sichtbarkeit der Datenbewegungen.

Die Daten-Lakehouse bietet weitere Vorteile, wie z. B. die Bereitstellung eines Metadaten , der Formate, Abstammung und Zusammenhänge zwischen verschiedenen Datensätzen beschreibt.

Wie Actian die Daten-Lake ermöglicht

Die Actian Data Platform erleichtert die Erstellung von High-Performance Data Lakes mit Datenintegration. Die Plattform verwendet eine integrierte spaltenbasierte, vektorisierte Datenbank, die Data Warehouse Funktionen mit einem Bruchteil des Verwaltungsaufwands bietet.

Die Actian Data Platform kann mehrere Cloud nutzen, darunter AWS, Azure Cloud und Google Cloud, sowie On-Premises und in hybriden Umgebungen eingesetzt werden. Die Actian Vector Analytics Database kann auf Daten zugreifen, die in Dateisystemen gespeichert sind, indem sie ihren Konnektor nutzt, der auch Hadoop ORC- und Parquet unterstützt. Auf mehrere verteilte Datenbankinstanzen kann über eine einzige verteilte Anfrage zugegriffen werden.

Die integrierte Datenintegration auf Basis von Actian DataConnect kann Datenprofile erstellen, Datenaufbereitungsschritte automatisieren und gestreamte Datenquellen unterstützen. Zu den von der Actian Data Platform unterstützten Dateisystemen gehören AWS S3-Buckets, Google Drive-Ordner und Azure Blob-Speicher.