Integration von Daten

Daten-Lake Integration

digitale binäre Codemuster, die die Daten-Lake darstellen

A Daten-Lake ist ein Lager , das Daten vollständig speichert - die Datendateien werden in ihrem ursprünglichen Format aufbewahrt -, bis sie für die Analyse benötigt werden. Die Daten-Lake ist der Prozess des Verschiebens, Aufbereitens und Ladens von Daten zur Analyse in ein Data Warehouse. Ein Nutzen eines Daten-Lake besteht darin, dass er große Mengen an Rohdaten, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten, kosteneffizient speichern kann, bis sie zur Verwendung bereit sind.

Warum ist die Daten-Lake wichtig?

Data Lakes sind als Speichersysteme sehr nützlich. Die Integrationstechnologie macht die in einem Daten-Lake gespeicherten Daten für das Unternehmen nützlich, indem sie einen automatischen Pfad zu einem Analysesystem schafft. Der Daten-Lake bietet einen zentralen Ort zum Sammeln von Daten aller Art, die bei Bedarf für Analysen verwendet werden können. Ein Daten-Lake unterscheidet sich von einem Data Warehouse, das sich ideal für die Analyse strukturierter, intern gespeicherter Daten eignet. Mit der richtigen Analytics Database können Abfragen erweitert werden, um auf Daten zuzugreifen, einschließlich unstrukturierter Daten, die extern in einem Daten-Lake gespeichert sind. In diesem Fall wird die externe Datei in der Datenbank registriert, und ein Konnektor sendet die Anfrage an die externe Datenquelle.

Integration eines Daten-Lake mit einer Analyseplattform

Nachfolgend finden Sie einige Ansätze, die Unternehmen gewählt haben, um ihre Data Lakes mit einer Data Analytics zu verbinden:

Traditionelles Data Warehouse

Für die Übertragung von Daten aus einem Daten-Lake in ein traditionelles Data Warehouse wird idealerweise eine Datenintegrationslösung wie Actian DataConnect verwendet, die die Datenbewegungen, -transformationen und -filterungen verwaltet, die erforderlich sind, um die Daten in eine geeignete Form für aussagekräftige Analysen zu bringen.

Erweitertes Data Warehouse

Wenn die Quelldaten im Daten-Lake in einer für die Analyse geeigneten Form Daten-Lake – was bei vielen Hadoop-Datenformaten der Fall ist –, kann der Einsatz einer Analysetechnologie von Vorteil sein. So kann beispielsweise die Actian Analytics Engine über ihren integrierten Konnektor mehr als 50 Datenformate zugreifen, darunter auch Konnektor Dateien im Hadoop-Format. Ebenso kann die Actian Data Platform Data-Warehouse-Projekte und die dafür erforderlichen Datenintegrationen hosten.

Daten-Lakehouse

Die Daten-Lakehouse Konzept kombiniert die Fähigkeiten eines Data Warehouse mit der Daten-Lake , die keine separate Integrationstechnologie erfordert. Ein Daten-Lakehouse ist ein strukturiertes Lager , das in einer Datenbank als Tabellen gespeichert wird und auch semi-strukturierte Datenformate wie JSON-Strings speichern kann. Flat Files speichern unstrukturierte Daten wie Video-, Audio- und Textströme in einem oder mehreren Dateisystemen. Ein integrierter Datenkatalog speichert Metadaten , die das Datenformat, die Herkunft der Etiketten und vieles mehr beschreiben. Datenkonnektoren bieten die Möglichkeit, auf alle Datentypen im Daten-Lakehouse zuzugreifen.

Funktionen zur Datenintegration

Nachfolgend sind wesentliche Fähigkeiten der Datenintegrationstechnologie aufgeführt:

Daten Konnektoren

Data Lakes speichern eine Vielzahl von Datentypen und Dateiformaten. Die entsprechende Datenintegrationslösung benötigt Konnektoren, die alle erforderlichen Formate abdecken. Die offene Datenbankkonnektivität (ODBC) bietet eine offene Anwendungsprogrammierschnittstelle (API) für einfache Formate. Spark stellt eine Verbindung zu komplexeren Datenformaten her, die von Hadoop-Dateisystemen verwendet werden. Die ideale Integrationstechnologie sollte die Möglichkeit bieten, bei Bedarf eigene Konnektoren zu erstellen. Actian DataConnect unterstützt Hunderte von Konnektoren und bietet einen universellen Konnektor für die Erstellung von Verbindungen zu selbst entwickelten Anwendungen.

Datenpipeline Orchestrierung

Actian DataConnect und KNIME bieten visuelle Workflow-Design-Tools für die Konstruktion von Datenflüssen, um die Daten vom Daten-Lake zum analytischen Zielsystem zu bewegen. Actian DataFlow lässt sich in KNIME einbinden, um Datenumwandlungs- und Analysefunktionen bereitzustellen, die als parallele Multithreading-Operationen ausgeführt werden können, um die Ausführungszeiten zu reduzieren.

Terminplanung

Integrationslösungen sollten einen zentralen Überblick über alle Datenpipelines bieten und es der IT-Abteilung ermöglichen, Datenbewegungen zu planen und anzuhalten.

Zentrale Verwaltung

Integrationslösungen können Integrationen überwachen, Ausnahmen protokollieren, Wiederholungsversuche durchführen und die IT-Abteilung bei Fehlern alarmieren.

Flexibles Deployment

Data Lakes können sowohl On-Premises als auch auf Cloud betrieben werden. Eine hybride Integrationslösung bietet die größte Flexibilität Deployment .

Vorteile der cloudbasierten Datenintegration

Die Vorteile einer Datenintegrationslösung mit einem Daten-Lake sind u.a:

  • Macht Datenbestände im Daten-Lake einfach für die Analyse vorzubereiten.
  • Bietet fertige Konnektoren zu Hunderten von Dateiformaten, Anwendungs-APIs und Streaming-Datenmanagern.
  • Vereinfacht die Verwaltung von Datenpipelines durch zentralisierte Überwachung und Verwaltung.
  • Senkung der Verwaltungskosten dank der Wiederverwendung von Skripten und der zentralen Sichtbarkeit der Datenbewegungen.

Die Daten-Lakehouse bietet weitere Vorteile, wie z. B. die Bereitstellung eines Metadaten , der Formate, Abstammung und Zusammenhänge zwischen verschiedenen Datensätzen beschreibt.

Actian und die Data Intelligence Plattform

Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.

Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.

FAQ

Daten-Lake ist der Prozess, bei dem Daten aus einem Daten-Lake Analyse in ein Data Warehouse oder Analyseplattform übertragen, aufbereitet und geladen werden.

Integrationstechnologie macht die in einem Daten-Lake gespeicherten Daten für das Unternehmen Daten-Lake , indem sie einen automatisierten Pfad zu einem Analysesystem schafft und so die Analyse strukturierter, semistrukturierter und unstrukturierter Daten ermöglicht.

Ein Daten-Lake Daten in ihrem ursprünglichen Format, bis sie für die Analyse benötigt werden, und kann alle Datentypen aufnehmen, während ein Data Warehouse ideal für die Analyse intern gespeicherter strukturierter Daten geeignet ist.

Ein Daten-Lakehouse die Fähigkeiten Data Warehouse mit Daten-Lake und speichert strukturierte Daten in Tabellen sowie in semistrukturierten Formaten wie JSON, ohne dass eine separate Integrationstechnologie erforderlich ist.

Fähigkeiten wesentlichen Fähigkeiten Datenkonnektoren für verschiedene Formate,Orchestrierung Datenpipeline , die Zeitplanung, eine zentrale Verwaltung für Überwachung und Benachrichtigungen sowie Deployment flexible Deployment On-Premises Cloud .

Zu den Vorteilen zählen die einfache Aufbereitung von Datenbeständen für die Analyse, die Bereitstellung vorgefertigter Konnektoren für Hunderte von Formaten, die Vereinfachung der Pipeline-Verwaltung durch zentralisierte Überwachung sowie die Senkung der Verwaltungskosten durch die Wiederverwendung von Skripten.

Unternehmen können ein herkömmliches Data Warehouse mit Integrationswerkzeugen wie Actian DataConnect, ein erweitertes Data Warehouse mit integrierten Konnektoren wie Spark oder eine Daten-Lakehouse nutzen, die beide Funktionen vereint.

Die Actian Data Intelligence-Plattform Metadaten , Governance, Datenherkunft, Qualitätsüberwachung und Automatisierung auf einer einzigen Plattform, um Unternehmen dabei zu unterstützen, ihre Daten in hybriden Umgebungen verwalten zu verstehen.