Data Lakes: Die Zukunft des Datenmanagement für Unternehmen
Anfang 2000 ermöglichte VMWare den Unternehmen die Virtualisierung ihrer Server (Compute) und Speicher (Data Warehouses). Die Kosten für die Lizenzen mussten zwar immer noch aufgebracht werden, und die Auswirkungen auf das Netzwerk waren beträchtlich, aber die Virtualisierung der IT bot eine Atempause bis zur Cloud. Mit der Cloud und den Cloud-Tools mussten Sie die zu einem bestimmten Zeitpunkt benötigten Rechen- und Speicherkapazitäten nicht mehr verwalten oder kennen.
Die Cloud lässt sich flexibel nach oben und unten skalieren, und die Kapazität zur Unterbringung von Daten war weitaus geringer als die Architektur der meisten Unternehmensrechenzentren. Dies führte dazu, dass die neuen Cloud Daten-Lake von Amazon, AWS Daten-Lake , und Microsoft, Azure Daten-Lake, sowie Google, Google Cloud, bei ihrer Einführung schnell angenommen wurden.
Bedenken Sie, dass ein einmal eingerichtetes Data Warehouse immer die gleiche Größe hat. Wenn ein Data Warehouse zu groß wird, müssen Sie ein größeres bauen, was Zeit und Geld kostet. Mit der Cloud können Sie ganze Umgebungen oder Anwendungen innerhalb von Minuten und zu minimalen Kosten hinzufügen oder entfernen. Außerdem richten sich die meisten Cloud nach der Nutzung der Rechenleistung und nicht nach dem Speicherplatz! Stellen Sie sich vor, Sie bauen ein riesiges Datenlager auf und zahlen nur dann, wenn Sie es betreten und etwas mit den Daten anfangen. Diese Analogie gilt auch für die Cloud.
Was fehlte, war eine Möglichkeit, all die verschiedenen Datentypen unterzubringen, die mit der zunehmenden Bedeutung des Internets verfügbar wurden. IoT, Audio, Blogs, Vlogs, Nachrichten, Echtzeit-Datenfeeds - sie alle mussten von Unternehmen genutzt werden, um aktuell und relevant zu bleiben. Data Warehouses konnten nicht schnell genug entwickelt werden, daher wurde 2010 von James Dixon die Definition von Daten-Lake eingeführt. Man kann sich das so vorstellen, dass Datensilos durch die Schaffung eines Pools von Informationen aus jeder beliebigen Quelle, die auf Cloud wie AWS und Azure benötigt werden, verhindert werden. Daten werden nicht mehr extrahiert, umgewandelt und in Ihre Anwendungen geladen, sondern extrahiert, geladen und umgewandelt, wenn Sie es wünschen.
Big data , Volltextsuche, Echtzeitnutzung, Maschinelles Lernen und künstliche Intelligenz sind alles Ergebnisse von Data Lakes. Daten sind das wichtigste Gut eines jeden Unternehmens. Die Art und Weise, wie Sie Daten verwalten und manipulieren, wird Ihr Überleben, Ihre Compliance, Ihre Wettbewerbsfähigkeit, Ihre Widerstandsfähigkeit und Ihre Rentabilität sichern. Data Warehouses waren die ursprüngliche Strategie zur Speicherung von Informationen, bei der Sie wussten, was Sie hatten, wie es aussah und wer es wofür nutzte, und das alles in der von Ihnen verwalteten Infrastruktur. Aber der Platz wurde immer knapper, bis die Cloud und die Virtualisierung auf kostengünstiger Standardinfrastruktur eingeführt wurden, so wie Google Data Lakes, AWS Data Lakes oder Azure Data Lakes. Nun konnten Sie Ihre Daten je nach Bedarf vergrößern oder verkleinern, jedes beliebige Datenformat hinzufügen und eine Vielzahl von Tools nutzen, die Ihnen bei der Datenanalyse helfen, um in unsicheren Zeiten schnelle Entscheidungen zu treffen (COVID19) oder einfach nur, um relevant, wettbewerbsfähig, sicher und konform zu bleiben.
Im Jahr 2017 führte Aberdeen eine Umfrage durch, aus der hervorging, dass Unternehmen, die Data Lakes nutzen, ihre Konkurrenten um 9 % übertrafen. Wie wir sehen werden, gibt es bei der Erstellung und Nutzung von Data Lakes einige Vorbehalte, aber die Vorteile überwiegen eindeutig die Risiken.
Was ist ein Data Warehouse?
Um Data Lakes zu verstehen, muss man bis ins Jahr 1992 zurückgehen, als Ralph Kimball und Bill Inmon den Begriff Data Warehouse prägten, um die Regeln und Schemata zu beschreiben, die die Daten in den nächsten zwei Jahrzehnten steuern sollten. Daten konnten in Marts oder Aktenschränken angeordnet und dann logisch in einem Data Warehouse platziert werden, um Sicherheit und usability zu gewährleisten. Das betriebliche Datenmanagement wurde zu einer Strategie auf Vorstandsebene, da es sich als wichtig erwies, was man wusste und wann man es wusste.
Die Wikipedia-Definition eines Data Warehouse verdeutlicht dessen Nutzen und Schwächen: "Zentrale Speicher für integrierte Daten aus einer oder mehreren unterschiedlichen Quellen. Sie speichern aktuelle und historische Daten und werden zur Erstellung von Trendberichten für die Berichterstattung der Unternehmensleitung, wie z. B. Jahres- und Quartalsvergleiche, verwendet." Wie bei einem Lagerhaus erlaubt der Wächter (Anwendungssicherheit) den zugelassenen Personen, von den Daten im Lagerhaus Nutzen . Aber, und darin liegt die Schwäche des Warehouse, man brauchte jemanden, der die Daten in das nützliche Format bringt. Tools allein nützen dem normalen Nutzer nichts.
Daten-Lake vs. Data Warehouse
Die Hauptunterschiede zwischen einem Data Warehouse und einem Daten-Lake sind in der nachstehenden Tabelle aufgeführt. Die Unterschiede sind zwar nicht allumfassend, aber sie sollen Ihnen verdeutlichen, dass Daten eine strategische Voraussetzung für Führungskräfte sind. Eine unzureichende Datenverwaltung kann zu Reputationsrisiken, Geldstrafen und Insolvenz führen.
Ein Beispiel für einen Daten-Lake: Das Marketing möchte wissen, welche Kunden die social media in welchem Umfang nutzen, muss aber auch ihre Kaufhistorie kennen und, wenn möglich, wissen, was sie abgelehnt oder zurückgegeben haben. Außerdem will das Marketing wissen, wie viele Kunden abgewandert sind, wie hoch die Loyalität war, welche Kunden von Prämien profitiert haben und welche Auswirkungen dies auf das Unternehmen hatte. Bei der Verwendung von Data Warehouses müssten die Entwickler Informationen aus verschiedenen Quellen extrahieren, um den Bericht zu erstellen, aber die Informationen aus social media würden sich als am schwierigsten erweisen, wenn sie überhaupt gelesen und verwendet werden könnten. All diese Informationen könnten leicht in einem Daten-Lake gefunden werden, und das Marketingteam könnte mit einem Tool wie Tableau den Bericht in ein paar Stunden erstellen.
Die Wahrheit ist, dass Sie sowohl Data Warehouses als auch Data Lakes benötigen und nutzen werden. Sie könnten sich dafür entscheiden, Ihr Data Warehouse in Data Marts aufzuteilen (z. B. Aktenschränke für die Personal- oder Finanzabteilung) und diese in Ihren See zu werfen, aber Sie werden feststellen, dass Sie beides brauchen. Die Frage ist nicht die Architektur, die Frage ist der Zweck. Schnelle und wiederholbare Standardabfragen Nutzen einem Data Warehouse. Analysen und Modellierung, bei denen die Datenquellen unterschiedlich sind, erfordern einen Daten-Lake.
Daten-Lake Architektur
Die Verwendung von Analogien ist ein guter Weg, um die Unterschiede zwischen Data Warehouses und Data Lakes zu verstehen. Ein Data Warehouse wird für einen bestimmten Zweck und nach einem bestimmten Design gebaut, so dass alles an seinem richtigen Platz ist, nachdem es zur Speicherung freigegeben wurde. Begriffe wie Relational, Extract, Transform und Load oder On-Write werden mit Data Warehouses in Verbindung gebracht. Die Entwickler gehen zum richtigen Data Warehouse, finden, was sie brauchen, nutzen es, wenn der Zugriff genehmigt ist, und erstellen die relevanten Informationen für die geschäftliche Nutzung. Wenn sie die Daten ändern müssen, hängt es davon ab, ob das Data Warehouse verwendet werden kann oder ob ein neues Data Warehouse erstellt werden muss. Dasselbe gilt für das Hinzufügen weiterer Daten, da Data Warehouses nicht automatisch wachsen.
Seen hingegen verändern ihre Form, wenn ein neuer Fluss oder eine neue Wasserquelle hinzukommt, sie schrumpfen, wenn der Fluss austrocknet, oder verwandeln sich sogar in einen Sumpf, wenn der See voller Müll oder Unkraut ist. Ein Daten-Lake kann sich vergrößern und verkleinern, je nach den Datenquellen und dem, was im See erstellt und gespeichert wird. Dazu ist keine Programmierung erforderlich, da die Cloud diese Fähigkeit von Natur aus besitzt, wenn Sie für diesen Dienst bezahlen. Data Lakes können auch zu Datensümpfen mit beschädigten Daten werden, daher ist Vorsicht geboten.
In einem Data Warehouse müssen alle Schemata zur Nutzung der Daten von Entwicklern erstellt werden, die die Datenstruktur und den Verwendungszweck verstehen. In einem Daten-Lake wird die Vielfalt der Daten durch eine Vielzahl von Analyse- und Modellierungswerkzeugen nutzbar gemacht. Ein Datenanalyst ist vielleicht besser geeignet, um ein angemessenes Informationsmanagement zu gewährleisten, doch kann wohl jeder bewährte Nutzer aus den Daten im See Nutzen . Daher laden und transformieren. Begriffe wie fluid, tagged for use, catalog, data mining und on-read werden mit Data Lakes in Verbindung gebracht.
Technische Architektur
In der Cloud werden die Daten sowohl für Data Warehouses als auch für Data Lakes auf einer Standardinfrastruktur gespeichert. Der Hauptunterschied besteht darin, dass Sie eine bestimmte Art von Software benötigen, um die aus dem See angeforderten Informationen abzufragen, zu analysieren und zu erstellen. Das bekannteste Softwarepaket, das für diesen Zweck entwickelt wurde, ist der Daten-Lake Er verwendet HDFS (Hadoop Distributed File System) oder eine Reihe von Tags, die in Katalogen platziert werden und jedes Datenelement mit der Art, der Herkunft, dem Erstellungsdatum usw. kennzeichnen, die der Anforderer dann zur Erstellung seines Modells oder seiner Analyse verwendet. YARN (Yet Another Resource Manager) und MapReduce, die die Hadoop-Programmierung umfassen, unterstützen die Analyse und Modellierung jeder Datenquelle. Inzwischen gibt es eine lange Liste weiterer Tools, die einen unterschiedlichen Grad an Raffinesse bieten.
- Hochverfügbares SLA (Lager muss geplant werden).
- Die Daten werden maskiert und verschlüsselt (nicht immer in einem Lagerhaus).
- Automatisierte Überwachungs- und Warnsysteme für die Nutzung oder den illegalen Zugriff gibt es in Hülle und Fülle.
- Für Entwickler und Benutzer sind training zu Sicherheits- und Regulierungsaspekten von Daten erforderlich.
- Wenn in der Cloud, skalierbar nach oben/unten.
- Technologieunabhängig: Spark, Hive, MapReduce, HBase, Storm, Kafka und R-Server.
AWS, Azure und Google Data Lakes
Kommerzielle Data Lakes werden von Google, Amazon und Microsoft angeboten. Während täglich weitere Optionen verfügbar werden, haben diese Unternehmen ihre Cloud mit Blick auf Data Lakes entwickelt. Um diese Daten-Lake zu nutzen, wurde die Actian Data Platform von Grund auf so konzipiert, dass sie hohe Leistung und Skalierbarkeit in allen Dimensionen bietet - Datenvolumen, gleichzeitige Nutzer und Komplexität der Anfrage . Actian Data Platform ist eine echte hybride Plattform, die sowohl On-Premises als auch in verschiedenen Clouds wie AWS, Azure und Google Cloud eingesetzt werden kann, so dass Unternehmen Anwendungen und Daten in ihrem eigenen Tempo in die Cloud migrieren oder auslagern können.