Was ist der Daten-Lake Speicherung, und warum ist sie wichtig? A Daten-Lake ist ein Lager , das von IT-Abteilungen privater Unternehmen oder öffentlichen Cloud Anbietern für die Speicherung, Verarbeitung und Pflege von Daten in jedem Format und aus jeder Quelle, wie z. B. Video, Newsfeeds, Ihre Anwendungen, Web Scraping, IoT, Data Marts, Data Warehouses oder mobile Geräte. Im Jahr 2010 stellte der damalige CTO von Pentaho, James Dixon, Data Marts und Data Lakes gegenüber. Data Marts oder Data Warehouses speicherten und ermöglichten die Datenanalyse auf der Grundlage bekannter Schemaattribute. Im Gegensatz dazu ermöglicht ein Daten-Lake die Abfrage auf der Grundlage einer beliebigen Anzahl von Details, die in den erfassten Daten enthalten sind. Daten-Lake können Sie fast jede Art und Größe von Daten speichern und anschließend nach etwas suchen, ohne sicher sein zu können, was Sie finden werden oder welches Format die Daten haben.
Daten-Lake Storage in einer modernen Datenarchitektur
Die Gestaltung und Verwaltung der Datenspeicherung war in der Vergangenheit der kostspieligste und schwierigste Aspekt der IT. Da die Vielfalt der Datentypen und -quellen zunahm, insbesondere weil die meisten Unternehmen ihre Dienste digital über das Internet anbieten, führte diese Komplexität zu einer Modernisierung der Datenarchitektur (Menschen, Prozesse und Werkzeuge). Man bedenke, dass noch vor einigen Jahren alle Daten in ein starres Schema passen mussten und daher stark strukturiert waren, während die Daten heute halb- oder unstrukturiert und daher oft unformatiert sind.
Vor fünfundzwanzig Jahren benötigte man für 1 TB Datenspeicher drei große Racks mit Festplattenlaufwerken, die jeweils die Größe einer kleinen Waschmaschine hatten. Heute bietet die Daten-Lake die Möglichkeit, Petabytes an Daten zur Verfügung zu haben - entweder physisch in einem kleinen Desktop-Gehäuse oder eher virtualisiert in der Cloud. Eine gute Nachricht oder ein Albtraum für Sicherheit und Verwaltung? Welche Informationen möchte das Unternehmen aus den gespeicherten Daten extrahieren, wenn diese analysiert werden? Die in diesen gespeicherten Daten enthaltenen Informationen helfen den Unternehmen, ihren Kunden außergewöhnliche Produkte zu bieten, aber das Verständnis, welche Daten das Unternehmen hat, wie, wo und wann sie erworben wurden und wer darauf zugreifen kann, sind wichtige architektonische Überlegungen.
Bewährte Verfahren für eine moderne Daten-Lake sind:
- Sie wissen, was Sie haben, indem Sie eine Kombination von Katalogen verwenden (denken Sie an das Bibliothekskartensystem), wobei jede Aufzeichnung aus Metadaten besteht, die jedes Datenelement innerhalb des Sees, seine Quelle, das Erfassungsdatum und andere Attribute schnell definieren, um die Datenabfrage und Archivierung zu vereinfachen.
- Audit-Software und aktive Verwaltung dessen, was Sie haben, warum Sie es haben, ob die Art und Weise, wie Sie es haben oder erhalten haben, legal ist, wer es verwendet und wann Sie es löschen können.
- Zugriffskontrolllisten (Access Control Lists, ACL) und andere Sicherheitspraktiken werden für jeden Daten-Lake entwickelt und geregelt (weitere Informationen finden Sie im Abschnitt über Microsoft Azure Daten-Lake ).
- Cloud Data Lakes verschlüsseln Daten als Teil ihrer ersten Aufnahme. Die Fähigkeit, diese Informationen zu verwenden oder sie in einem verschlüsselten Zustand zu übertragen, erfordert spezielle Softwarekenntnisse und Änderungen an Anwendungen und Dienstdesigns. Dies gilt nicht nur für die Eigentümer des Daten-Lake , sondern auch für alle Partner oder Kunden, die Informationen und Sicherheits-Token weitergeben. Wo die Token gespeichert werden und wer Zugriff darauf hat, ist eine der Prioritäten der modernen Daten-Lake .
Was ist der Unterschied zwischen einem Daten-Lake und einem Data Warehouse?
Die Data-Warehouse-Speicherung war die ursprüngliche Speicherstrategie, bei der man wusste, was man hatte, wie es aussah und welche spezifischen Daten jede Anwendung, jede Datenbank, jedes Datamart und jedes andere Quellsystem an das Data-Warehouse lieferte oder von ihm abgerufen werden musste. Da sich Data Warehouses auf die Aggregation strukturierter Daten aus den operativen Datenbanken der Abteilungen konzentrierten, waren sie auch sehr strukturiert. Und obwohl sie um ein oder zwei Größenordnungen größer sein konnten als die größte Datenbank, aus der sie Daten bezogen, waren selbst die aggregierten Datensatz nicht größer als einige zehn Terabyte, wenn überhaupt. Im Laufe der Zeit, als neue Datentypen, wie z. B. Web-Clickstreams, archivierte Dokumente, Videoüberwachungsdaten und andere Datentypen und -quellen, eine historische Aggregation erforderten, schienen Data Warehouses ungeeignet zu sein, da sie die mit diesen nicht-traditionellen Datenquellen verbundene massive Datengröße nicht aufnehmen konnten. Außerdem waren die Funktionen anderer abteilungsinterner Datenspeicher zu eng definiert: Dokumentenmanagementsysteme funktionierten nur für Dokumente, Videoüberwachungssysteme nur für die Speicherung von Videos usw. Die Suche nach einem zentralisierten, aber dennoch vielseitigen Lager , dem der Speicherplatz nicht ausgeht, führte zur Einführung von virtuellem Speicher (VMWare, NetApp usw.) und ermöglichte die Schaffung von Cloud und Daten-Lake .
Um Data Lakes zu verstehen, müssen Sie in das Jahr 1992 zurückgehen, als Ralph Kimball und Bill Inmon den Begriff Data Warehouse prägten, um die Regeln und Schemata zu beschreiben, die in den kommenden Jahrzehnten die Architektur von Data Warehouses bestimmen sollten.
Die Wikipedia-Definition eines Data Warehouse verdeutlicht dessen Nutzen und Schwächen: "Zentrale Speicher für integrierte Daten aus einer oder mehreren unterschiedlichen Quellen. Sie speichern aktuelle und historische Daten und werden für die Erstellung von Trendberichten für die Berichterstattung der Geschäftsleitung, wie z. B. Jahres- und Quartalsvergleiche, verwendet.
Die folgende Tabelle zeigt die wichtigsten Unterschiede zwischen Data-Warehouse-Speicherung und Daten-Lake :
Attribute | Daten-Warehouse | Daten-Lake |
Dateneigenschaften |
|
|
Datenverwendung | Berichte, Transaktionsmanagement, business intelligence, Dashboards | Analyse und Modellierung, Künstliche Intelligenz, Profiling |
Kosten, Geschwindigkeit, Zuverlässigkeit | Schnellste Anfrage bei Verwendung von teurerem Speicher | Anfrage schneller als bei anderen Speicheroptionen, aber der See kann zu einem Sumpf werden, wenn er nicht richtig verwaltet wird, was die Leistung beeinträchtigt Funktionen |
Datenqualität | Hochgradig kuratierte Daten, die als zentrale Version der Wahrheit dienen | Alle Daten, die kuratiert sein können oder nicht (d. h. Rohdaten) |
Nutzer von Daten | Unternehmensanalysten, Power-User aus dem Geschäftsbereich | Datenwissenschaftler, Datenentwickler und Unternehmensanalysten (unter Verwendung kuratierter Daten) |
Erforderliche Fähigkeiten zur Nutzung von Daten | Data Engineers für Architektur, EDW-Standup, laufendes Management, Datenbankadministratoren für Skripterstellung, verwalten , Konfiguration, Tuning | Dateningenieure für Architektur, Lake Standup, laufendes Management, Entwickler, Datenanalysten und Modellierer für die Erstellung von Profilen, die Verarbeitung und Analyse von Daten |
Herausforderungen | Es ist schwierig, Schemata oder Berichte zu ändern, ohne die Struktur des Data Warehouse zu verändern. |
|
Die Wahrheit ist, dass Sie sowohl Data Warehouses als auch Data Lakes benötigen und nutzen werden. Standardmäßige, schnelle und wiederholbare Abfragen von einem bekannten und gut definierten Datensatz Nutzen von den Funktionen eines Data Warehouses. Analysen und Modellierung, bei denen die Datenquellen disparat sind, erfordern einen Daten-Lake. Aber bedenken Sie, dass eine Umfrage von Aberdeen im Jahr 2017 gezeigt hat, dass Unternehmen, die Data Lakes nutzen , ihre Wettbewerber um 9 % übertreffen. Bei der Erstellung und Nutzung von Data Lakes gibt es einige Vorbehalte, aber die Vorteile überwiegen die Risiken.
Actian Data Platform ist darauf ausgelegt, hohe Leistung und Skalierbarkeit in allen Dimensionen zu bieten - Datenvolumen, gleichzeitige Nutzer und Komplexität der Anfrage .
Microsoft Azure Daten-Lake
Microsoft Azure Daten-Lake Storage Gen1 (ADLS Gen1) war die Antwort auf den Wunsch von Kunden, Informationen in einer Vielzahl von Formaten für analytische Zwecke zu speichern. ADLS Gen1 bietet:
- Elastische, skalierbar Lagerung.
- Azure HDInsight bietet Apache Hadoop-, Spark-, HBase- und Storm-Cluster.
- Integrierte Ausfallsicherheit (obwohl Azure Daten-Lake Gen1 diese nicht in dem Maße wie Azure Blob Storage oder andere Azure Datenspeicheroptionen bot).
- Keine Begrenzung für die Art der Daten, die im Azure Daten-Lake gespeichert werden.
- Verschlüsselter Master Key oder Data Block Key Speicherung im ADLS Master Key Vault.
- Einfache Integration mit den meisten anderen Azure-Angeboten.
- Analysesoftware auf Basis von Apache YARN mit On-Demand-Verarbeitungsleistung.
- Integrierte Azure Active Directory-Dateidienste, die OAuth 2.0, Multi-Faktor-Authentifizierung, Zugriffskontrolllisten, rollenbasierte Zugriffslisten und POSIX unterstützen.
- Automatisierte Ereignisverwaltung zur Auslösung von Analysen oder anderen programmatischen Aktivitäten.
Microsoft Azure Daten-Lake Storage hat keine Vorabkosten, sondern ermöglicht es Ihnen, weniger als sonst für große Mengen an Speicherplatz zu zahlen und gleichzeitig die Transaktionskosten für das Lesen und Schreiben dieser Daten zu reduzieren. ADLS ist ein Pay-as-you-go-Ansatz, aber angesichts dieser Flexibilität muss er überwacht werden, um die Kosten gegenüber den Vorteilen von ADLs zu kontrollieren.
Microsoft Azure Daten-Lake Storage Gen2
Anfang 2019 veröffentlichte Microsoft Azure Daten-Lake Storage Gen2 (ADLs gen2) mit unbegrenztem Speicherplatz in Verbindung mit leistungsfähiger Analysesoftware, die in der Lage ist, Suchvorgänge unabhängig vom Datentyp parallel auszuführen. ADLs gen2 ist besonders nützlich für die Analyse von BLOB (Binary Large Object) oder Videodateien in Kombination mit anderen Datentypen. Azure Daten-Lake Storage Gen2 hat alle Funktionen von ADLS Gen1 plus:
- Azure Active Directory (AAD).
- Hierarchisches Dateisystem (HFS) zur Gruppierung von Dateien innerhalb einer beliebigen Anzahl von Betriebssystemen.
- Georedundanter Speicher mit Lesezugriff zur Verbesserung der Geschäftskontinuität.
- BLOB-Stufen für Hot-, Cool- und Archivspeicher zur Erfüllung der Anforderungen an die Geschäftskontinuität.
- Reduzierung der Speicherkosten um bis zu 50 % gegenüber ADLS Gen1 oder Azure Blob.
- Vereinfachung des Übergangs von ADLS Gen1 zu Adls gen2 durch Aktivierung eines Wechsels von einem Adls gen2-Steuerungsmenü.
- Erhebliche Steigerung der Anfrage und Datenladeleistung durch die Verwendung von Metadaten , um jede Instanz und jedes Attribut von Informationen zu verfolgen (denken Sie daran, wie die Suche nach einem Buch in einer Bibliothek durch die Automatisierung der Buchkataloge erleichtert wurde).
- Sicherung von Daten auf Verzeichnis- und Dateiebene, um sie POSIX-konform zu machen, oder über Zugriffskontrolllisten, rollenbasierten Zugriff (RBAC) und andere Best-Practice-Methoden.
- Integrierte Verschlüsselung für Data-at-Rest oder im Transit in Verbindung mit vom Kunden verwalteten Schlüsseln oder solchen, die in Microsoft Key Vault verwaltet werden.
Planung für Microsoft Azure Daten-Lake Storage Gen2
Es gibt zahlreiche Methoden zur Datenerfassung und -aufnahme und eine Vielzahl von Verwendungszwecken für eine globale Kundengemeinschaft. Die Herausforderung besteht darin, nur einen Daten-Lake zu unterhalten, um jede analytische Anforderung zu erfüllen, oder eine Umgebung mit mehreren Daten-Lake zu schaffen.
Die Kosten für ADLs gen2 sind eine Kombination aus Speicher- und Transaktionskosten. Eine Anleitung finden Sie hier oder Sie können den technischen Support von Microsoft Azure fragen. Viele Azure-Dienste wie Azure Stream Analytics, IoT Hub, Power BI und Azure Data Factory sind jetzt Teil von Azure Daten-Lake Storage Gen2.
Datensicherheit ist von größter Bedeutung, und ADLs gen2 ist ISO-konform und unterstützt die meisten Firewalls oder Netzwerkkonfigurationen, wie in den Microsoft-Anleitungen beschrieben. Eine weitere wichtige Best Practice im Datenmanagement ist die Sicherstellung, dass die Daten unabhängig von einem Kontinuitätsereignis zugänglich sind. Die in ADLs gen2 gespeicherten Daten werden dreimal repliziert und können durch die Wahl der folgenden Optionen, wie auf der Microsoft-Webseite zur Azure Storage-Redundanz zu sehen ist, stabiler gemacht werden:
- Lokal-redundante Speicherung (LRS).
- Zone-redundante Speicherung (ZRS).
- Georedundanter Speicher (GRS).
- Georedundanter Speicher mit Lesezugriff (RA-GRS).
Google und AWS Daten-Lake Storage
Dieser Artikel hat sich zwar auf Azure konzentriert, aber auch Google und AWS bieten hervorragende Alternativen.
Google Cloud Daten-Lake bietet eine skalierbar Lösung auf Basis von Google Cloud Storage. Es gibt zwei Dateneingang : Dataflow für die automatisierte Datenübertragung und -bereitstellung und
Cloud Data Fusion verwaltet Ihren Dateneingang und Ihre Governance vollständig. Um schnelle Analysen zu ermöglichen, verwendet Daten-Lake Google Storage Dataproc zur Modernisierung der Datenarchitektur, ETL und Open-Source-Produkte auf Apache Spark. Das primäre Analysewerkzeug ist BigQuery für Maschinelles Lernen (ML) oder die Erforschung von Petabytes an Daten über ANSI SQL.
Das Angebot von AWS Daten-Lake Storage umfasst, ähnlich wie bei Google und Microsoft Azure, verwaltete Dienste und verschiedene Optionen für Cloud und Analysetools. Amazon S3 (S3 steht für Simple Storage Service) stellt das elastische Lager für Amazon Daten-Lake Storage bereit und wird weithin als externes Lager nicht nur für Amazon Data Lakes, sondern auch für die meisten Cloud Data Warehouses als Datenbereitstellungs- und -eingabeplattform verwendet. Mithilfe eines Konsolenansatzes können Benutzer Data Lakes im Handumdrehen erstellen, indem sie Daten aus verschiedenen Quellen in einen Cloud integrieren. AWS Daten-Lake unterstützt AWS Lambda vollständig. Data Lakes erfordern eine leistungsstarke Suchmaschine, um Informationen zu finden, und dies wird über Amazon OpenSearch Service durchgeführt. Sicherheits-, Authentifizierungs- und Governance-Management-Systeme werden von Amazon Cognito ausgeführt. Die Datenumwandlung und -analyse erfolgt über Amazon Glue und Amazon Athena.
Data Warehouses dienen einer Funktion des schnellen, spaltenweisen oder verständlichen Datenmanagement und der Recherche. Data Lakes sind Cloud für verschiedene Daten, einschließlich Data Warehouses, die für eine einfache Verwaltung mit Metatags versehen sind. Die Wahl des richtigen Daten-Lake ist leider nicht eindeutig und hängt von den Anforderungen Ihres Unternehmens ab. Es empfiehlt sich, die Alternativen in einem Pilotprojekt zu testen oder eine Reihe von Anwendungsszenarien zu durchlaufen, um sicherzustellen, dass die Lösung Ihren digitalen und analytischen Anforderungen entspricht.
Actian ist eine voll gemanagt Datenplattform
Sie ist darauf ausgelegt, hohe Leistung und Skalierbarkeit in allen Dimensionen - Datenvolumen, gleichzeitige Nutzer und Komplexität der Anfrage - zu einem Bruchteil der Kosten alternativer Lösungen zu bieten. Actian Data Platform kann sowohl On-Premises als auch in verschiedenen Clouds, einschließlich AWS, Azure und Google Cloud, eingesetzt werden, so dass Sie Anwendungen und Daten in Ihrem eigenen Tempo in die Cloud migrieren oder auslagern können.