Daten-Lake Analytics: Was ist das und warum ist es wichtig?
Die traditionelle Datenverarbeitung wird zu einem veralteten Datenprozess, wenn es darum geht, die immer umfangreicheren Anwendungsfälle von Big-, Edge- und Echtzeitdaten zu bewältigen, die zunehmend geschäftskritisch werden. Heutzutage haben Big Data, Cloud und Edge-Computing viele langsame, begrenzte und manuelle Datenmanagement in digitale Transformationsverfahren umgewandelt. Die Komplexität der Verwaltung großer Mengen an strukturierten, halbstrukturierten und unstrukturierten Daten muss weiterhin automatisiert und so weit wie möglich vereinfacht werden. Die Herausforderungen Big Data werden bleiben, und die Art und Weise, wie und wo Daten generiert und verarbeitet werden und wie schnell sie wachsen, ändert sich rapide. Organisationen müssen sich Big Data und Data Analytics Funktionen zu eigen machen oder riskieren, für ihre Kunden optional zu werden.
Technologien wie verschiedene Data Warehouses und Data Lakes helfen bei der verwalten Big Data. Da Data Lakes von Hadoop und proprietären On-Premise-Umgebungen in die Cloud verlagert wurden, haben sie dazu beigetragen, die Beschränkungen von Data Warehouses zu überwinden und können mit ihnen zusammenarbeiten, um eine wertvollere Lösung zu erhalten.
Microsofts Azure für Data Analytics oder Azure Daten-Lake Analytics (ADLA) ist eine Daten-Lake , die in einer verteilten, Cloud Datenverarbeitungsarchitektur arbeitet und Unternehmen bei der verwalten ihrer Big Data unterstützt. Was sind Daten ohne Analytik? Azure-Daten und -Analysen bilden zusammen eine erfolgreiche Lösung für die Entscheidungsunterstützung von Unternehmen.
Was ist Daten-Lake Analytics?
Die in einem Data Warehouse gespeicherten Daten sind für bestimmte Zwecke konzipiert und geeignet; die in Data Lakes gespeicherten Daten sind für unbestimmte oder beliebige Zwecke geeignet. Data Warehouses speichern verarbeitete und veredelte Daten, während Data Lakes rohe, unverarbeitete Daten speichern. Data-Warehouse-Analytik und Data-Lake-Analytik unterscheiden sich dadurch, dass die Daten bei Data-Warehouse-Analytik bereits für einen bestimmten Zweck aufbereitet sind. Bei der Daten-Lake Daten-Lake für eine bestimmte Verwendung als Eingangsdaten für ein Data Warehouse aufbereitet.
Daten-Lake ist ein Konzept, das es seit der Einführung von Hadoop gibt. Hadoop ist eine Open-Source-Lösung für die Speicherung und Verarbeitung von Big Data. Hadoop verfügt über ein verteiltes Dateisystem (HDFS), eine Möglichkeit zum verwalten, Überwachen von Ressourcen und Planen von Aufgaben (YARN), Datenmapping für Ausgabeergebnisse und eine Java zur Unterstützung der erforderlichen Datenentscheidungen. Hadoop besteht aus vielen Tools und Anwendungen zum Sammeln, Speichern, Verarbeiten, Analysieren und verwalten Big Data. Hadoop und Daten-Lake sind komplementäre Komponenten von Daten-Lake . Hadoop ist eine Plattform für den Aufbau von Daten-Lakes. Obwohl Hadoop eine primäre Plattform für Daten-Lakes ist, könnte Hadoop in Zukunft als Plattform für Daten-Lakes abgelöst werden, wenn sich die Technologie weiterentwickelt.
Stellen Sie sich die Architektur in einfachen Worten vor: Hadoop ist die Plattform, ein Daten-Lake wird auf der Plattform aufgebaut, Daten-Lake extrahieren Daten für jeden Zweck, und ein Data Warehouse kann einer dieser Zwecke sein.
Azure-Analysedienste ermöglichen schnellere Big Data . Die Daten-Lake bestand ursprünglich aus drei Schlüsselkomponenten:
Ein verteiltes Dateisystem - oft als Objektspeicher bezeichnet;
Datenverarbeitungs- und Analysewerkzeuge - im Falle von Hadoop: Hive, Pig, Mahout und Impala bieten eine Reihe von Analysewerkzeugen;
Und, für das Gesamtmanagement der Daten-Lake Analyseplattform - bei Hadoop, YARN.
Im Gegensatz zurAnalyseplattform Hadoop, die einst dominierte, nun aber an Bedeutung verliert, handelt es sich bei den anderen drei primären Daten-Lake um öffentliche Cloud und nicht um Plattformen, die größtenteils vor Ort installiert sind. Obwohl Hadoop derzeit in der Cloud eingesetzt werden kann, ist jeder, der dies tut, nicht auf der grünen Wiese und ist gezwungen, den Wechsel zu öffentlichen Cloud zu prüfen - zumindest für die folgenden zugrunde liegenden Objektspeicher.
- Azure Daten-Lake Analytics (ADLA).
- Amazon Web Services (AWS) Daten-Lake .
- Google Daten-Lake Analytics (GDLA).
In allen Fällen gibt es äquivalente Datenverarbeitungs- und Analysewerkzeuge sowie die zugrunde liegenden Datenmanagement . Bei Hadoop ist es das Hadoop-Dateisystem HDFS, aber die Äquivalente in der Cloud sind:
- Objektspeicher Cloud .
- Azure Daten-Lake Store (ADLS).
- AWS Simple Storage Service (S3).
- Google Cloud Store (GCS).
In vielen Fällen können Sie YARN, Hive, Pig und andere Hadoop-Tools mit diesen Objektspeichern anstelle von HDFS verwenden. Die Verwendung der Objektspeicher muss für das Unternehmen konzipiert, erstellt und bereitgestellt werden und bietet eine großartige Kombination aus Standardisierung der zugrunde liegenden Datenspeicherung und Flexibilität bei der Verwendung einer breiten Palette von Data Analytics .
Daten-Lake entdecken und schaffen Beziehungen, beantworten Geschäftsfragen, zeichnen neue Innovationen in Wissenschaft und Technik auf, sagen Ergebnisse voraus, automatisieren und ermöglichen Entscheidungen. Den Daten wird unabhängig von der Quelle eine faktische Bedeutung verliehen, und es werden Informationen und Wissen entdeckt, um die Fähigkeit des Unternehmens zu verbessern, schnelle und rechtzeitige Entscheidungen zu treffen, um seine Aktivitäten mit seinen Kunden zu unterstützen. Insgesamt sind Data Analytics, insbesondere Big Data Analytics und Edge-Computing, wesentliche Faktoren und Funktionen , die sich Unternehmen heute zunutze machen müssen. Daten können sowohl automatisierte als auch menschliche Entscheidungen effektiver und genauer steuern.
Wertschöpfung mit Big Data
Big Data extrahieren, analysieren, transformieren und laden große Datenmengen, die für herkömmliche Datenverarbeitungssoftware zu groß sind, zur statistischen Entscheidungsunterstützung in einem Unternehmen. Diese aus verschiedenen Quellen extrahierten Daten werden verwendet, um Marktbedingungen zu verstehen, Informationen über social media zu erhalten, die Kundenakquise und -bindung zu verbessern, historische Einblicke zu geben und andere Verwendungszwecke für allgemeine business intelligence nutzen. Je mehr Daten gesammelt und für Entscheidungen umgewandelt werden, desto wertvoller werden die Daten für ein Unternehmen.
Was jedoch jede der AWS-, ADLS- und GCS-Plattformen so wertvoll macht, ist die Möglichkeit, die Datenintegrations-, Verwaltungs- und Analysetools von Azure, AWS und Google sowie entsprechende Angebote von Drittanbietern zu nutzen, die durch die Schwerkraft der drei großen Cloud auf die Plattformen gezogen werden.
Was bei diesen Plattformen fehlt, ist die Möglichkeit, einen virtuellen Daten-Lake zu erwerben, der mehrere Cloud und lokale Umgebungen umfasst. Darüber hinaus hat die Betonung, die Rohdaten in ihrem natürlichen Zustand zu belassen, bis eine bestimmte Gruppe und ein bestimmtes Projekt sie nutzen möchte, zusammen mit der technischen Natur der Gruppen, die Daten-Lake nutzen, dazu geführt, dass die Integrationsfunktionalität innerhalb dieser Plattformen veraltet ist, selbst bei jedemDaten-Lake . Diese Herausforderung kann mit gezielt integrierten Architekturen angegangen werden, die Unternehmensdatenlager für bestimmte Zwecke speisen.
Mit der Integration von Maschinelles Lernen (ML), Künstlicher Intelligenz (KI) und Business Intelligence (BI) in eine umfassende Big Data werden die Funktionen und Notwendigkeiten von Azure Big Data Analytics deutlicher und leistungsfähiger für das Unternehmen. Die Schaffung und Realisierung von Werten beginnt damit, dass man das Endziel für die Lösung, die mit Big Data aufgebaut wird, im Auge behält.
Funktionen von Azure Daten-Lake Analytics
Data Lakes verfügen über wichtige Funktionen für die Extraktion von Daten aus verschiedenen Quellen, die Speicherung großer Datenmengen, die Umwandlung von Daten, die Bereitstellung von Sicherheit und Governance, Analysedienste und Daten-Lake . Die Azure Daten-Lake bietet die folgenden Vorteile:
- HDFS-Kompatibilität und Optimierung für Leistung und hohen Durchsatz.
- Unbegrenzte Datengröße - Binary Large Object Storage (BLOB) für Text- und Binärdaten.
- Fehlertoleranz, schnelle Reaktion auf Systemausfälle.
- Hohe Verfügbarkeit und Wiederherstellung im Katastrophenfall.
- Ermöglichung von Hadoop in der Cloud.
- Integration mit Azure Daten-Lake analytics active directory für rollenbasierte Zugriffsanforderungen.
- Unterstützung von HIVE und Spark.
Erweitern Sie die Funktionen von Microsoft Azure Daten-Lake Analytics, zu denen auch die Einführung von U-SQL gehört. U-SQL, von Microsoft in erster Linie für Azure entwickelt, ist eineAnfrage und Verarbeitungssprache, die die Konstrukte und Funktionen von SQL und C# kombiniert. Es ist eine einfach zu verwendende Sprache, die umfangreiche Typen und Ausdrücke enthält. Neben der Arbeit mit unstrukturierten Daten bietet U-SQL einen allgemeinen Metadaten in Form einer relationalen Datenbank. Der U-SQL-Metadatenkatalog funktioniert wie HIVE und unterstützt Datenbankschemata, Tabellen, Indizes, Ansichten, Funktionen, Prozeduren und .Net-Assemblies. Neben U-SQL werden auch R, .Net und Python mit Azure Daten-Lake analytics unterstützt.
Neben der Leistungsfähigkeit von U-SQL, Microsoft Daten-Lake Analytics, gehören weitere wichtige Funktionen :
- Schnellere Entwicklungen mit U-SQL.
- Kompatibilität mit allen Azure-Daten.
- Kostenwirksamkeit.
- Dynamische Skalierung.
- Intelligente Optimierung.
Die Funktionen von Microsoft Azure Daten-Lake analytics umfassen auch ergänzende Dienste wie:
- Cosmos DB - Multimodaler NoSQL-Datenbankdienst.
- Azure SQL Data Warehouse - Cloud Azure SQL-Datenbank - Verwalteter relationaler Datenbankdienst.
- Azure Data Factory - Extract/Retrieve, Transform, Load/Output (ELT) und Datenintegrationsdienst.
- Azure Analysis Services - Verwaltete Analyse-Engine für die Modellerstellung.
Die Fähigkeit von Unternehmen, erfolgreich zu sein, hängt von ihren Werten und Funktionen dieser Werte ab. Organisationen müssen die Fähigkeit erwerben, ihre Big Data verwalten und das Wissen in eine strategische Fähigkeit umzuwandeln. Die Funktionen von Azure Daten-Lake Analytics können einzigartig innerhalb einer Organisation aktiviert werden, um einen Wettbewerbsvorteil zu schaffen. Amazon und Google bieten analoge Architekturen, Funktionen und eine Vielzahl von Drittanbieterangeboten, um umfassende Ökosysteme für moderne Big Data und Analytics Use Cases aufzubauen. Unternehmen sollten ihre Stärken, Schwächen, Chancen und Bedrohungen (SWOT) bewerten und einen strategischen, taktischen und operativen Plan für den Erfolg mit Big Data und Funktionen entwickeln.
Schlussfolgerung
Viele Unternehmen haben Schwierigkeiten, die Bedürfnisse ihrer Kunden zu verstehen. Unternehmen nutzen Expertenmeinungen ihrer Mitarbeiter, führen Umfragen durch und setzen andere Mittel ein. Eine der effektivsten Methoden ist heute die Nutzung von Daten aus allen möglichen Quellen zur Analyse von Geschäftsprozessen, um effektive, effiziente und wirtschaftlich vertretbare Entscheidungen für alle Mitarbeiter des Unternehmens zu ermöglichen. Omnichannel-Engagements und Datenerfassung aus allen Quellen müssen analysiert werden. Azure Data Analytics und unterstützende Technologien können bei dieser komplexen Aufgabe helfen, Big Data und Experten im Unternehmen zu nutzen, um bessere Kundenentscheidungen zu treffen.
In letzter Zeit war die Apache-Initiative zum Aufbau eines Delta-Lakes, der multiple data Lakes umfasst, ein wichtiger Schwerpunkt. Da dieser auf Spark aufbaut, wurde auch die Fähigkeit hinzugefügt, Streaming Data Analytics und nicht nur Batch Analytics zu verarbeiten. Dies ist der Ansatz, den Databricks mit seinem Delta Lake verfolgt.
Die entsprechende Antwort auf die Funktionslücke in den aktuellen Data Analytics besteht darin, das Cloud zu einem besseren nachgelagerten Ziel für Data Analytics zu machen, das die Data Analytics innerhalb des Daten-Lake durchführt.
Dies ist der Ansatz von Cloud Data Warehouses von Anbietern wie Actian, die ihre Datenintegrationsprodukte integrieren, um ein flexibles On-The-Fly für ihr Cloud Data Warehouse zu erstellen. Dies entspricht im Grunde dem Delta Lake, konzentriert sich aber auf operative Analytics Use Cases für Daten-Lake im Gegensatz zu eher forschungsorientierten Projektfällen, die den täglichen Workloads und Geschäftsprozessen vorgelagert sind.
Die Actian Data Platform kann Unternehmen mit einer ergebnisbasierten Architektur helfen, die Leistungsfähigkeit von Daten-Lake für eine zeitnahe Entscheidungsunterstützung in Unternehmen zu nutzen.