Was ist ein Daten-Lake? Ein Daten-Lake ist eine verwaltete Sammlung von Hadoop-Clustern. A Daten-Lake ist ein Lager , das Daten in ihrem nativen Format mit voller Wiedergabetreue speichert. Bei den Daten handelt es sich in der Regel um unstrukturierte oder halbstrukturierte Daten, darunter JSON-Objekte, flache Dateien, Protokolldateien, Bilder, IoT und Weblogs.
Welche Technologie kann einen Daten-Lake ersetzen?
Die Beliebtheit von Hadoop hat die Cloud dazu veranlasst, Unternehmen, die ihre big data modernisieren wollen, eine breite Palette von Optionen zur Verfügung zu stellen. Das Hadoop Distributed File System (HDFS) und die Spark-API für den Zugriff auf Hadoop-Daten bilden den Kern der Hadoop-Distributionen. Da Spark schon immer Amazon S3 unterstützt hat, ist es ein logischer erster Schritt in die Cloud für On-Premises . S3 ist ein Objektspeicher, der sehr elastisch ist, weniger kostet und schneller ist als ein On-Premises Cluster.
Microsoft hat HDInsight on Azure entwickelt, um eine Cloud Implementierung von Apache Spark bereitzustellen, die die Migration bestehender Spark-Jobs erleichtert.
Die Actian Data Platform unterstützt die Spark-API On-Premises und in verschiedenen Clouds, so dass Sie auf semi-strukturierte Daten zugreifen können, die außerhalb der in der Plattform integrierten spaltenorientierten relationalen Datenbank gespeichert sind.
Hauptgründe für die Verwendung von Actian in Hadoop-Umgebungen
- Vektorisierte Anfrage : Nutzt Funktionen SIMD Single Instruction, Multiple Data ) in handelsüblichen CPUs der Intel x86-Architektur aus und ermöglicht die Verarbeitung von Hunderten oder Tausenden von Datenwerten mit einem single instruction.
- MPP-Architektur: Bietet außergewöhnliche scalability auf Hadoop-Clustern, die auf Tausende von Benutzern, Hunderte von Knoten und Petabytes an Daten skalieren, mit integrierter Datenredundanz und systemweiter Datensicherung.
- Volle ACID-Konformität: Führt Datenaktualisierungen mit Beständigkeit durch, wobei die Transaktionsintegrität erhalten bleibt.
- Straffreie Datenaktualisierungen in Echtzeit: Die patentierten Positional Delta Trees (PDTs) ermöglichen inkrementelle kleine Einfügungen, Aktualisierungen und Löschungen ohne Beeinträchtigung der Anfrage .
- CPU : Nutzt dedizierte CPU und Caches als Ausführungsspeicher, um Abfragen 100-mal schneller auszuführen als aus dem RAM, was einen deutlich höheren Durchsatz als bei herkömmlichen in-memory ermöglicht.
- CPU : Enthält hardwarebeschleunigte String-basierte Operationen zur Beschleunigung von Auswahlen auf Strings mit Wildcard-Matching, Aggregationen auf String-basierten Werten und Joins oder Sortierungen mit String-Schlüsseln.
- Spaltenbasierter Speicher: Reduziert die E/A für relevante Spalten und bietet die Möglichkeit für eine stärkere Datenkomprimierung und ermöglicht Speicherindizes zur Maximierung der Effizienz.
- Datenkomprimierung: Bietet mehrere Optionen zur Maximierung der Komprimierung, von 4-10x für Hadoop-Speicher.
- Speicher-Indizes: Stellen Sie automatische Min-Max-Indizes bereit, um ein schnelles Überspringen von Blöcken bei Lesevorgängen zu ermöglichen und eine explizite Datenpartitionierungsstrategie überflüssig zu machen.
- Parallele Ausführung: Verwenden Sie adaptive Algorithmen, um die Zustimmung zu maximieren und gleichzeitig eine Priorisierung der Last zu ermöglichen.
- Spark-gestützter Anfrage : Ermöglicht den direkten Zugriff auf Hadoop-Datendateien, die in Parquet, ORC- und anderen Standardformaten gespeichert sind, so dass Benutzer erhebliche Leistungsvorteile erzielen können, ohne zuerst in das Vector-Dateiformat konvertieren zu müssen.
- UnterstützungNutzer Funktionen (UDF): Erweitern Sie die Datenbank, um Operationen auszuführen, die nicht über integrierte, systemdefinierte Funktionen von Vector verfügbar sind. Vector für Hadoop 6 bietet die Möglichkeit, skalare Nutzer Defined Functions (UDFs) zu erstellen.
- Schnellere Ausführung von Maschinelles Lernen : Stellen Sie Modelle des Maschinelles Lernen (ML) bereit, die neben der Datenbank laufen und die neuen erweiterten Funktionen nutzen. Durch den Einsatz von ML-Modellen neben der Vector-Datenbank wird die Datenbewegung reduziert, was eine schnellere Datenauswertung ermöglicht.
- SQL und NoSQL in einer einzigen Datenbank: Kombinieren Sie klassische relationale Spalten mit Spalten, die als JSON-Text formatierte Dokumente enthalten, in derselben Tabelle und parsen und importieren Sie JSON-Dokumente in relationale Strukturen. Durch die Verknüpfung von semi-strukturierten Daten mit relationalen Datenbanken können zusätzliche Anwendungsfälle behandelt werden, bei denen sich die zugrunde liegenden Datenstrukturen schnell ändern.
- Umfassende SQL-Unterstützung mit Standard-ANSI-SQL und Advanced Analytics: Dazu gehören Cubing-, Gruppierungs- und Fensterfunktionen.
Auf unserer Website können Sie mehr über Actian-Produkte und -Lösungen erfahren und die Actian Data Platform ausprobieren.

Ist das das Ende von Hadoop Daten-Lake?
Während der Blütezeit von Hadoop vor mehr als einem Jahrzehnt war die Idee eines kostengünstigen, hochverfügbaren und skalierbar Dateisystems sehr attraktiv. Viele Anbieter, darunter Cloudera, Hortonworks und MapR, boten Open-Source-Distributionen an, die die Akzeptanz in Unternehmen förderten. Seitdem hat sich der Markt konsolidiert, und Hadoop-Cluster sind aufgrund von Fachkräftemangel, hohen Verwaltungskosten und dem Aufkommen besserer Alternativen ins Hintertreffen geraten. Neuere Lösungen von Cloud bieten bessere Kosten pro Terabyte und geringere Verwaltungskosten.
Vektor in Hadoop
Vector bietet eine High-Performance direkt in Hadoop und nutzt die zugrunde liegende HDFS-Speicherstruktur für Daten. Vector in Hadoop unterstützt mehrere Hadoop-Distributionen, einschließlich Amazon Elastic MapReduce (EMR).
Die Leistung ist der Hauptgrund für die Ausführung von Vector in Hadoop, da mehrere Cluster Operationen wie SQL-Abfragen parallelisieren können. Viele Unternehmen haben ihre big data zu Data Lakes weiterentwickelt, um semistrukturierte Datensätze wie Webaktivitäts-Protokolldateien und IoT zu speichern. Mit Vector können Sie die SQL-Leistung von Hadoop im Vergleich zu Apache Impala um das 100-fache steigern. Der Nutzen gilt nicht nur für Abfragen. Sie können auch den Nutzen von straffreien Datenaktualisierungen in Echtzeit nutzen. Bei einigen herkömmlichen analytischen Hadoop-Datenbanken müssen Sie die Beständigkeit für die Leistung opfern.Vector for Hadoop verarbeitet Datenaktualisierungen in Echtzeit ohne Leistungseinbußen und stellt so sicher, dass die analytischen Erkenntnis eines Unternehmens immer auf dem neuesten Stand sind und die frischesten verfügbaren Daten verwendet werden.
Neuere Data Lakes beginnen ihr Leben in der Cloud. Die Actian Data Platform bietet die perfekte Ergänzung zu Cloud Data Lakes, indem sie Data Analytics dort ausführt, wo Ihr Daten-Lake existiert.
Die Actian Data Platform und Vector in Hadoop bieten massiv parallele Verarbeitungsleistung (MPP). Durch die innovative native Spark-Unterstützung bietet Vector einen optimierten Zugriff auf Hadoop-Datendateiformate, einschließlich Parquet und ORC, die Möglichkeit, Funktionen wie SQL-Joins über verschiedene Tabellentypen hinweg durchzuführen, und dient als schnellere Anfrage für Spark SQL- und SparkR-Anwendungen.
