Datenarchitektur

Hadoop Daten-Lake: Ist das das Ende?

finden eine Fülle von Informationen in einem Daten-Lake

Was ist ein Daten-Lake? Ein Daten-Lake ist eine verwaltete Sammlung von Hadoop-Clustern. A Daten-Lake ist ein Lager , das Daten in ihrem nativen Format mit voller Wiedergabetreue speichert. Bei den Daten handelt es sich in der Regel um unstrukturierte oder halbstrukturierte Daten, darunter JSON-Objekte, flache Dateien, Protokolldateien, Bilder, IoT und Weblogs.

Welche Technologie kann einen Daten-Lake ersetzen?

Die Beliebtheit von Hadoop hat die Cloud dazu veranlasst, Unternehmen, die ihre Big Data modernisieren wollen, eine breite Palette von Optionen zur Verfügung zu stellen. Das Hadoop Distributed File System (HDFS) und die Spark-API für den Zugriff auf Hadoop-Daten bilden den Kern der Hadoop-Distributionen. Da Spark schon immer Amazon S3 unterstützt hat, ist es ein logischer erster Schritt in die Cloud für On-Premises . S3 ist ein Objektspeicher, der sehr elastisch ist, weniger kostet und schneller ist als ein On-Premises Cluster.

Microsoft hat HDInsight on Azure entwickelt, um eine Cloud Implementierung von Apache Spark bereitzustellen, die die Migration bestehender Spark-Jobs erleichtert.

Actian Data Platform unterstützt die Spark-API On-Premises und in verschiedenen Clouds, so dass Sie auf semi-strukturierte Daten zugreifen können, die außerhalb der in der Plattform integrierten spaltenorientierten relationalen Datenbank gespeichert sind.

Hauptgründe für die Verwendung von Actian in Hadoop-Umgebungen

Vektorisierte Abfrage-Ausführung: Nutzt die Fähigkeiten SIMD Single Instruction, Multiple Data ) in handelsüblichen CPUs der Intel x86-Architektur und ermöglicht die Verarbeitung von Hunderten oder Tausenden von Datenwerten mit einem single instruction.
MPP-Architektur: Bietet außergewöhnliche Scalability auf Hadoop-Clustern, die auf Tausende von Benutzern, Hunderte von Knoten und Petabytes von Daten skalieren, mit integrierter Datenredundanz und systemweiter Datensicherung.
Volle ACID-Konformität: Führt Datenaktualisierungen mit Beständigkeit durch, wobei die Transaktionsintegrität erhalten bleibt.
Straffreie Datenaktualisierungen in Echtzeit: Ermöglichen Sie In-the-Moment-Computing mit patentierten Positional Delta Trees (PDTs) für inkrementelle kleine Einfügungen, Aktualisierungen und Löschungen ohne Beeinträchtigung der abfragen .
CPU : Nutzt dedizierte CPU und Caches als Ausführungsspeicher, um Abfragen 100-mal schneller auszuführen als aus dem RAM, was einen deutlich höheren Durchsatz als bei herkömmlichen in-memory ermöglicht.
CPU : Enthält hardwarebeschleunigte String-basierte Operationen zur Beschleunigung von Auswahlen auf Strings mit Wildcard-Matching, Aggregationen auf String-basierten Werten und Joins oder Sortierungen mit String-Schlüsseln.
Spaltenbasierter Speicher: Reduziert die E/A für relevante Spalten und bietet die Möglichkeit für eine stärkere Datenkomprimierung und ermöglicht Speicherindizes zur Maximierung der Effizienz.
Datenkomprimierung: Bietet mehrere Optionen zur Maximierung der Komprimierung, von 4-10x für Hadoop-Speicher.
Speicher-Indizes: Stellen Sie automatische Min-Max-Indizes bereit, um ein schnelles Überspringen von Blöcken bei Lesevorgängen zu ermöglichen und eine explizite Datenpartitionierungsstrategie überflüssig zu machen.
Parallele Ausführung: Verwenden Sie adaptive Algorithmen, um die Zustimmung zu maximieren und gleichzeitig eine Priorisierung der Last zu ermöglichen.
Spark-gestützter Anfrage : Ermöglicht den direkten Zugriff auf Hadoop-Datendateien, die in Parquet, ORC- und anderen Standardformaten gespeichert sind, so dass Benutzer erhebliche Leistungsvorteile erzielen können, ohne zuerst in das Vector-Dateiformat konvertieren zu müssen.
UnterstützungNutzer Funktionen (UDF): Erweitern Sie die Datenbank, um Operationen auszuführen, die nicht über integrierte, systemdefinierte Funktionen von Vector verfügbar sind. Vector für Hadoop 6 bietet die Möglichkeit, skalare Nutzer Defined Functions (UDFs) zu erstellen.
Schnellere Ausführung von Maschinelles Lernen : Setzen Sie Modelle des Maschinelles Lernen (ML) ein, die neben der Datenbank laufen und die neuen erweiterten Fähigkeiten nutzen. Durch den Einsatz von ML-Modellen neben der Vector-Datenbank wird die Datenbewegung reduziert, was eine schnellere Datenauswertung ermöglicht.
SQL und NoSQL in einer einzigen Datenbank: Kombinieren Sie klassische relationale Spalten mit Spalten, die als JSON-Text formatierte Dokumente enthalten, in derselben Tabelle und parsen und importieren Sie JSON-Dokumente in relationale Strukturen. Durch die Verknüpfung von semi-strukturierten Daten mit relationalen Datenbanken können zusätzliche Anwendungsfälle behandelt werden, bei denen sich die zugrunde liegenden Datenstrukturen schnell ändern.
Umfassende SQL-Unterstützung mit Standard-ANSI-SQL und Advanced Analytics: Dazu gehören Cubing-, Gruppierungs- und Fensterfunktionen.

Actian und die Data Intelligence Plattform

Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.

Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.

Ist das das Ende von Hadoop Daten-Lake?

Während der Blütezeit von Hadoop vor mehr als einem Jahrzehnt war die Idee eines kostengünstigen, hochverfügbaren und skalierbaren Dateisystems sehr attraktiv. Viele Anbieter, darunter Cloudera, Hortonworks und MapR, boten Open-Source-Distributionen an, die die Akzeptanz in Unternehmen förderten. Seitdem hat sich der Markt konsolidiert, und Hadoop-Cluster sind aufgrund von Fachkräftemangel, hohen Verwaltungskosten und dem Aufkommen besserer Alternativen ins Hintertreffen geraten. Neuere Lösungen von Cloud bieten bessere Kosten pro Terabyte und geringere Verwaltungskosten.

Vektor in Hadoop

Vector bietet eine High-Performance direkt in Hadoop und nutzt die zugrunde liegende HDFS-Speicherstruktur für Daten. Vector in Hadoop unterstützt mehrere Hadoop-Distributionen, einschließlich Amazon Elastic MapReduce (EMR).

Die Leistung ist der Hauptgrund für die Ausführung von Vector in Hadoop, da mehrere Cluster Operationen wie SQL-Abfragen parallelisieren können. Viele Unternehmen haben ihre Big Data zu Data Lakes weiterentwickelt, um halbstrukturierte Datensätze wie Webaktivitäts-Protokolldateien und IoT zu speichern. Mit Vector können Sie die SQL-Leistung von Hadoop im Vergleich zu Apache Impala um das 100-fache steigern. Der Nutzen gilt nicht nur für Abfragen. Sie können auch den Nutzen von straffreien Datenaktualisierungen in Echtzeit nutzen. Bei einigen herkömmlichen analytischen Hadoop-Datenbanken müssen Sie die Beständigkeit für die Leistung opfern.Vector for Hadoop verarbeitet Datenaktualisierungen in Echtzeit ohne Leistungseinbußen und stellt so sicher, dass die analytischen Erkenntnis eines Unternehmens immer auf dem neuesten Stand sind und die frischesten verfügbaren Daten verwendet werden.

Neuere Data Lakes beginnen ihr Leben in der Cloud. Die Actian Data Platform bietet die perfekte Ergänzung zu Cloud Data Lakes durch die Ausführung von Data Analytics wo auch immer Ihr Daten-Lake existiert.

Actian Data Platform und Vector in Hadoop bieten massiv parallele Verarbeitungsleistung (MPP). Durch die innovative native Spark-Unterstützung bietet Vector einen optimierten Zugriff auf Hadoop-Datendateiformate, einschließlich Parquet und ORC, die Möglichkeit, Funktionen wie SQL-Joins über verschiedene Tabellentypen hinweg durchzuführen und dient als schnellere abfragen für Spark SQL- und SparkR-Anwendungen.

Darstellung eines Elefanten als Vektor in Hadoop

Actian Data Intelligence Platform Neu

Zentrale Funktionen

Actian Data Observability Neu

Zentrale Funktionen

Datenbanken

Produkte

Actian Data Platform

Zentrale Funktionen

Integration von Daten

Produkte

Produktübersicht

Alle Produkte

Hadoop Daten-Lake: Ist das das Ende?

Welche Technologie kann einen Daten-Lake ersetzen?

Hauptgründe für die Verwendung von Actian in Hadoop-Umgebungen

Actian und die Data Intelligence Plattform

Ist das das Ende von Hadoop Daten-Lake?

Vektor in Hadoop

Hadoop Daten-Lake: Ist das das Ende?

Welche Technologie kann einen Daten-Lake ersetzen?

Hauptgründe für die Verwendung von Actian in Hadoop-Umgebungen

Actian und die Data Intelligence Plattform

Verwandte Tags

Ist das das Ende von Hadoop Daten-Lake?

Vektor in Hadoop

Mehr entdecken

Wie stärkt ein Datenkatalog die Prinzipien des Data Mesh?

Was ist ein Enterprise Data Hub?

7 Lügen über Datenkataloge #4: Keine Lösung für Anfrage