Cluster

Hadoop ist ein Open-Source-Software-Stack, der skalierbar Datenmanagement auf einer eng gekoppelten Sammlung von Standardservern bietet. Der Cluster arbeitet in einer Primär-Sekundär-Konfiguration mit einem einzelnen Nameserver-Knoten und mehreren Worker-Knoten. Zu den Komponenten der Basisdistribution gehören ein verteiltes Dateisystem und ein Workload , der eine hochgradig skalierbar, parallele Datenverarbeitung ermöglicht. Hadoop eignet sich besonders gut für Big Data Analytics.

Warum sind Hadoop-Cluster wichtig?

Hadoop ist für Unternehmen unverzichtbar, da es eine skalierbar parallele Datenverarbeitung für große Datenmengen ermöglicht. Vor Hadoop gab es High-Performance und massive Parallelverarbeitung nur auf proprietärer Hardware und Software, was sie für kleinere Unternehmen unerschwinglich machte.

Das Unternehmen kann die empfohlene Apache-Distribution verwenden oder eine der vielen kommerziellen Cloud wählen.

Hadoop-Cluster sind elastisch, da sie das einfache Hinzufügen oder Entfernen von Knoten ermöglichen, um den sich ändernden Workload gerecht zu werden.

Software-Module eines Cluster

Im Folgenden werden die vier gemeinsamen Komponenten der Hadoop-Distribution beschrieben.

Hadoop Allgemein

Die gemeinsamen Bibliotheken und Dienstprogramme, die die anderen Hadoop-Module unterstützen.

MapReduce

MapReduce ermöglicht die effiziente parallele Verarbeitung großer Datenmengen über mehrere Cluster hinweg, um Datenmengen zu komprimieren. Die Aufgabe konvertiert die Quelldaten in Schlüssel/Wert-Paare in einen Datensatz. Die Ausgabe der Aufgabe wird von der Aufgabe zu einem kleineren Datensatz zusammengefasst.

Verteiltes Dateisystem Hadoop (HDFS™)

HDFS verteilt große Datendateien über die Knoten eines geclusterten Systems. Anwendungen, die das HDFS nutzen, Nutzen vom parallelen Zugriff, der mehrere Server für schnelle abfragen und Datendurchsatz nutzt. HDFS speichert große Dateien über mehrere Knoten eines Cluster. Die Daten werden durch Replikation über die Knoten hinweg geschützt. Standardmäßig werden die Daten auf drei Knoten repliziert. Die Datenknoten können die Daten neu ausbalancieren, um eine gleichmäßige Verteilung zu gewährleisten.

Hadoop HDFS verwendet die folgenden Dateidienste:

Die fünf Dienste sind wie folgt:

Der Namensknoten ist der primäre Knoten, der verfolgt, wo jeder Datenblock gespeichert ist, einschließlich der Replikate. Dieser Knoten hält den Kontakt zu den Clients aufrecht.
Der Secondary Name Node verwaltet die Checkpoints der vom Name Node verwendeten Metadaten des Dateisystems.
Der Job Tracker empfängt Anfragen zur Map-Reduce-Ausführung und kommuniziert mit dem Name Node, um den Standort der zu verarbeitenden Daten zu ermitteln.
Datenknoten fungieren als sekundäre Aufgaben für den Job Tracker.
Aufgabe fungieren als Sklaven des Job-Trackers.

Hadoop YARN

YARN (Yet Another Resource Negotiator) verwaltet globale (Cluster) Ressourcen und plant die Anwendungsaufträge im gesamten Cluster. Ressourcen werden als CPU, Netzwerk, Festplatte und Speicher definiert. Anwendungscontainer fordern Ressourcen von ihrem Anwendungsmanager an, der Anfragen an den NodeManager des Servers weiterleitet, der wiederum Anfragen an den globalen ResourceManager weiterleitet.

Die Entwicklung von Hadoop

Im Jahr 2002 begannen Doug Cutting und Mike Cafarella mit der Arbeit am Apache Nutch-Projekt. Im Jahr 2004 implementierten sie das, was sie aus den Google-Whitepapers über das Google File System und MapReduce gelernt hatten, in das Apache Nutch-Projekt. 2007 begann Yahoo mit der Verwendung von Hadoop in einem Cluster mit 1000 Knoten. Im Jahr 2009 wurde Hadoop zur Sortierung eines Datensatz von einem Petabyte verwendet. Im Jahr 2011 veröffentlichte die Apache Software Foundation die Version 1.0 von Apache Hadoop.

Hadoop-Verteilungen

Die Basisversion von Hadoop wird im Rahmen eines Apache-Open-Source-Projekts gepflegt. Softwareanbieter vertreiben erweiterte Versionen, die sie pflegen und unterstützen. Cloudera, Hortonworks (jetzt Teil von Cloudera) und AWS HDInsight sind Beispiele für Hadoop-Distributionen.

Apache Spark™.

Apache Spark™ ist eine mehrsprachige Engine für die Ausführung von Aufgaben in den Bereichen Data Engineering, data science und Maschinelles Lernen auf Einzelknotenrechnern oder Clustern.

Actian und die Data Intelligence Platform

DieActianData Intelligence Platformwurde speziell entwickelt, um Unternehmen dabei zu unterstützen, ihre Daten in hybriden Umgebungen zu vereinheitlichen, verwalten und zu verstehen. Sie vereint Metadaten , Governance, Datenherkunft, Qualitätsüberwachung und Automatisierung auf einer einzigen Plattform. So können Teams nachvollziehen, woher Daten stammen, wie sie genutzt werden und ob sie internen und externen Anforderungen entsprechen.

Über seine zentralisierte Schnittstelle ermöglicht Actian Erkenntnis Datenstrukturen und -flüsse, wodurch die Umsetzung von Richtlinien, die Behebung von Problemen und die abteilungsübergreifende Zusammenarbeit vereinfacht werden. Die Plattform hilft zudem dabei, Daten mit dem geschäftlichen Kontext zu verknüpfen, sodass Teams Daten effektiver und verantwortungsbewusster nutzen können. Die Plattform von Actian ist darauf ausgelegt, mit sich entwickelnden Datenökosystemen mitzuwachsen und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen zu unterstützen.Fordern Sie Ihre persönliche Demo an.

FAQ

Ein Cluster ein Open-Source-Software-Stack, der skalierbar Datenmanagement einer Gruppe von Standard-Servern ermöglicht, die in einer Primär-Sekundär-Konfiguration mit einem einzigen Nameserver-Knoten und mehreren Worker-Knoten betrieben werden.

Die vier gemeinsamen Komponenten sind Hadoop Common (gemeinsam genutzte Bibliotheken und Dienstprogramme), MapReduce Framework für die parallele Verarbeitung), HDFS (Hadoop Distributed File System für die verteilte Speicherung) und YARN (Ressourcenverwaltung und Jobplanung).

HDFS verteilt große Datendateien auf Cluster und schützt die Daten durch Replikation auf mehrere Knoten (standardmäßig drei Knoten), wodurch paralleler Zugriff für abfragen schnelle abfragen und einen hohen Datendurchsatz ermöglicht wird.

Der Name Node ist der primäre Knoten, der den Speicherort jedes Datenblocks – einschließlich der Replikate – verfolgt und den Kontakt zu den Clients aufrechterhält.

MapReduce eine effiziente parallele Verarbeitung großer Datensätze, indem die Quelldaten durch die Aufgabe in Schlüssel-Wert-Paare umgewandelt und die Ergebnisse anschließend Datensatz die Aufgabe zu einem kleineren Datensatz zusammengefasst werden.

YARN (Yet Another Resource Negotiator) verwaltet globale Ressourcen wie CPU, Netzwerk, Festplatte und Arbeitsspeicher und plant Anwendungsaufträge im gesamten Cluster.

Hadoop ermöglicht eine hochgradig skalierbar Datenverarbeitung für große Datensätze auf handelsüblicher Hardware und macht Data Analytics damit auch für Unternehmen Data Analytics , die sich proprietäre High-Performance bisher nicht leisten konnten.

Hadoop-Cluster sind skalierbar, da Knoten je nach sich ändernden Workload problemlos hinzugefügt oder entfernt werden können.

Actian Data Intelligence-Plattform Neu

Kernfunktionen

AI Analyst New

Explore AI Analyst

Actian Data Observability Neu

Kernfunktionen

Jaspersoft New

Datenbanken

Produkte

Analytics AI Platform

Kernfunktionen

Datenintegration

Produkte

Produktübersicht

Alle Produkte

Cluster

Warum sind Hadoop-Cluster wichtig?

Software-Module eines Cluster

Hadoop Allgemein

MapReduce

Verteiltes Dateisystem Hadoop (HDFS™)

Hadoop YARN

Die Entwicklung von Hadoop

Hadoop-Verteilungen

Apache Spark™.

Actian und die Data Intelligence Platform

FAQ

Cluster

Warum sind Hadoop-Cluster wichtig?

Software-Module eines Cluster

Hadoop Allgemein

MapReduce

Verteiltes Dateisystem Hadoop (HDFS™)

Hadoop YARN

Die Entwicklung von Hadoop

Hadoop-Verteilungen

Apache Spark™.

Actian und die Data Intelligence Platform

FAQ

Was ist ein Hadoop Cluster?

Was sind die Hauptkomponenten eines Hadoop Cluster?

Wie funktioniert HDFS in einem Cluster?

Welche Rolle spielt der Name Node in Hadoop?

Was MapReduce in einem Cluster?

Welche Funktion hat YARN in Hadoop?

Warum sind Hadoop-Cluster für Unternehmen wichtig?

Was macht Hadoop-Cluster elastisch?

Mehr erfahren

What Happens When Every Employee Gets an AI Analyst?

Context is Key: Why Enterprise Search Must Evolve for the AI Era

How to Enable Self-Service Access to Secure and Governed KYC Data