Cluster Hadoop
Hadoop est un logiciel libre conçu pour permettre unegestion des données évolutif gestion des données sur un ensemble de serveurs de base étroitement couplés. La grappe fonctionne selon une configuration primaire-secondaire avec un seul nœud de serveur de noms et plusieurs nœuds de travail. Les composants de la distribution de base comprennent un système de fichiers distribués et un distributeur de charge de travail fournissant un traitement de données parallèle hautement évolutif. Hadoop est particulièrement bien adapté à l'analyse des données big data.
Pourquoi les grappes Hadoop sont-elles importantes ?
Hadoop est essentiel pour les entreprises car il permet un traitement parallèle très évolutif des données pour les grands jeux de données. Avant Hadoop, les clusters de de haute performance et le traitement parallèle massif n'existaient que sur du matériel et des logiciels propriétaires, ce qui les rendait hors de portée des petites entreprises.
L'entreprise peut utiliser la distribution Apache recommandée ou choisir l'une des nombreuses options de distribution commerciale.
Les grappes Hadoop sont élastiques car elles permettent d'ajouter ou de retirer facilement des nœuds pour répondre aux demandes de charge de travail au fur et à mesure qu'elles évoluent.
Modules logiciels d'une Cluster Hadoop
Voici les quatre composants communs de la distribution Hadoop.
Hadoop Commun
Les bibliothèques et utilitaires communs qui support autres modules Hadoop.
MapReduce
MapReduce facilite le traitement parallèle efficace de jeux de données volumineux sur plusieurs nœuds de cluster afin de compresser les volumes de données. La tâche Map convertit les données sources en paires clé/valeur dans un jeu de données intermédiaire. La sortie de la tâche Map est combinée en un ensemble de données plus petit par la tâche Reduce.
Système de fichiers distribués Hadoop (HDFS™)
HDFS distribue des fichiers de données volumineux sur les nœuds d'un système en grappe. Les applications utilisant HDFS avantage d'un accès parallèle qui utilise plusieurs serveurs pour des requête rapides et un débit de données élevé. HDFS stocke les fichiers volumineux sur plusieurs nœuds d'un cluster. Les données sont protégées en les répliquant entre les nœuds. Par défaut, les données sont répliquées sur trois nœuds. Les nœuds de données peuvent rééquilibrer les données pour maintenir une distribution uniforme.
Hadoop HDFS utilise les services de fichiers suivants :
Les cinq services sont les suivants :
- Le nœud de nom est le nœud principal qui détermine où chaque bloc de données est stocké, y compris les répliques. Ce nœud maintient le contact avec les clients.
- Le nœud de nom secondaire gère les points de contrôle des systèmes de fichiers métadonnées utilisés par le nœud de nom.
- Le Job Tracker reçoit les demandes d'exécution de Map Reduce et communique avec le Name Node pour obtenir l'emplacement des données à traiter.
- Les nœuds de données agissent comme des tâches secondaires pour le Job Tracker.
- Les traqueurs detâche agissent comme des esclaves du traqueur d'emplois.
Hadoop YARN
YARN (Yet Another Resource Negotiator) gère les ressources globales (inter-clusters) et planifie les travaux d'application sur l'ensemble du cluster. Les ressources sont définies comme suit : processeur, réseau, disque et mémoire. Les conteneurs d'application demandent des ressources à leur gestionnaire d'application, qui transmet les demandes au NodeManager du serveur, lequel transmet à son tour les demandes au ResourceManager global.
L'évolution de Hadoop
En 2002, Doug Cutting et Mike Cafarella ont commencé à travailler sur le projet Apache Nutch. En 2004, ils ont mis en œuvre dans le projet Apache Nutch ce qu'ils avaient appris dans les livres blancs de Google décrivant le système de fichiers de Google et MapReduce. En 2007, Yahoo a commencé à utiliser Hadoop sur un cluster de 1000 nœuds. En 2009, Hadoop a été utilisé pour trier un jeu de données d'un pétaoctet. En 2011, l'Apache Software Foundation a publié la version 1.0 d'Apache Hadoop.
Distributions Hadoop
La version de base de Hadoop est maintenue dans le cadre d'un projet Apache à code source ouvert. Les fournisseurs de logiciels distribuent des versions étendues dont ils assurent la maintenance et le support. Cloudera, Hortonworks (qui fait maintenant partie de Cloudera) et AWS HDInsight sont des exemples de distributions Hadoop.
Apache Spark™
Apache Spark™ est un moteur multilingue permettant d'exécuter des tâches d'ingénierie des données, de science des données et d'apprentissage automatique sur des machines à nœud unique ou des clusters.
Actian et la plate-forme d'intelligence des données
Actian Data Intelligence Platform est conçue pour aider les entreprises à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle rassemble la gestion des métadonnées , la gouvernance, le lignage, le contrôle de la qualité et l'automatisation en une seule plateforme. Les équipes peuvent ainsi savoir d'où viennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.
Grâce à son interface centralisée, Actian offre une insight en temps réel des structures et des flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à relier les données au contexte commercial, ce qui permet aux équipes d'utiliser les données de manière plus efficace et plus responsable. La plateforme d'Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, favorisant une utilisation cohérente, intelligente et sécurisée des données dans l'ensemble de l'entreprise. Demandez votre démo personnalisée.