Cluster Hadoop

Dos colegas trajeados discuten sobre un Cluster Hadoop en un portátil.

Hadoop es una pila de software de código abierto diseñada para proporcionar una gestion des données escalable gestion des données en un conjunto de servidores básicos estrechamente acoplados. El clúster opera en una configuración primaria-secundaria con un único nodo servidor de nombres y múltiples nodos trabajadores. Los componentes de la distribución base incluyen un sistema de archivos distribuido y un distribuidor de cargas de trabajo que proporciona un procesamiento de datos paralelo y altamente escalable. Hadoop es especialmente adecuado para el analyse des données big data.

¿Por qué son importantes los clústeres Hadoop?

Hadoop es esencial para las empresas porque permite un procesamiento paralelo de datos altamente escalable para grandes conjuntos de datos. Antes de Hadoop, los clústeres de haute performance y el procesamiento paralelo masivo solo existían en hardware y software propietarios, por lo que estaban fuera del alcance de las empresas más pequeñas.

La empresa puede utilizar la distribución de Apache recomendada o elegir una de las muchas opciones comerciales de distribución en la nube.

Los clusters Hadoop son elásticos porque permiten añadir o quitar nodos fácilmente para adaptarse a las demandas de carga de trabajo a medida que cambian.

Módulos de software de un Cluster Hadoop

A continuación se enumeran los cuatro componentes comunes de la distribución Hadoop.

Hadoop Común

Las bibliotecas y utilidades comunes que dan soporte a los demás módulos de Hadoop.

MapReduce

MapReduce facilita el procesamiento paralelo eficiente de grandes conjuntos de datos a través de múltiples nodos de clúster para comprimir los volúmenes de datos. La tarea Map convierte los datos de origen en pares clave/valor en un jeu de données intermedio. La salida de la tarea Map se combina en un conjunto de datos más pequeño mediante la tarea Reduce.

Sistema de archivos distribuidos Hadoop (HDFS™)

HDFS distribuye archivos de datos de gran tamaño entre los nodos de un sistema en clúster. Las aplicaciones que utilizan HDFS avantage de un acceso paralelo que utiliza varios servidores para acelerar las consultas y el rendimiento de los datos. HDFS almacena archivos de gran tamaño en varios nodos de un clúster. Los datos se protegen replicándolos entre nodos. Por defecto, los datos se replican en tres nodos. Los nodos de datos pueden reequilibrar los datos para mantener una distribución uniforme.

Hadoop HDFS utiliza los siguientes servicios de archivos:

Los cinco servicios son los siguientes:

  • El Nodo de Nombre es el nodo principal que rastrea dónde se almacena cada bloque de datos, incluidas las réplicas. Este nodo mantiene el contacto con los clientes.
  • El Nodo de Nombre Secundario gestiona los puntos de control del sistema de archivos métadonnées utilizado por el Nodo de Nombre.
  • El Job Tracker recibe peticiones de ejecución de Map Reduce y habla con el Name Node para obtener la localización de los datos a procesar.
  • Los Nodos de Datos actúan como tareas secundarias del Rastreador de Trabajos.
  • Los Rastreadores de Tareas actúan como esclavos del Rastreador de Trabajos.

Hadoop YARN

YARN (Yet Another Resource Negotiator) gestiona los recursos globales (entre clústeres) y programa los trabajos de aplicación en todo el clúster. Los recursos se definen como processeur, red, disco y memoria. Los contenedores de aplicaciones solicitan recursos a su Gestor de Aplicaciones, que pasa las solicitudes al NodeManager del servidor, que a su vez pasa las solicitudes al ResourceManager global.

Evolución de Hadoop

En 2002, Doug Cutting y Mike Cafarella empezaron a trabajar en el proyecto Apache Nutch. En 2004, implementaron lo que habían aprendido de los libros blancos de Google que describían el sistema de archivos de Google y MapReduce en el proyecto Apache Nutch. En 2007, Yahoo comenzó a utilizar Hadoop en un clúster de 1.000 nodos. En 2009, Hadoop se utilizó para ordenar un jeu de données de un petabyte. En 2011, la Apache Software Foundation publicó la versión 1.0 de Apache Hadoop.

Distribuciones Hadoop

La versión base de Hadoop se mantiene dentro de un proyecto Apache de código abierto. Los proveedores de software distribuyen versiones ampliadas que mantienen y soportan. Cloudera, Hortonworks (ahora parte de Cloudera) y AWS HDInsight son ejemplos de distribuciones de Hadoop.

Apache Spark™

Apache Spark™ es un motor multilingüe para ejecutar tareas de ingeniería de datos, ciencia de datos y aprendizaje automático en máquinas de nodo único o clústeres.

Actian Data Platform y Hadoop

Gracias a su arquitectura de procesamiento paralelo masivo (MPP), la Actian Data Platform escala a miles de nodos, proporcionando acceso directo a formatos de datos Hadoop a través de su conector Spark. Actian Data Platform puede almacenar datos en el Sistema de Archivos Distribuidos Hadoop (HDFS) utilizando su propio formato de datos para protegerlos. Las consultas pueden paralelizarse dentro de un nodo servidor y entre nodos utilizando YARN para programar y coordinar las tareas de los trabajadores.