Sin categoría

Lago de datos Hadoop: ¿Es el fin?

encontrar abundante información en un lago de datos

¿Qué es un lago de datos Hadoop? Un lago de datos Hadoop es una colección gestionada de clústeres Hadoop. Un lago de datos es un repositorio que almacena datos en su formato nativo con total fidelidad. Los datos suelen ser no estructurados o semiestructurados, incluidos objetos JSON, archivos planos, archivos de registro, imágenes, flujos de eventos IoT y weblogs.

¿Qué tecnología puede sustituir a un lago de datos Hadoop?

La popularidad de Hadoop ha motivado a los proveedores de la nube a poner a disposición de las empresas que desean modernizar sus clústeres de big data una amplia gama de opciones. El sistema de archivos distribuidos de Hadoop (HDFS) y la API Spark para acceder a los datos de Hadoop son el núcleo de las distribuciones de Hadoop. Dado que Spark siempre ha sido compatible con Amazon S3, es un primer paso lógico hacia la nube para los clústeres sur site . S3 es un almacén de objetos que es altamente elástico, cuesta menos y es más rápido que un clúster sur site .

Microsoft ha desarrollado HDInsight en Azure para ofrecer una implementación de Apache Spark basada en la nube que facilite la migración de los trabajos de Spark existentes.

Actian Data Platform es compatible con la API Spark sur site y en múltiples nubes, por lo que puede acceder a datos semiestructurados almacenados fuera de la base de datos relacional en columnas incorporada en la plataforma.

Razones clave para considerar Actian en entornos Hadoop

  • Ejecución vectorizada de consultas: Aprovecha las capacidades SIMD (Single Instruction, Multiple Data) de las CPU de arquitectura Intel x86, lo que permite procesar cientos o miles de valores de datos con una sola instrucción.
  • Arquitectura MPP: Proporciona una escalabilidad excepcional en clústeres Hadoop que escalan a miles de usuarios, cientos de nodos y petabytes de datos, con redundancia de datos integrada y protección de datos en todo el sistema.
  • Cumplimiento total de ACID: Realiza actualizaciones de datos con cohérence lectura multiversión, manteniendo la integridad de las transacciones.
  • Actualizaciones de datos en tiempo real sin penalización: Habilite la computación en el momento mediante árboles delta posicionales (PDT) patentados para pequeñas inserciones, actualizaciones y eliminaciones incrementales sin afectar al rendimiento de las consultas.
  • Optimización de la cachéprocesseur : Utiliza núcleos processeur dedicados y cachés como memoria de ejecución para ejecutar consultas 100 veces más rápido que desde RAM, ofreciendo un rendimiento significativamente mayor que los enfoques convencionales in-memory .
  • processeur Optimizaciones: Incluye operaciones basadas en cadenas aceleradas por hardware para acelerar las selecciones en cadenas mediante coincidencias con comodines, las agregaciones en valores basados en cadenas y las uniones u ordenaciones mediante claves de cadenas.
  • Almacenamiento basado en columnas: Reduce la E/S a columnas relevantes y ofrece la oportunidad de una mayor compresión de datos, además de permitir índices de almacenamiento para maximizar la eficiencia.
  • Compresión de datos: Proporciona múltiples opciones para maximizar la compresión, de 4-10x para el almacenamiento Hadoop.
  • Índices de almacenamiento: Proporciona índices automáticos min-max para permitir la omisión rápida de bloques en las lecturas y eliminar la necesidad de una estrategia explícita de partición de datos.
  • Ejecución en paralelo: Utiliza algoritmos adaptativos para maximizar simultanéité la vez que permite priorizar la carga.
  • Acceso directo a consultas potenciado por Spark: Proporciona acceso directo a los archivos de datos de Hadoop almacenados en Parquet, ORC y otros formatos estándar, lo que permite a los usuarios obtener importantes ventajas de rendimiento sin tener que convertir primero al formato de archivo Vector.
  • Soporte de funciones definidas por el usuario (UDF): Amplíe la base de datos para realizar operaciones que no están disponibles a través de funciones incorporadas y definidas por el sistema proporcionadas por Vector. Vector for Hadoop 6 ofrece la posibilidad de crear UDF escalares.
  • Ejecución más rápida del aprendizaje automático: Despliegue modelos de aprendizaje automático (ML) que se ejecutan junto con la base de datos aprovechando las nuevas capacidades UDF ampliadas. Al desplegar los modelos ML junto con la base de datos vectorial, se reduce el movimiento de datos, lo que permite una puntuación de datos más rápida.
  • SQL y NoSQL en una única base de datos: Combine columnas relacionales clásicas con columnas que contengan documentos formateados como texto JSON en la misma tabla y analice e importe documentos JSON en estructuras relacionales. La combinación de datos semiestructurados con bases de datos relacionales permite gestionar casos de uso adicionales en los que las estructuras de datos subyacentes cambian rápidamente.
  • Amplio soporte SQL Con ANSI SQL estándar y analytique avancée: Estas incluyen funciones de cubicación, agrupación y ventana.

Puede obtener más información sobre los productos y soluciones de Actian en nuestro sitio web y consultar la Actian Data Platform.

Mosaico de elefantes de un lago de datos Hadoop

¿Es el fin del lago de datos Hadoop?

Durante el apogeo de Hadoop, hace más de una década, la idea de un sistema de archivos de bajo coste, altamente disponible y escalable era muy atractiva. Muchos proveedores, como Cloudera, Hortonworks y MapR, ofrecían distribuciones de código abierto que impulsaron la adopción por parte de las empresas. Desde entonces, el mercado se ha consolidado y los clústeres de Hadoop han languidecido debido a la escasez de competencias, los elevados costes de administración y la aparición de alternativas mejores. Las soluciones más recientes de proveedores en la nube ofrecen un mejor coste por terabyte y menores costes de administración.

Vector en Hadoop

Vector proporciona una capacidad de base de datos de haute performance directamente en Hadoop y utiliza la estructura de almacenamiento HDFS subyacente para los datos. Vector en Hadoop es compatible con varias distribuciones de Hadoop, incluida Amazon Elastic MapReduce (EMR).

El rendimiento es la razón principal para ejecutar Vector en Hadoop, ya que varios nodos de clúster pueden paralelizar operaciones como las consultas SQL. Muchas empresas han convertido sus entornos de big data Hadoop en lagos de datos para almacenar conjuntos de datos semiestructurados, como archivos de registro de actividad web y datos IoT. Vector permite aumentar el rendimiento SQL de Hadoop hasta 100 veces en comparación con Apache Impala. La avantage de rendimiento no se limita a las consultas. También puede obtener la avantage de las actualizaciones de datos en tiempo real sin penalización. Algunas bases de datos analíticas Hadoop tradicionales obligan a sacrificar la cohérence los datos en aras del rendimiento.Vector for Hadoop procesa las actualizaciones de datos en tiempo real sin ninguna penalización de rendimiento asociada, lo que garantiza que la visión analítica de una organización esté siempre actualizada, utilizando los datos más recientes disponibles.

Los lagos de datos más recientes comienzan su vida en la nube. Actian Data Platform es el complemento perfecto para los lagos de datos basados en la nube, ya que ejecuta análisis de datos dondequiera que exista su lago de datos.

Actian Data Platform y Vector en Hadoop proporcionan un rendimiento de procesamiento paralelo masivo (MPP). A través de su innovadora compatibilidad nativa con Spark, Vector ofrece un acceso optimizado a los formatos de archivos de datos de Hadoop, incluidos Parquet y ORC, la capacidad de realizar funciones como uniones SQL a través de diferentes tipos de tablas y sirve como motor de ejecución de consultas más rápido para aplicaciones Spark SQL y SparkR.

Visual de un elefante representando Vector en Hadoop