Gestión de datos

Actian muestra grandes ventajas sobre las alternativas SQL en Hadoop

Corporación Actian

6 de junio de 2020

SQL Imagery larga exposición de coches por la noche

Imagine que los informes que actualmente tardan muchos minutos en ejecutarse en Hadoop pudieran ofrecer resultados en cuestión de segundos. Obtenga respuestas a preguntas detalladas sobre cifras de ventas y tendencias de clientes en tiempo real. Realice predicciones de ingresos basadas en métricas de clientes actualizadas a través de un espectro de fuentes. Iterar más rápidamente simulando diferentes decisiones de negocio para lograr mejores resultados. Actian Vector for Hadoop plateforme d'analyse puede ofrecerle estas mejoras en su entorno de big data Hadoop.

Actian Vector para Hadoop ha demostrado un rendimiento de consulta entre uno y tres órdenes de magnitud superior en comparación con otras alternativas principales de SQL en Hadoop. En esta primera parte de un blog de tres que describe los resultados, mostraremos los asombrosos resultados de rendimiento y explicaremos los factores que contribuyen a una ventaja tan grande. La segunda parte tratará sobre las capacidades únicas de Vector para gestionar actualizaciones, y la tercera parte profundizará en las eficiencias del formato de archivo de Vector para Hadoop.

El departamento de ingeniería de rendimiento de Actian utilizó el conjunto completo de 22 consultas TPC-H para ejecutar pruebas de rendimiento no auditadas en varias de las soluciones SQL en Hadoop del mercado, y los resultados pueden sorprenderle (pero no a nosotros). He aquí un resumen rápido:

Estos resultados se han publicado en un artículo académico presentado en la Conferencia Internacional sobre Gestión de Datos (ACM SIGMOD). En ese artículo se explican muchas razones técnicas por las que Vector for Hadoop es capaz de lograr esa ventaja de rendimiento:

  • Ejecución vectorizada y paralela multi-cœur eficiente - Vector for Hadoop se ha diseñado para aprovechar las características de rendimiento de la arquitectura Intel processeur , incluido el conjunto de instrucciones vectoriales AVX2 y las grandes cachés multicapa.
  • Optimizador de consultas bien ajustado - Vector for Hadoop amplía el maduro optimizador de su versión SMP original para explotar los múltiples niveles de paralelismo y las ventajas de la localidad de los datos en un sistema Hadoop MPP. El optimizador de Vector for Hadoop puede cambiar el orden de unión o particionar las tablas de datos para mejorar las operaciones en paralelo, pasos que deben realizarse manualmente para las consultas en las otras alternativas.
  • Control sobre la localidad de los bloques HDFS: dado que Vector for Hadoop funciona de forma nativa en HDFS y YARN, puede participar en la gestión de recursos y tomar decisiones de asignación en el contexto de la carga de trabajo del clúster más amplio. Al mismo tiempo, las optimizaciones específicas de almacenamiento de tablas reducen la sobrecarga, aceleran las lecturas, maximizan la eficiencia del disco y reducen la inclinación de los datos para ayudar a ofrecer resultados de consulta más rápidos.
  • Filtrado de E/S eficaz: el seguimiento del rango de valores de una columna (MinMax) permite omitir la lectura de los bloques que quedan fuera del rango de la consulta, lo que reduce la E/S del disco y los retrasos en la lectura, y evita los cálculos de descompresión, a veces de forma significativa.
  • Compresión ligera - La compresión de Vector 's consigue buenos niveles de compactación a alta velocidad, logrando una ejecución vectorizada más rápida al minimizar las bifurcaciones y el recuento de instrucciones. Nuestros algoritmos de compresión son capaces de ejecutarse completamente en la caché processeur , lo que aumenta de forma efectiva el ancho de banda de la memoria. Los diferentes algoritmos de compresión se adaptan a los distintos tipos de datos y Vector calibra y elige automáticamente entre ellos para alcanzar mayores niveles de compresión y eficiencia en comparación con los algoritmos de compresión de propósito general.

¿Cómo se realizaron las pruebas?

  • Actian performance engineering construyó un Cluster Hadoop de 10 nodos, cada nodo 2xIntel 3.0GHz E5-2690v2 CPUs, 256GB RAM, 24x600GB HDD, 10Gb Ethernet, Hadoop 2.6.0. Había un nodo de nombre y nueve nodos SQL-on-Hadoop, configurados con Cloudera Express 5.5.
  • Estas pruebas se realizaron a principios de 2016, ejecutando la versión más reciente de cada una de las alternativas SQL en Hadoop (Actian Vector for Hadoop 4.2.2, Apache Hive 1.2.1, Cloudera Impala 2.3, Apache Drill 1.5, Apache Spark SQL 1.5.2 y Pivotal HAWQ 1.3.1). Se hicieron esfuerzos razonables para ajustar cada plataforma con el fin de realizar comparaciones justas.

A continuación se muestran los tiempos de ejecución reales de las consultas individuales y el factor de aceleración de Vector para Hadoop frente a cada una de las alternativas:

En la segunda parte de esta serie de blogs, trataremos las ventajas que ofrece Vector for Hadoop 6.0 en cuanto a funcionalidad SQL y capacidad de actualización de datos en comparación con las otras alternativas, y en la tercera parte mostraremos las ventajas del formato de archivo Vector para un rendimiento más rápido de las consultas y menores requisitos de almacenamiento.

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, tratamos temas que van desde la ingesta de datos en tiempo real hasta el análisis basado en IA. Conozca al equipo directivo https://www.actian.com/company/leadership-team/