Arquitectura de datos

El formato de archivo Actian Vector para Hadoop es más rápido y eficiente

Corporación Actian

5 de junio de 2020

Vector para elefante hadoop

En esta tercera y última parte de la serie sobre Actian Vector en Hadoop (VectorH), cubriremos cómo el formato de archivo VectorH soporta el rendimiento y la eficiencia de nuestra plateforme d'analyse de datos para acelerar los conocimientos empresariales, así como algunas de las otras características empresariales que pueden ayudar a las empresas a mover sus aplicaciones Hadoop a la producción. La primera parte de esta serie mostró las enormes ventajas de rendimiento que VectorH tiene sobre otras alternativas SQL en Hadoop, mientras que la segunda parte exploró los beneficios de la implementación más rica de SQL y la capacidad de realizar actualizaciones de datos en VectorH.

El formato de archivo de VectorH es uno de los factores clave que contribuyen a su rendimiento líder en el sector. El hecho de tener una orientación columnar permite a VectorH elegir técnicas de compresión optimizadas por tipo de datos, y VectorH puede utilizar varias medidas descritas en el documento SIGMOD para emplear el almacenamiento y el ancho de banda de E/S de forma más eficiente. En algunas pruebas sencillas descritas en este documento, comparamos VectorH con la velocidad y eficiencia de otros motores de consulta (como Impala y Presto) y otros formatos de archivo (como Parquet y ORC). De los resultados de las pruebas se desprenden claramente tres observaciones:

VectorH maneja las consultas mucho más rápido que las otras alternativas cuando los datos ya están en memoria, de 26x a más de 110x más rápido, principalmente debido a las eficiencias de la descompresión utilizando el procesamiento vectorizado. El siguiente gráfico muestra los tiempos de consulta para cada una de las alternativas, mostrando cómo varía en función del porcentaje de los datos seleccionados de todo el conjunto de tablas. VectorH y Presto evitan procesar los datos que no se encuentran en el rango seleccionado, mientras que Impala no lo hace y su rendimiento es mucho peor en los casos del 10% y el 30%.
query-times-for-alternatives

  • VectorH también es significativamente más rápido cuando los datos aún no se han cargado en memoria. VectorH reduce la cantidad de E/S requerida para los datos que residen en disco mediante el uso de filtrado de E/S, donde los índices MinMax en memoria permiten omitir las operaciones de lectura de bloques en disco sin datos en el rango seleccionado. El gráfico que se muestra a continuación (similar al anterior) refleja el porcentaje de datos en el rango seleccionado, y sólo VectorH muestra un ahorro significativo de las operaciones de lectura, ya que menos datos se ajustan a los criterios de selección. Aunque algunos otros formatos también tienen información de rango, ésta se almacena como métadonnées dentro de los bloques de datos. Sigue siendo necesario leer cada bloque al menos en parte antes de decidir si los datos son relevantes. VectorH realizó significativamente menos E/S, entre un 20% y un 98% menos, en comparación con Impala y Presto.

porcentaje-de-datos-dentro-del-gama-seleccionada

  • VectorH tiene la compresión más efectiva en una variedad de tipos de datos, requiriendo sólo 11GBs de almacenamiento comparado con 18GBs para Parquet y 19GBs para ORC, un ahorro de 39-42%. Imagínese el ahorro respecto a un almacén de datos de varios petabytes.

VectorH-compression-across-a-variety-of-data-types

Ventajas adicionales para VectorH que contribuyen a implantar con éxito soluciones analíticas:

  • La integración de Spark es un ejemplo del compromiso continuo de Actian por incorporar interfaces y marcos abiertos directamente en la solución VectorH.
    • Actian VectorH 6.0 se integra con las últimas distribuciones de Hadoop y puede desplegarse tanto sur site como en la nube, por ejemplo Microsoft Azure HDInsight.
    • Actian VectorH 6.0 soporta múltiples sistemas de archivos así como múltiples formatos de datos (Parquet, ORC, CSV, y muchos otros a través del conector Spark).
    • Los usuarios pueden ejecutar consultas en VectorH sobre datos almacenados en cualquier formato de archivo soportado por Spark aprovechando el conector Spark. Esto es totalmente transparente para el usuario: se puede utilizar SQL ANSI completo para consultar datos en cualquier formato de archivo sin ni siquiera saber de la existencia de Spark.
    • Con el conector Spark, los datos almacenados en VectorH pueden ser procesados en Spark mediante el uso de Dataframes o Spark SQL. Cualquier operación Spark puede realizarse sobre datos respaldados por una tabla VectorH.
  • En general, Actian proporciona una funcionalidad de nivel empresarial más completa para ayudar a trasladar las aplicaciones analíticas del desarrollo a un entorno de producción.
    • La seguridad basada en roles y filas está integrada en VectorH, proporcionando el control de acceso necesario para respaldar las políticas de privacidad y los requisitos normativos.
    • Actian Director proporciona una herramienta basada en web para monitorizar y gestionar VectorH y los recursos del cluster.
    • Actian Management Console automatiza el aprovisionamiento, la implementación y la supervisión de los análisis en la nube, lo que agiliza y facilita la puesta en marcha de su nuevo proyecto.

Esta serie de blogs de tres partes (ver partes uno y dos) muestra cómo Actian proporciona a los clientes el rendimiento, la flexibilidad y el soporte necesarios al integrarse con otras tecnologías de big data para ofrecer información más rápida y rica para tomar mejores decisiones empresariales.

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, tratamos temas que van desde la ingesta de datos en tiempo real hasta el análisis basado en IA. Conozca al equipo directivo https://www.actian.com/company/leadership-team/