Pssst ... ¿Has oído hablar de VectorH?
Corporación Actian
4 de mayo de 2016

Hemos estado ocupados creando algunas características innovadoras en el producto Actian Vector in Hadoop (VectorH) y nos encantaría contárselas.
Así, la lista de las características y las innovaciones que hemos hecho recientemente para VectorH ... espera ... ¿sabes siquiera lo que es VectorH? Sí, es un gran ejemplo de CamelCase, pero no necesitamos una entrada de blog para eso.
Permítanme centrar este post en lo que VectorH es realmente y en el tipo de problemas que está diseñado para resolver. Cubriremos las nuevas características en un post posterior.
¿Qué es VectorH?
VectorH es nuestro RDBMS distribuido columnar, de haute performance, compatible con ACID y ANSI SQL 2003, que se ejecuta de forma nativa dentro de un Cluster Hadoop de Apache. Utiliza HDFS o MapR-FS para el almacenamiento y Hadoop YARN para la gestión de recursos. VectorH tiene sus raíces en la base de datos Vectorwise, pionera en el procesamiento vectorial, que batió récords en TPC-H.
En el corazón de Vectorwise (y VectorH) se encuentra el motor de ejecución x100, que tiene su origen en la investigación llevada a cabo en el CWI (Instituto Nacional de Investigación en Matemáticas e Informática de los Países Bajos).
¿En qué se diferencia VectorH?
La "salsa secreta" que hace que VectorH sea único es su implementación madura y de calidad de producción del procesamiento vectorial y los árboles delta posicionales (que le permiten realizar actualizaciones transaccionales muy eficientes en tiempo real sin afectar a los tiempos de consulta).
¿Actualizaciones? Sí, así es - podemos hacer actualizaciones sobre HDFS a pesar de que es un sistema de archivos sólo append. La industria está empezando a ver algunos sistemas que ofrecen capacidades de actualización en Hadoop pero VectorH lo ha soportado durante un tiempo y ha madurado mucho desde su concepción.
VectorH incluye otras innovaciones, como métodos de compresión ligeros, paralelización multi-cœur , colocación inteligente de bloques HDFS, gestión predictiva de búferes, etc.
Estas innovaciones se traducen en un rendimiento récord y las características de rendimiento de VectorH merecen un artículo aparte. El rendimiento es un factor muy importante cuando se trata de procesamiento de datos a gran escala, pero no debe ser el único factor a la hora de elegir la solución adecuada para su implementación.
¿Debería utilizar VectorH?
Nuestros clientes de VectorH han podido utilizar VectorH para abordar los siguientes casos de uso:
- Reducción de costes y complejidad: Algunos de nuestros clientes tenían clústeres Hadoop separados y clústeres dedicados separados para el almacenamiento de datos. Los datos se transferían desde el clúster Cluster Hadoop a un clúster de almacén de datos dedicado y, a continuación, se utilizaban para el procesamiento analítico o se ponían a disposición de outils bi. El mantenimiento de los clústeres de almacenamiento de datos era costoso y no se podían escalar para gestionar el aumento de datos/complejidad. Pudieron pasar a VectorH dentro de sus clústeres Hadoop existentes para obtener la misma funcionalidad SQL, crear tiempos de respuesta más rápidos y servir a sus usuarios informatique décisionnelle sin tener que reescribir sus consultas, y eliminar el costoso hardware/software de almacén de datos independiente.
- Gestión de cargas de trabajo empresariales: Hay una amplia variedad de motores SQL disponibles para Hadoop, y aunque innovadores, nuestros clientes encontraron que a) había una falta de madurez SQL por lo que miles de las consultas existentes no funcionaban y tenían que ser reescritas o b) había problemas de estabilidad donde no podían escalar para manejar sus cargas de trabajo de producción con un gran número de consultas simultáneas. VectorH ha demostrado tener capacidad de gestión, escalabilidad e integridad de nivel empresarial.
- Cumplimiento de los SLA: Un determinado segmento de nuestros clientes del sector financiero tiene unos requisitos muy rígidos que exigen que ciertas tareas finalicen a tiempo para poder generar informes y perspectivas críticos para el negocio. Esto requería un rendimiento más rápido del sistema subyacente, así como la capacidad de modificar un subconjunto de puntos de datos (ajustes) sin tener que volver a ejecutar toda la tarea ETL. Los árboles Positional Delta de VectorH podían gestionar muy bien estas actualizaciones incrementales sin afectar a los tiempos de consulta.
Si sus volúmenes de datos son superiores a 5 TB o se enfrenta a cualquiera de los 3 problemas anteriores, debe considerar Actian VectorH para proporcionar la escala y el rendimiento para hacer frente a sus necesidades de negocio.
Así que ahí lo tienen - una muy breve visión general de lo que hace a VectorH tan especial y le da la capacidad de resolver casos de uso complejos gestion des données empresarial gestion des données .
¿Cómo puedo probar VectorH?
Si se siente identificado con los casos de uso descritos anteriormente, debería probar VectorH. Puede descargar una versión de prueba de VectorH aquí y enviar un correo electrónico a eval@actian.com para solicitar una clave de licencia de prueba.
Recientemente hemos publicado un conector Spark-Vector en GitHub que amplía las capacidades de VectorH mediante la integración con el ecosistema Spark. El equipo de VectorH está entusiasmado con la disponibilidad de esta característica porque permite una variedad de nuevos casos de uso. Pronto publicaremos un blog al respecto, así que mantente atento.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.