Perspectivas

Vector en Hadoop 5.0 - Nuevas funciones que deberían interesarle

Emma McGrattan

19 de septiembre de 2017

Hoy anunciamos la introducción de la próxima versión de Actian Vector en Hadoop, ampliando nuestro soporte de Apache Spark para incluir acceso directo a formatos de archivo Hadoop nativos y una integración más estrecha con aplicaciones Spark SQL y Spark R. En esta versión, también incorporamos mejoras de rendimiento, integración con marcos de seguridad Hadoop y mejoras administrativas. Voy a cubrir cada uno de estos en mayor detalle a continuación.

Combinar tablas nativas de Hadoop con tablas vectoriales

En versiones anteriores, Vector in Hadoop requería que los datos se almacenaran en un formato propietario que optimizaba performances analytiques y ofrecía una gran compresión para reducir la latencia de acceso. Vector in Hadoop 5.0 ofrece la posibilidad de registrar archivos de datos Hadoop (como archivos Parquet, ORC y CSV) como tablas en VectorH y unir estas tablas externas con tablas Vector nativas. Vector en Hadoop proporcionará la ejecución analítica más rápida contra datos en estos formatos, incluso más rápida que sus motores de consulta nativos. Sin embargo, la ejecución de consultas nunca será tan rápida con tablas externas como con datos nativos de Vector. Si el rendimiento importa, le sugerimos que cargue esos datos en Vector in Hadoop utilizando nuestro cargador de alta velocidad.

Esta característica permite a los clientes que se han estandarizado en un formato de archivo concreto y que quieren evitar copiar datos en un formato propietario seguir obteniendo la aceleración del rendimiento que ofrece VectorH. Los detalles de la prueba comparativa de almacenamiento que realizamos como parte de nuestra ponencia en SIGMOD mostraron que el formato de archivo vectorial es más eficiente desde el punto de vista del rendimiento de las consultas, la lectura de datos y la compresión de datos. Consulte la entrada de nuestro blog de julio de 2016 en la que se explica con más detalle esa prueba comparativa.

Verdadera integración de la seguridad Hadoop empresarial

Una encuesta realizada por Forrester el año pasado indicaba que la seguridad de los datos es la principal preocupación en las implantaciones de Hadoop. Vector en Hadoop proporciona de forma nativa la seguridad de nivel empresarial que se espera de una plataforma EDW madura, es decir, control de acceso discrecional (control sobre quién puede leer, escribir y actualizar qué datos de la base de datos), cifrado de données au repos a nivel de columna, cifrado de données en mouvement , auditoría de seguridad con registros de auditoría direccionables SQL y alarmas de seguridad. Para el resto del ecosistema Hadoop, estas preocupaciones han impulsado el desarrollo de marcos de seguridad Hadoop, a través de proyectos como Apache Knox y Apache Ranger. A medida que vemos que estos marcos comienzan a aparecer en las RFI de los clientes, se nos proporciona documentación sobre cómo configurar VectorH para su integración con Apache Knox y Apache Ranger.

Importantes mejoras de rendimiento

Las mejoras de rendimiento que hicieron que Vector 5.0 obtuviera el máximo rendimiento en la prueba comparativa TPC-H 3000GB para sistemas no agrupados están ahora disponibles en Vector en Hadoop 5.0, donde normalmente vemos una escalabilidad lineal o mejor que lineal.

Generación automática de histogramas

Los planes de ejecución de las consultas a bases de datos dependen en gran medida del conocimiento de los datos subyacentes; sin estadísticas de datos, hay que hacer suposiciones sobre distribution des données , por ejemplo, que todos los códigos postales tienen el mismo número de residentes, o que los apellidos de los clientes tienen las mismas probabilidades de empezar por X que por M. VectorH 5.0 incluye una implementación de la generación automática de estadísticas/histogramas para tablas Vectoriales. Los histogramas se crean automáticamente y se almacenan en memoria cuando una consulta contiene una referencia a una columna en una cláusula WHERE, HAVING u ON sin un histograma creado explícitamente (mediante optimizedb o CREATE STATISTICS).

Acelere el arranque y el apagado con el registro distribuido de escritura anticipada

En versiones anteriores de VectorH en Hadoop, el archivo de registro de escritura anticipada, que contiene detalles de las actualizaciones en el sistema, se gestionaba en el nodo líder de VectorH. Este archivo de registro residente en memoria consumía mucha memoria del Nodo Líder y se convertía en un cuello de botella en el arranque, ya que el archivo de registro necesitaba ser reproducido durante el arranque y ese proceso podía tardar varios minutos. En VectorH 5.0 hemos implementado un archivo distribuido Write Ahead Log (WAL), donde cada nodo tiene un WAL local. Esto alivia la presión sobre la memoria, mejora nuestros tiempos de arranque y como efecto secundario también resulta en un procesamiento COMMIT mucho más rápido.

Acelerar las consultas con índices distribuidos

En versiones anteriores, el Nodo Líder VectorH era responsable de mantener los índices automáticos min-max para todas las particiones. Como recordatorio, el índice min-max mantiene un registro del valor mínimo y máximo almacenado dentro de un bloque de datos; este índice interno nos permite identificar rápidamente cuáles son los bloques que participarán en la resolución de una consulta y cuáles no necesitan ser leídos. Este índice es residente en memoria y se construye al iniciar el servidor. En VectorH 5.0 cada nodo es responsable de mantener su propia parte del índice, lo que alivia la presión sobre la memoria del nodo líder, mejora nuestros tiempos de arranque al distribuir el trabajo y acelera las consultas DML.

Gestión simplificada de particiones con especificación de particiones

Descubrimos que varios clientes de VectorH tenían problemas de rendimiento porque no sabían incluir la cláusula PARTITION al crear tablas, especialmente al utilizar CREATE TABLE AS SELECT (CTAS). Así que digamos que tenían una tabla existente que estaba distribuida en 15 particiones y querían crear una nueva tabla basada en esa tabla original, su suposición era que también tendría 15 particiones, pero esa no es la forma en que el estándar SQL lo concibió, y en este caso ser fiel al estándar SQL nos perjudicó. Para aliviar esto hemos añadido un parámetro de configuración que puede ser establecido para requerir el uso de NOPARTITION o PARTITION= cuando se crea una tabla vectorial explícitamente o vía CTAS.

Simplifique la copia de seguridad y restauración con la clonación de bases de datos

VectorH 5.0 introduce una nueva utilidad, clonedb, que permite a los usuarios hacer una copia exacta de su base de datos en una instancia separada de Vector, por ejemplo, llevar una copia de una base de datos de producción a un entorno de desarrollo para realizar pruebas. Esta función fue solicitada por uno de nuestros clientes actuales, pero ha sido muy bien recibida en todas las cuentas de Vector/VectorH.

Exportaciones más rápidas con descarga paralela del conector Spark

El Vector Spark Connector puede utilizarse ahora para descargar grandes volúmenes de datos en paralelo en todos los nodos.

Carga simplificada con sintaxis SQL para vwload

VectorH 5.0 incluye la posibilidad de utilizar vwload con la sentencia COPY de SQL para una rápida carga paralela de datos desde SQL.

Creación simplificada de exportaciones CSV desde SQL

VectorH 5.0 incluye la posibilidad de exportar datos en formato CSV desde SQL utilizando la siguiente sintaxis:

INSERT INTO EXTERNAL CSV 'filename' SELECT ... [WITH NULL_MARKER='NULL', FIELD_SEPARATOR=',', RECORD_SEPARATOR='n'].

Próximos pasos

Para obtener más información, solicite una demo o una versión de prueba de VectorH para probarlo dentro de su Cluster Hadoop. También puede explorar la versión de servidor único de Actian Vector que se ejecuta en Linux, distribuida gratuitamente como edición comunitaria, disponible para su descarga.

Acerca de Emma McGrattan

Emma McGrattan es CTO en Actian, liderando la I+D global en análisis de alto rendimiento, gestión de datos e integración. Con más de dos décadas en Actian, Emma tiene múltiples patentes en tecnologías de datos y ha sido fundamental en el impulso de la innovación para aplicaciones de misión crítica. Es una autoridad reconocida, con frecuentes ponencias en conferencias del sector como Strata Data, y ha publicado artículos técnicos sobre analítica moderna. En sus publicaciones del blog de Actian, Emma aborda la optimización del rendimiento, las arquitecturas de nube híbrida y las estrategias de análisis avanzadas. Explore sus artículos principales para desbloquear el éxito impulsado por los datos.

Plataforma Actian Data Intelligence Nuevo

Capacidades básicas

Observabilidad de datos Actian Nuevo

Capacidades básicas

Actian Data Platform

Capacidades básicas

Integración de datos

Productos

Bases de datos

Productos

Vista general de productos

Todos los productos

Vector en Hadoop 5.0 - Nuevas funciones que deberían interesarle

Combinar tablas nativas de Hadoop con tablas vectoriales