Puesta en marcha de su lago de datos Hadoop
Corporación Actian
15 de julio de 2020

¿Ha intentado alguna vez unir sus tablas de hechos y dimensiones para generar análisis operativos? Si desea realizar análisis de datos a gran escala sobre temas como la rotación de clientes, probablemente tendrá que hacerlo. El problema es que estas tablas son muy grandes y, al unirlas, la tabla de datos materializada resultante es enorme (exponencialmente más grande que las tablas de origen) y es probable que se agote antes de completarse. Si se consigue preunir los datos, es probable que los datos resultantes no estén actualizados (lo siento). Esto se debe a que los datos de origen cambian constantemente y a que los datos resultantes son tan grandes que las consultas que intentes ejecutar sobre ellos tampoco funcionarán muy bien. Tiene que haber una forma mejor.
Bases de datos vectoriales frente a bases de datos tradicionales - Orientación columnar
Vector para Hadoop está diseñado para ayudar a resolver este problema, ya que le permite evitar el paso intermedio de pre-unión de datos en una tabla de datos materializados, y en su lugar realizar de alto rendimiento "bajo demanda" se une. La base de datos Vector comienza reorientando los datos en vectores en los que se pueden realizar operaciones SIMD (instrucción única, datos múltiples). Esencialmente, Vector reorienta los datos para centrarse en las relaciones entre atributos (a través de múltiples registros) en lugar de centrarse en los atributos asociados a un único registro. Esto es importante por un par de razones.
La mayoría de las cuestiones empresariales que intenta resolver con la analítica están relacionadas con datos agregados (tamaño medio de las transacciones, número de ventas en un periodo, etc.). Se trata de comprender un proceso de forma holística en lugar de rastrear transacciones individuales. Este objetivo empresarial es importante porque es la base por la que necesita ejecutar análisis en un almacén de datos en lugar de en sus sistemas transaccionales. Los sistemas transaccionales están optimizados para el procesamiento de transacciones individuales (de ahí su nombre). Los almacenes de datos están optimizados para analizar lotes de datos. Ambos sistemas son capaces de hacer el trabajo del otro, pero si busca análisis operativos, necesita utilizar un almacén de datos e idealmente uno que tenga una orientación columnar.
El rendimiento viene de la especialización
Las bases de datos y los sistemas de análisis se limitan a realizar un montón de operaciones matemáticas con los datos: comparación de cadenas de caracteres, números enteros, etc. Diferentes tipos de datos tienen diferentes operaciones que se pueden realizar en ellos. Se pueden realizar diferentes conjuntos de operaciones en diferentes tipos de datos. Por ejemplo, en los números se pueden realizar operaciones de suma, resta, mayor que, menor que, mínimo y máximo, pero en las cadenas de caracteres sólo se pueden realizar comparaciones de caracteres (igual a, contiene, empieza por, etc.). Los ordenadores están diseñados para realizar operaciones matemáticas con números, por lo que este tipo de operaciones son más rápidas.
El problema con las bases de datos tradicionales basadas en filas es que los atributos asociados a un registro de datos probablemente tendrán tipos de datos mixtos. Para analizar estos datos, el sistema debe recurrir esencialmente al "mínimo común denominador", que, en la mayoría de los casos, es la comparación de cadenas. Al reorientar los datos en columnas, Actian Vector permite realizar operaciones numéricas (más rápidas) cuando los datos lo admiten, lo que acelera el rendimiento general de las consultas.
No hay que esperar a que se actualicen los datos
El enfoque tradicional de preunión de datos para permitir el análisis funciona bien si se trata de datos históricos que son esencialmente estáticos. Si se tarda unas horas en unir los datos, no es un gran problema. Pero se convierte en un problema cuando los datos de origen cambian constantemente y la información analítica que se intenta desarrollar se utiliza para la toma de decisiones en tiempo real. Cada vez son más las empresas que buscan hacer operativos sus lagos de datos Hadoop y utilizar los datos que contienen para alimentar cuadros de mando de operaciones y capacidades de supervisión de procesos en tiempo real que tienen poca tolerancia a la latencia de los datos. Una gran avantage de la solución Actian Vector es que evita la necesidad de preagrupar y preprocesar los datos en las tablas de datos materializados y, en su lugar, ejecuta uniones bajo demanda de las tablas de datos de origen. Esto es precisamente lo que exige la analítica operativa.
Para obtener más información sobre Actian Vector for Hadoop, visite https://www.actian.com/lp/actian-vector-sql-accelerator-for-hadoop/.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.