Hub de análisis de datos: ¿mejor que un lago de datos o un hub de análisis?
Corporación Actian
25 de febrero de 2021

¿Y por qué es mejor que un lago de datos o un centro de análisis?
En la primera entrega de esta serie de blogs: DataLakes, Data Warehouses y Data Hubs: ¿Necesitamos otra opción? exploro por qué la simple migración de estas plataformas de integración, gestión y análisis de datos a la nube no satisface plenamente las necesidades modernas de análisis de datos. Al comparar estas tres plataformas, queda claro que, aunque todas ellas satisfacen ciertas necesidades críticas, ninguna de ellas satisface las necesidades de los usuarios finales de las empresas sin un apoyo significativo de TI. Lo que necesitamos es una plataforma que combine los elementos operativos y analíticos óptimos de estas plataformas con características y funcionalidades que aborden directamente las necesidades operativas y de autoservicio en tiempo real de los usuarios empresariales (en lugar de los informáticos).
Dado que la implementación actual de concentradores de datos, lagos de datos y almacenes de datos no incorpora ni identifica eficazmente las necesidades combinatorias y analíticas de los usuarios del mundo real, se podría pensar que un término más directo y descriptivo como "concentrador de análisis" cambiaría el enfoque en la dirección correcta. Lamentablemente, este es uno de esos caminos que sólo conducen a la decepción y al examen de conciencia.
¿Por qué no llamarlo simplemente centro de análisis?
En pocas palabras, el término ya se utiliza de forma poco útil. Algunos centros de análisis se centran en consolidar conjuntos de datos pequeños y dispares (como los de las hojas de cálculo de Excel y otras fuentes) que un científico de datos podría querer explotar. Otros concentradores analíticos pueden acceder a fuentes de datos dispares y analizarlas, pero únicamente dentro de los límites de esa herramienta concreta y sólo para su consumo inmediato. Pocas de estas ofertas son capaces de gestionar consultas de varios terabytes, en menos de un segundo, y de realizar complejas ejecuciones analytique avancée como cargas de trabajo operativas.
De hecho, estos hubs analíticos funcionan como conmutadores en lugar de como verdaderos hubs, como lo hace el hub de datos mal categorizados. No hay persistencia de datos en el punto de unificación y dependen de un almacén de datos externo o de un lago de datos para almacenar y suministrar datos de entrada. No se hace ningún esfuerzo por conservar los datos de múltiples proyectos, usuarios y usos a largo plazo. La única cualidad central y redentora de estos centros de análisis es el hecho de que su usuario previsto son los analistas empresariales, los científicos de datos empresariales y usuarios avanzados similares. En consecuencia, los centros de análisis se centran en menús desplegables sencillos, evitan la codificación para acceder a los datos y permiten el autoservicio, en particular para los archivos de recogida que, de todos modos, están en gran medida bajo el control del usuario final.
Para obtener una visión completa y en tiempo real de los análisis, los usuarios necesitan una única imagen consolidada de todos los datos relevantes. A continuación, esos datos deben presentarse para que los analicen muchas partes interesadas diferentes con muchas herramientas distintas. El punto de unificación de datos debe equilibrar datos dispares Y herramientas de análisis dispares. Los centros de análisis no suelen manejar más que un par de entradas y salidas diferentes en un momento dado, por no hablar de la curación de datos.
Llámelo centro de análisis de datos
¿Qué tipo de plataforma podría hacer esto? Llamémosla centro de análisis de datos.
Podría parecer un refinamiento obvio, pero resulta que lo obvio no siempre lo es tanto. Términos como "centro de datos", "lago de datos" y "almacén de datos" tienen frecuencias de búsqueda de entre decenas y cientos de miles al mes. "Data analytics hub" tiene una frecuencia de búsqueda al mes inferior a la que yo tengo años en este planeta. Mi misión es cambiar esta situación. Sin embargo, dada la relativa oscuridad del término, creo que es importante explorar qué es un centro de análisis de datos, en qué se diferencia de un "centro de análisis" y por qué es mejor para el análisis moderno que cualquiera de las opciones antes mencionadas.
Un centro de análisis de datos utiliza elementos de las cuatro tecnologías anteriores (y si no ha leído el primer blog de esta serie y no conoce las diferencias entre centros de datos, lagos de datos y almacenes de datos, le animo a que dedique ocho minutos a volver a leerlo).
- Al igual que un concentrador de datos, un concentrador de análisis de datos proporciona conectividad a fuentes de datos dispares tanto en modo batch como en modo streaming. Sin embargo, a diferencia de un centro de datos, un centro de análisis de datos proporciona persistencia en un repositorio en la nube. Además, ofrece la curación de un conjunto diverso de tipos de datos dispares que pueden ser ingeridos tanto en modo batch como en modo streaming con opciones de autoservicio de código bajo a cero a través de menús desplegables para usuarios no informáticos.
- Al igual que un lago de datos, el repositorio de almacenamiento en la nube de un centro de análisis de datos puede manejar todos los tipos de datos y aprovechar los estándares de la industria para el movimiento y análisis de datos (a la Kafka y Spark). Sin embargo, a diferencia del típico lago de datos actual, un centro de análisis de datos también proporciona estructura y soporte para las cargas de trabajo de BI y analytique avancée del usuario final mediante el uso de SQL (de forma más parecida a como lo hace un almacén de datos ). En esencia, se trata de un centro bidireccional, que admite múltiples entradas y salidas, resolviendo todas las permutaciones de datos de entrada y herramientas de salida utilizadas por un conjunto diverso de usuarios no informáticos.
- De hecho, un concentrador de análisis de datos proporciona soporte descendente (es decir, en dirección al usuario final) para la mayoría de las herramientas de BI, informes, visualización y analytique avancée más populares. Sin embargo, a diferencia de los actuales centros de datos, lagos de datos y almacenes de datos, un centro de análisis de datos proporciona herramientas de autoservicio fáciles de usar que permiten a los usuarios no técnicos vincular cualquier fuente de datos a cualquier herramienta de usuario final, sin necesidad de intervención de TI (ya sea de forma puntual o diaria).
En resumen, un centro de análisis de datos combina las funciones críticas de recopilación y análisis de datos de estas conocidas soluciones, pero expone todas esas funciones de forma que los usuarios empresariales clave puedan acceder a ellas fácilmente e incorporarlas a programas y procesos. En la figura siguiente se muestra una docena de características clave extraídas de estas cuatro tecnologías en una única plataforma integrada.
En términos sencillos, se trata de un almacén de datos curados con capacidades de gestión y análisis que actúa como un centro bidireccional para conjuntos de datos dispares y diversos en un extremo y herramientas de análisis en el otro, directamente utilizable por analistas de negocio y científicos de datos para generar ideas de forma rápida e iterativa.
¿Por qué es mejor un centro de análisis de datos que un lago de datos?
En el último blog, sugerí de pasada que sería inexacto equiparar Hadoop, el principal lago de datos sur site , a AWS S3, Microsoft Azure ADLS y Google Cloud Store (los tres principales repositorios de almacenamiento en la nube pública). Una comparación más adecuada sería entre el Sistema de Archivos Distribuidos de Hadoop (HDFS) y esos repositorios basados en la nube , además de los equivalentes accesibles desde AWS/Azure/Google de los componentes que Hadoop proporciona para la gestión de datos y sistemas, consultas, ML, etc. (incluidos Yarn, Hive, MapReduce, Pig, Mahout, Flume, etc.). Una vez superada la sopa de letras, sí, encontrará varias opciones de bases de datos diferentes, un almacén de datos, versiones renombradas o Embarqué de Kafka y Spark, una herramienta ETL independiente y una herramienta de análisis interne de un proveedor. La clara ventaja es la economía de la nube. La desventaja, sin embargo, es que este lago de datos basado en la nube sigue siendo una plataforma compleja que sólo es navegable y utilizable por TI y desarrolladores.
No me malinterpreten, esto no es una diatriba contra el código abierto. Integrar el código abierto en una plataforma, sobre todo para una funcionalidad que se ha convertido en un producto básico, tiene mucho sentido. Todos los proveedores deberían hacerlo. Tampoco se trata de criticar el hecho de tener una recomendación prescriptiva sobre con qué herramientas analíticas funciona mejor su plataforma. Pero, históricamente, este tipo de plataforma ha caído en una espiral de desilusión con demasiada frecuencia. Se vuelve inescrutable para los usuarios finales, como el analista de negocio y el usuario avanzado que se especializa en una línea de negocio concreta y que utiliza la ciencia de datos como herramienta para dar sentido a su negocio.
En otras palabras, una vez que se ha pasado de la ciencia pura a la ciencia de datos o una vez que se está en el punto en el que se desea utilizar cargas de trabajo de BI tradicionales, informes y herramientas de visualización para obtener información sobre las cargas de trabajo operativas , un lago de datos es la plataforma equivocada. Sus usuarios finales son analistas de negocio, usuarios avanzados y científicos de datos que necesitan supervisar y ajustar los procesos que están desplegados y en curso, que aprovechan la IA/ML que ellos o sus compañeros han ideado, y que necesitan poder interactuar tanto con los datos como con los análisis en tiempo real relativo (es decir, no cuando es conveniente para TI responder).
En la próxima entrega de esta serie de blogs, profundizaré en los casos de uso que tienen más sentido para un centro de análisis de datos. Ah, y voy a poner a descansar cualquier preocupación que pueda tener que sólo estoy conjurando una visión de algún centro fabuloso que aparecerá en un futuro lejano. No me he inventado un nombre para algo que todavía no existe. Como verás, ya existe un centro de análisis de datos.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.