7 mentiras de los catálogos de datos #4: No son una solución de consulta
Corporación Actian
2 de julio de 2021

El mercado de los catálogos de datos se ha desarrollado rápidamente, y ahora se considera esencial a la hora de desplegar una estrategia basada en datos. Víctima de su propio éxito, este mercado ha atraído a numerosos actores de mercados adyacentes.
Estos actores han reajustado su posicionamiento comercial para presentarse como soluciones de catálogos de datos.
La realidad es que, aunque relativamente débiles en cuanto a las funcionalidades del catálogo de datos en sí, estas empresas intentan convencer, con grados de éxito proporcionales a sus presupuestos de marketing, de que un catálogo de datos no es simplemente una herramienta de búsqueda de alto rendimiento para los equipos de datos, sino una solución integrada susceptible de abordar una gran cantidad de otros temas.
El objetivo de esta serie de blogs es deconstruir el discurso de estos proveedores de catálogos de datos de última hora.
Éstas son, en nuestra opinión, las 7 mentiras de los proveedores de Catálogos de Datos:
- Un catálogo de datos es una plataforma de gobernanza de datos.
- Un catálogo de datos puede medir y gestionar la calidad de los datos.
- Un catálogo de datos puede gestionar el cumplimiento de la normativa.
- Un catálogo de datos puede consultar los datos directamente.
- Un catálogo de datos puede modelar la arquitectura lógica y los procesos empresariales en torno a los datos.
- Un catálogo de datos es una herramienta de gestión colaborativa de cartografía y metadatos que no puede automatizarse.
- Un catálogo de datos es un proyecto largo, complejo y costoso.
Un catálogo de datos NO es una solución de consulta
He aquí otra rareza del mercado de los catálogos de datos. Varios proveedores, cuyo objetivo inicial era permitir a los usuarios consultar simultáneamente varias fuentes de datos, han "pivotado" hacia un posicionamiento de Catálogo de Datos en el mercado.
Hay una razón para que pivoten.
La aparición de los Data Lakes y el Big Data les ha arrinconado en un callejón sin salida tecnológico que ha debilitado el segmento de mercado en el que se encontraban inicialmente.
Un Data Lake suele segmentarse en varias capas. La capa "bruta" integra datos sin transformar, en formatos más o menos estructurados y en grandes cantidades; una segunda capa, que llamaremos "limpia", contendrá aproximadamente los mismos datos pero en formatos normalizados, tras un desempolvado. Después, puede haber una o varias capas "empresariales" listas para su uso: Un almacén de datos y una herramienta de visualización para análisis, un clúster Spark para ciencia de datos, un sistema de almacenamiento para distribución comercial, etc. Dentro de estas capas, los datos se transforman, agregan y optimizan para su uso, junto con las herramientas que apoyan este uso (herramientas de visualización de datos, cuadernos, procesamiento masivo, etc.).
En este panorama, una herramienta de consulta universal de autoservicio no es adecuada.
Por supuesto, es posible establecer una capa de interpretación SQL sobre la capa "limpia" (como Hive), pero la ejecución de consultas sigue siendo un dominio para especialistas. Los volúmenes de datos son enormes y rara vez están indexados.
Permitir que los usuarios definan sus propias consultas es muy arriesgado: en los sistemas on-prem, corren el riesgo de colapsar el clúster ejecutando una consulta muy cara. Y en la nube, la factura puede ser muy alta. Por no hablar de los problemas de seguridad y sensibilidad de los datos.
En cuanto a las capas "empresariales", suelen ir unidas a soluciones más especializadas (como una combinación de Snowflake y Tableau para análisis) que ofrecen herramientas muy completas y seguras, con un gran rendimiento para consultas de autoservicio. Con su espacio de mercado reduciéndose como la nieve al sol, algunos proveedores de consultas multifuente han pivotado hacia los Catálogos de Datos.
Su objetivo ahora es convencer a los clientes de que la capacidad de ejecutar consultas convierte a su solución en el Rolls-Royce de los catálogos de datos (para justificar su precio de seis cifras). Le invitamos a que se lo piense dos veces.
Para llevar
En una arquitectura de datos moderna, la capacidad de ejecutar consultas a partir de un catálogo de datos no sólo es innecesaria, sino también muy arriesgada (rendimiento, coste, seguridad, etc.).
Los equipos de datos ya tienen sus propias herramientas para ejecutar consultas sobre los datos y, si no las tienen, puede ser una buena idea equiparlas. Integrar los problemas de acceso a los datos en el despliegue de un catálogo es la forma más segura de convertirlo en un proyecto largo, costoso y decepcionante.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.