Inteligencia de datos

7 mentiras de los catálogos de datos #4: No son una solución de consulta

Corporación Actian

2 de julio de 2021

un catálogo de datos no es una solución de consulta

El mercado de los catálogos de datos se ha desarrollado rápidamente, y ahora se considera esencial a la hora de desplegar una estrategia basada en datos. Víctima de su propio éxito, este mercado ha atraído a numerosos actores de mercados adyacentes.

 Estos actores han reajustado su posicionamiento comercial para presentarse como soluciones de catálogos de datos.

La realidad es que, aunque relativamente débiles en cuanto a las funcionalidades del catálogo de datos en sí, estas empresas intentan convencer, con grados de éxito proporcionales a sus presupuestos de marketing, de que un catálogo de datos no es simplemente una herramienta de búsqueda de alto rendimiento para los equipos de datos, sino una solución integrada susceptible de abordar una gran cantidad de otros temas.

El objetivo de esta serie de blogs es deconstruir el discurso de estos proveedores de catálogos de datos de última hora.

Un catálogo de datos NO es una solución de consulta

He aquí otra rareza del mercado de los catálogos de datos. Varios proveedores, cuyo objetivo inicial era permitir a los usuarios consultar simultáneamente varias fuentes de datos, han "pivotado" hacia un posicionamiento de Catálogo de Datos en el mercado.

Hay una razón para que pivoten.

La aparición de los Data Lakes y el Big Data les ha arrinconado en un callejón sin salida tecnológico que ha debilitado el segmento de mercado en el que se encontraban inicialmente.

Un Data Lake suele segmentarse en varias capas. La capa "bruta" integra datos sin transformar, en formatos más o menos estructurados y en grandes cantidades; una segunda capa, que llamaremos "limpia", contendrá aproximadamente los mismos datos pero en formatos normalizados, tras un desempolvado. Después, puede haber una o varias capas "empresariales" listas para su uso: Un almacén de datos y una herramienta de visualización para análisis, un clúster Spark para ciencia de datos, un sistema de almacenamiento para distribución comercial, etc. Dentro de estas capas, los datos se transforman, agregan y optimizan para su uso, junto con las herramientas que apoyan este uso (herramientas de visualización de datos, cuadernos, procesamiento masivo, etc.).

En este panorama, una herramienta de consulta universal de autoservicio no es adecuada.

Por supuesto, es posible establecer una capa de interpretación SQL sobre la capa "limpia" (como Hive), pero la ejecución de consultas sigue siendo un dominio para especialistas. Los volúmenes de datos son enormes y rara vez están indexados.

Permitir que los usuarios definan sus propias consultas es muy arriesgado: en los sistemas on-prem, corren el riesgo de colapsar el clúster ejecutando una consulta muy cara. Y en la nube, la factura puede ser muy alta. Por no hablar de los problemas de seguridad y sensibilidad de los datos.

En cuanto a las capas "empresariales", suelen ir unidas a soluciones más especializadas (como una combinación de Snowflake y Tableau para análisis) que ofrecen herramientas muy completas y seguras, con un gran rendimiento para consultas de autoservicio. Con su espacio de mercado reduciéndose como la nieve al sol, algunos proveedores de consultas multifuente han pivotado hacia los Catálogos de Datos.

Su objetivo ahora es convencer a los clientes de que la capacidad de ejecutar consultas convierte a su solución en el Rolls-Royce de los catálogos de datos (para justificar su precio de seis cifras). Le invitamos a que se lo piense dos veces.

Para llevar

En una arquitectura de datos moderna, la capacidad de ejecutar consultas a partir de un catálogo de datos no sólo es innecesaria, sino también muy arriesgada (rendimiento, coste, seguridad, etc.).

Los equipos de datos ya tienen sus propias herramientas para ejecutar consultas sobre los datos y, si no las tienen, puede ser una buena idea equiparlas. Integrar los problemas de acceso a los datos en el despliegue de un catálogo es la forma más segura de convertirlo en un proyecto largo, costoso y decepcionante.

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, cubrimos temas que van desde la ingestión de datos en tiempo real hasta el análisis impulsado por IA.