Inteligencia de datos

7 mentiras de los catálogos de datos nº 2: no son una solución de calidad

Corporación Actian

21 de junio de 2021

calidad de los datos

El mercado de los catálogos de datos se ha desarrollado rápidamente, y ahora se considera esencial a la hora de desplegar una estrategia basada en datos. Víctima de su propio éxito, este mercado ha atraído a varios actores de mercados adyacentes.

 Estos actores han reajustado su posicionamiento comercial para presentarse como soluciones de catálogos de datos.

La realidad es que, aunque relativamente débiles en cuanto a las funcionalidades del catálogo de datos en sí, estas empresas intentan convencer, con grados de éxito proporcionales a sus presupuestos de marketing, de que un catálogo de datos no es simplemente una herramienta de búsqueda de alto rendimiento para los equipos de datos, sino una solución integrada susceptible de abordar una gran cantidad de otros temas.

El objetivo de esta serie de blogs es deconstruir el discurso de estos proveedores de catálogos de datos de última hora.

Un catálogo de datos NO es una solución de gestión de la calidad de los datos (DQM)

No hay que subestimar la importancia de la calidad de los datos para llevar a buen puerto un proyecto de datos, sino todo lo contrario. Simplemente me parece absurdo poner esto en manos de una solución que, por su propia naturaleza, no puede realizar los controles en el momento adecuado.

Nos explicamos: Hay una regla muy elemental en el control de calidad, una regla que puede aplicarse prácticamente en cualquier ámbito en el que la calidad sea un problema, ya sea una cadena de producción industrial, el desarrollo de software o la cocina de un restaurante de 5 estrellas: Cuanto antes se detecte el problema, menos costará corregirlo.

Para demostrarlo, es improbable que un fabricante de automóviles se abstenga de probar la batería de un vehículo nuevo hasta después de su fabricación, cuando ya se ha incurrido en todos los costes de producción y la solución de un defecto sería lo más costoso. No. Cada pieza se controla minuciosamente, cada paso de la producción se somete a pruebas, las piezas defectuosas se retiran antes de integrarse en el circuito de producción y toda la cadena de producción puede detenerse si se detectan problemas de calidad en cualquier fase. Los problemas de calidad se corrigen en la fase más temprana posible del proceso de producción, donde son menos costosos y más duraderos.

"En una organización de datos moderna, la producción de datos se basa en los mismos principios. Se trata de una cadena de montaje cuyo objetivo es proporcionar al usuario un alto valor añadido. El control de calidad y la corrección deben producirse en cada paso. La naturaleza y el nivel de los controles dependerán de para qué se utilicen los datos".

Si maneja datos, es obvio que dispone de pipelines para alimentar sus usos. Estas canalizaciones pueden implicar decenas de pasos: adquisición de datos, limpieza de datos, transformaciones diversas, mezcla de varias fuentes de datos, etc.

Para desarrollar estos pipelines, probablemente disponga de varias tecnologías en juego, desde scripts internos hasta costosos ETL y exóticas herramientas de middleware. Es dentro de esos pipelines donde necesita insertar y pilotar su control de calidad, lo antes posible, adaptándolos a lo que está en juego con el producto final. Medir los niveles de calidad de los datos sólo al final de la cadena no sólo es absurdo, sino totalmente ineficaz.

Por tanto, es difícil ver cómo un catálogo de datos (cuya finalidad es inventariar y documentar todos los conjuntos de datos potencialmente utilizables para facilitar su descubrimiento y uso) puede ser una herramienta útil para medir y gestionar la calidad.

Un catálogo de datos funciona con los conjuntos de datos disponibles, en cualquier sistema que contenga datos, y debe ser lo menos invasivo posible para poder implantarse rápidamente en toda la organización.

Una solución DQM trabaja sobre la alimentación de datos (los pipelines), se centra en los datos de producción y es, por diseño, intrusiva y lenta de desplegar. No se me ocurre ninguna arquitectura de software que pueda abordar ambos problemas sin comprometer la calidad de ninguno de ellos.

Los proveedores de catálogos de datos que prometen resolver sus problemas de calidad de datos están, en nuestra opinión, en un aprieto y parece poco probable que puedan ir más allá de una demostración "vendedora".

En cuanto a los proveedores de DQM (que también suelen vender ETL), sus soluciones suelen ser demasiado complejas y costosas para desplegarlas como catálogos de datos creíbles.

La buena noticia es que la naturaleza ortogonal de la calidad de datos y la catalogación de datos facilita la coexistencia de soluciones especializadas en cada ámbito sin invadir el carril de la otra.

De hecho, aunque un catálogo de datos no está pensado para el control de calidad, puede explotar la información sobre la calidad de los conjuntos de datos que contiene, lo que obviamente aporta muchas ventajas.

El catálogo de datos utiliza estos metadatos, por ejemplo, para compartir la información (y las posibles alertas que pueda identificar) con los consumidores de datos. El catálogo puede beneficiarse de esta información para ajustar su motor de búsqueda y recomendación y, así, orientar a otros usuarios hacia conjuntos de datos de mayor calidad.

Y ambas soluciones pueden integrarse a bajo coste con un par de API aquí y allá.

Para llevar

La calidad de los datos debe evaluarse lo antes posible en la cadena de alimentación.

El papel del Catálogo de Datos no es hacer controles de calidad, sino compartir en la medida de lo posible los resultados de estos controles. Por su naturaleza, los catálogos de datos son malas soluciones de DQM, y las soluciones de DQM son catálogos de datos mediocres y demasiado complejos.

La integración entre una solución DQM y un catálogo de datos es muy sencilla y constituye el enfoque más pragmático.

logo avatar actian

Acerca de Actian Corporation

Actian hace que trabajar con datos sea fácil. Nuestra plataforma de datos simplifica la forma en que las personas conectan, gestionan y analizan datos en entornos cloud, híbridos y locales. Con décadas de experiencia en gestión y analítica de datos, Actian ofrece soluciones de alto rendimiento que ayudan a las empresas a tomar decisiones basadas en datos. Estamos reconocidos por los principales analistas del sector y hemos recibido premios por nuestro rendimiento e innovación. Nuestros equipos comparten casos de éxito en conferencias (como Strata Data) y contribuyen activamente a proyectos de código abierto. En el blog de Actian tratamos temas como la ingesta de datos en tiempo real, el análisis de datos, la gobernanza y gestión de datos, la calidad de los datos, la inteligencia de datos y el análisis impulsado por IA.