Guía para la gestión de la calidad de los datos #4 - Contribución del catálogo de datos a la GCD
Resumen
- Un catálogo de datos no es una herramienta completa de gestión de la calidad de los datos y no debe sustituir a los controles de calidad en la fuente ni en los flujos de transformación.
- Su función consiste en contribuir indirectamente a la calidad de los datos mejorando la claridad, la trazabilidad, la disponibilidad y la visibilidad de los metadatos relacionados con la calidad.
- Los controles de calidad son más eficaces cuando se aplican en una fase temprana de los sistemas de origen y los procesos, donde los problemas pueden corregirse con un menor coste.
- Cuando los entornos de datos se vuelven más complejos, se necesitan herramientas especializadas de gestión de la calidad de los datos (DQM) para gestionar la calidad en todos los sistemas y transformaciones.
- El mejor enfoque es gradual: mejorar los controles del sistema de origen, utilizar un catálogo de datos para ganar visibilidad y comprender mejor la información, e integrar herramientas de calidad especializadas cuando sea necesario.
La calidad de los datos se refiere a la capacidad de una organización para mantener la calidad de sus datos de forma oportuna. Si nos atenemos a lo que dicen algunos profesionales del sector, mejorar la calidad de los datos es la panacea para todos nuestros problemas empresariales y, por lo tanto, debería ser la máxima prioridad.
Creemos que hay que matizar esto: la calidad de los datos es un medio, entre otros, para reducir las incertidumbres a la hora de alcanzar los objetivos corporativos.
En esta serie de artículos, repasaremos todo lo que los profesionales de los datos necesitan saber sobre la gestión de la calidad de los datos (DQM):
- Las nueve dimensiones de la calidad de los datos
- Retos y riesgos asociados a la calidad de los datos
- Principales características de las herramientas de gestión de la calidad de los datos
- La contribución del catálogo de datos a DQM
Un catálogo de datos no es una herramienta DQM
Un elemento esencial es que un catálogo de datos no debe considerarse una herramienta de gestión de la calidad de los datos per se.
En primer lugar, uno de los principios básicos de la calidad de los datos es que los controles deben realizarse en el sistema de origen. Ejecutar estos controles únicamente en el catálogo de datos -en lugar de en la fuente y el flujo de transformación de datos- aumenta el coste global de la empresa.
Además, un catálogo de datos debe ser a la vez exhaustivo y menos intrusivo para facilitar su rápida implantación en la empresa. Esto es sencillamente incompatible con la naturaleza compleja de la transformación de datos y la multitud de herramientas utilizadas para llevar a cabo estas transformaciones.
Por último, un catálogo de datos debe seguir siendo una herramienta sencilla de entender y utilizar.
¿Cómo contribuye un catálogo de datos a la GCD?
Aunque el catálogo de datos no es una herramienta de Calidad de Datos, su contribución al mantenimiento de la Calidad de Datos es, no obstante, sustancial. He aquí cómo:
- Un catálogo de datos permite a los consumidores de datos comprender fácilmente los metadatos y evitar interpretaciones peligrosas de los datos. Se hace eco de la dimensión de claridad de la calidad;
- Un catálogo de datos ofrece una visión centralizada de todos los datos empresariales disponibles. La información sobre la calidad de los datos son, por tanto, metadatos como cualquier otro que aportan valor y deben ponerse a disposición de todos. Son fáciles de interpretar y extraer, un eco de las dimensiones de exactitud, validez, coherencia, unicidad, exhaustividad y actualidad.
- Un catálogo de datos tiene capacidades de trazabilidad de datos (Data Lineage), haciéndose eco de la dimensión de trazabilidad de la calidad;
- Un catálogo de datos suele permitir el acceso directo a las fuentes de datosde datos, haciéndose eco de la dimensión de disponibilidad de la calidad.
La estrategia de aplicación de la DQM
En la siguiente tabla se detalla cómo se tiene en cuenta la Calidad de los Datos en función de las distintas soluciones existentes en el mercado:

Como se ha mencionado anteriormente, las pruebas de calidad deberían realizarse, por defecto, directamente en el sistema de origen. La integración de las pruebas de calidad en un catálogo de datos puede mejorar la experiencia del usuario, pero no es imprescindible, dadas sus limitaciones, ya que la calidad de los datos no está integrada en el flujo de transformación.
Dicho esto, cuando las estructuras de datos se vuelven demasiado complejas y necesitamos, por ejemplo, consolidar datos de diferentes sistemas con distintas reglas funcionales, el uso de una herramienta de control de calidad de datos se vuelve imprescindible.
La estrategia de implantación dependerá de los casos de uso y de los objetivos de la empresa. No obstante, es conveniente implantar la calidad de datos de forma gradual:
- Asegúrese de que los sistemas de origen hayan implementado las normas de calidad pertinentes.
- Implantar un catálogo de datos para mejorar la calidad en las dimensiones de claridad, trazabilidad y/o disponibilidad;
- Integre la Calidad de Datos en los flujos de transformación con una herramienta especializada, al tiempo que importa esta información automáticamente en el catálogo de datos a través de APIs.
Conclusión
La calidad de los datos se refiere a la capacidad de una empresa para mantener la sostenibilidad de sus datos a lo largo del tiempo. La definimos a través del prisma de nueve de las sesenta dimensiones descritas por DAMA International: exhaustividad, exactitud, validez, unicidad, coherencia, actualidad, trazabilidad, claridad y disponibilidad.
Como proveedor de catálogos de datos, rechazamos la idea de que un catálogo de datos sea una herramienta de gestión de la calidad en toda regla. De hecho, es sólo una de las diversas formas de contribuir a la mejora de la Calidad de los Datos, especialmente a través de las dimensiones de claridad, disponibilidad y trazabilidad.
Obtenga el eBook