Inteligencia de datos

Guía para la gestión de la calidad de datos nº 1 - Las 9 dimensiones de la calidad de datos

Corporación Actian

1 de abril de 2022

Las 9 dimensiones de la calidad de los datos

La calidad de los datos se refiere a la capacidad de una organización para mantener la calidad de sus datos a lo largo del tiempo. Si tomáramos la palabra a algunos profesionales de los datos, mejorar la Calidad de los Datos es la panacea para todos nuestros males empresariales y, por tanto, debería ser la máxima prioridad. 

Creemos que esto debe matizarse: La calidad de los datos es un medio, entre otros, de limitar las incertidumbres en el cumplimiento de los objetivos de las empresas. 

En esta serie de artículos, repasaremos todo lo que los profesionales de los datos necesitan saber sobre la gestión de la calidad de los datos (DQM):

    1. Las nueve dimensiones de la calidad de los datos
    2. Retos y riesgos asociados a la calidad de los datos
    3. Principales características de las herramientas de gestión de la calidad de los datos
    4. Contribución del Catálogo de Datos a DQM

Algunas definiciones de calidad de datos

Si pedimos a los analistas o ingenieros de datos una definición de la calidad de los datos, obtendremos respuestas muy diferentes, incluso dentro de la misma empresa, entre perfiles similares. Algunos, por ejemplo, se centrarán en la unidad de los datos, mientras que otros preferirán hacer referencia a la normalización. Usted puede tener su interpretación.

La norma ISO 9000-2015 define la calidad como "la capacidad de un conjunto de características intrínsecas para satisfacer los requisitos".

DAMA International (The Global Data Management Community) -una asociación internacional líder en la que participan profesionales de la gestión de datos tanto empresariales como técnicos- adapta esta definición al contexto de los datos: "La calidad de los datos es el grado en que las dimensiones de los datos cumplen los requisitos".

El enfoque dimensional de la calidad de los datos

Desde una perspectiva operativa, la Calidad de Datos se traduce en lo que denominamos dimensiones de la calidad de los datosen las que cada dimensión se refiere a un aspecto específico de la calidad.

Las 4 dimensiones más utilizadas suelen ser la exhaustividad, la exactitud, la validez y la disponibilidad. En la literatura, existen muchas dimensiones y diferentes criterios para describir la Calidad de los Datos. Sin embargo, no hay consenso sobre cuáles son realmente estas dimensiones.

Por ejemplo, DAMA enumera sesenta dimensiones, cuando la mayoría de los proveedores de software de gestión de calidad de datos (DQM) suelen ofrecer cinco o seis.

Las nueve dimensiones de la calidad de los datos

En Zeenea creemos que el compromiso ideal es tener en cuenta nueve dimensiones de la Calidad de los Datos: integridad, exactitud, validez, unicidad, coherencia, actualidad, trazabilidad, claridad y disponibilidad.

Ilustraremos estas nueve dimensiones y los distintos conceptos a los que nos referimos en esta publicación con un ejemplo sencillo:

Arthur se encarga de enviar campañas de marketing a clientes y posibles clientes para presentar las últimas ofertas de su empresa. Sin embargo, se encuentra con ciertas dificultades:

  • A veces, Arthur envía comunicaciones a las mismas personas varias veces.
  • Los correos electrónicos facilitados en su CRM no suelen ser válidos.
  • Los clientes potenciales y los clientes no siempre reciben el contenido adecuado.
  • Algunas informaciones relativas a las perspectivas son obsoletas.
  • Algunos clientes reciben correos electrónicos con calificaciones de género erróneas.
  • Hay dos direcciones para clientes/prospectos, pero es difícil entender a qué se refieren.
  • No conoce el origen de algunos de los datos que utiliza ni cómo puede acceder a su fuente.

A continuación se presentan los datos que Arthur tiene a mano para sus esfuerzos de venta. Los utilizaremos para ilustrar cada una de las nueve dimensiones de la Calidad de los Datos:

1. Integridad

¿Están completos los datos? ¿Falta información? El objetivo de esta dimensión es identificar los datos vacíos, nulos o que faltan. En este ejemplo, Arthur se da cuenta de que faltan direcciones de correo electrónico:

Para remediarlo, podría intentar averiguar si otros sistemas disponen de la información necesaria. Arthur también podría pedir a los especialistas en datos que introdujeran manualmente las direcciones de correo electrónico que faltan.

2. Precisión

¿Son coherentes los valores existentes con los datos reales, es decir, los que encontramos en el mundo real?

Arthur se ha dado cuenta de que algunas cartas enviadas a clientes importantes son devueltas debido a direcciones postales incorrectas. A continuación, podemos ver que una de las direcciones no coincide con los formatos de dirección estándar en el mundo real:

En este caso, podría ser útil que Arthur utilizara servicios de verificación de direcciones postales.

3. Validez

¿Se ajustan los datos a la sintaxis de su definición? El objetivo de esta dimensión es garantizar que los datos se ajustan al modelo de una norma concreta.

Arthur se ha dado cuenta de que recibe regularmente mensajes rebotados. Otro problema es que algunos prospectos/clientes no reciben el contenido adecuado porque no han sido calificados correctamente. Por ejemplo, la dirección de correo electrónico annalincoln@apple no tiene el formato correcto y el tipo de cliente no es correcto.

Para resolver este problema, podría, por ejemplo, asegurarse de que los valores de Tipo de cliente forman parte de una lista de valores de referencia (Cliente o Cliente potencial) y de que las direcciones de correo electrónico se ajustan a un formato específico.

4. Coherencia

¿Se ajustan los distintos valores de un mismo registro a una norma determinada? El objetivo es garantizar la coherencia de los datos entre varias columnas.

Arthur se ha dado cuenta de que algunos de sus clientes varones se quejan de recibir correos electrónicos en los que se refieren a ellos como Señorita. Parece que hay una incoherencia entre las columnas Género y Título de Lino Rodrigez.

Para resolver este tipo de problemas, es posible crear una regla lógica que garantice que cuando el id Género sea Masculino, el título debe ser Señor.

5. Puntualidad

¿Es adecuado el lapso de tiempo entre la creación de los datos y su disponibilidad? El objetivo es garantizar que los datos sean accesibles en el menor tiempo posible.

Arthur se ha dado cuenta de que cierta información sobre clientes potenciales no siempre está actualizada porque los datos son demasiado antiguos. Como norma de la empresa, no se pueden utilizar los datos de un cliente potencial que tengan más de 6 meses.

Podría resolver este problema creando una regla que identifique y excluya los datos demasiado antiguos. Una alternativa sería aprovechar esta misma información en otro sistema que contenga datos más frescos.

6. Singularidad

¿Hay registros duplicados? El objetivo es garantizar que los datos no estén duplicados.

Arthur se dio cuenta de que enviaba varias veces las mismas comunicaciones a las mismas personas. Lisa Smith, por ejemplo, está duplicada en la carpeta:

En este ejemplo simplificado, los datos duplicados son idénticos. Algoritmos más avanzados como Jaro, Jaro-Winkler o Levenshtein, por ejemplo, pueden reagrupar los datos duplicados con mayor precisión.

7. Claridad

¿Es fácil entender los metadatos para el consumidor de datos? El objetivo es comprender el significado de los datos y evitar interpretaciones.

Arthur tiene dudas sobre las dos direcciones indicadas, ya que no es fácil entender lo que representan. Los nombres Dirección 1 y Dirección 2 son susceptibles de interpretación y deberían modificarse, si es posible.

Renombrar dentro de una base de datos suele ser una operación complicada y debe documentarse correctamente con al menos una descripción.

8. Trazabilidad

¿Es posible obtener la trazabilidad de los datos? El objetivo es llegar al origen de los datos, junto con las transformaciones que hayan podido sufrir.

Arthur no sabe realmente de dónde proceden los datos ni dónde puede acceder a las fuentes de datos. Habría sido muy útil para él saberlo, ya que se habría asegurado de que el problema se solucionaba en su origen. Habría necesitado saber que los datos que utiliza con su herramienta de marketing proceden de los datos del almacén de datos de la empresa, que a su vez proceden de la herramienta CRM.

9. Disponibilidad

¿Cómo puede el usuario consultar o recuperar los datos? El objetivo es facilitar el acceso a los datos.

Arthur no sabe cómo acceder fácilmente a los datos de origen. Siguiendo con el esquema anterior, quiere acceder sin esfuerzo a los datos del almacén de datos o de la herramienta CRM.

En algunos casos, Arthur tendrá que presentar una solicitud formal para acceder directamente a esta información.

Obtenga nuestra Guía de gestión de calidad de datos para organizaciones basadas en datos

Para más información sobre Calidad de Datos y DQM, descargue nuestra guía gratuita: "Guía para la gestión de la calidad de datos".

logo avatar actian

Acerca de Actian Corporation

Actian hace que trabajar con datos sea fácil. Nuestra plataforma de datos simplifica la forma en que las personas conectan, gestionan y analizan datos en entornos cloud, híbridos y locales. Con décadas de experiencia en gestión y analítica de datos, Actian ofrece soluciones de alto rendimiento que ayudan a las empresas a tomar decisiones basadas en datos. Estamos reconocidos por los principales analistas del sector y hemos recibido premios por nuestro rendimiento e innovación. Nuestros equipos comparten casos de éxito en conferencias (como Strata Data) y contribuyen activamente a proyectos de código abierto. En el blog de Actian tratamos temas como la ingesta de datos en tiempo real, el análisis de datos, la gobernanza y gestión de datos, la calidad de los datos, la inteligencia de datos y el análisis impulsado por IA.