¿Qué métricas se deben usar para observabilidad de los datos?

#IA #Inteligencia de datos #Observabilidad de datos

#IA #Inteligencia de datos #Observabilidad de datos

Resumen

Las métricas de observabilidad de datos proporcionan señales de alerta temprana, pistas sobre las causas fundamentales y confianza para el análisis y la inteligencia artificial.
Realice un seguimiento de los cinco pilares: frescura, calidad, volumen, esquema y linaje para cubrir los fallos de datos más comunes.
Las métricas de frescura y volumen detectan retrasos, cargas perdidas y picos repentinos antes de que las partes interesadas vean los paneles de control defectuosos.
Las métricas de calidad + esquema señalan aumentos repentinos de valores nulos, duplicados, formatos no válidos y cambios importantes en campos/tipos.
Las métricas de Lineage + ops revelan el radio de impacto, reducen el MTTR y conectan las alertas con los flujos de trabajo de incidentes.

Los datos se han convertido en el alma de las organizaciones modernas. Sin embargo, a medida que el volumen, la velocidad y la complejidad de los datos aumentan en los canales, las plataformas y los equipos, garantizar que los datos sigan siendo precisos, fiables y estén disponibles se ha vuelto cada vez más difícil. La observabilidad de los datos tiene como objetivo resolver este problema proporcionando a los equipos una visibilidad completa del estado de sus sistemas de datos.

En el núcleo de la observabilidad de los datos se encuentran las métricas: señales cuantificables que ayudan a los ingenieros, analistas y responsables de datos a detectar anomalías, identificar problemas y mejorar la confianza en sus datos.

Por qué las métricas son importantes en la observabilidad de los datos

La observabilidad de los datos se define a menudo como la capacidad de una organización para comprender el estado de sus datos en los procesos, el almacenamiento, las transformaciones y las aplicaciones. Pero la observabilidad no consiste solo en supervisar paneles de control o responder a alertas. Requiere una medición continua y cuantificable.

Las métricas proporcionan a los equipos:

Señales de alerta temprana antes de que los datos erróneos lleguen a las partes interesadas.
Información sobre las causas fundamentales cuando fallan las tuberías.
Confianza en que los análisis, los modelos de IA y los paneles de control se basan en información fiable.
Eficiencia operativa mediante la reducción de la validación manual de datos.
Apoyo a la gobernanza mediante controles medibles e indicadores de cumplimiento.

En otras palabras, las métricas transforman la observabilidad de los datos de un conjunto reactivo de comprobaciones en una disciplina proactiva basada en la inteligencia.

El marco de los cinco pilares para las métricas de observabilidad de datos

Muchas organizaciones basan sus métricas en los cinco pilares ampliamente aceptados de la observabilidad de los datos:

Frescura
Calidad
Volumen
Linaje
Esquema

Estos pilares clasifican los tipos de problemas que suelen encontrarse en los sistemas de datos. Pero dentro de cada pilar hay métricas específicas y aplicables que ofrecen una imagen más clara del estado de los datos.

1. Métricas de frescura

Las métricas de frescura miden si los datos se actualizan a tiempo y dentro de los intervalos esperados. Los datos obsoletos o retrasados pueden socavar los paneles de control, los modelos de aprendizaje automático y las decisiones empresariales.

Latencia

La latencia mide el tiempo transcurrido entre el momento en que se espera la llegada de los datos y el momento en que realmente llegan.

Por qué es importante: los datos retrasados pueden provocar conclusiones erróneas, especialmente en el análisis operativo o en tiempo real.
Cómo medir: Compare las marcas de tiempo de ingestión reales con los valores esperados del SLA.

Índice de cumplimiento del SLA

Esta métrica realiza un seguimiento de la frecuencia con la que los datos cumplen sus SLA de actualidad. Se utiliza para comprender las tendencias de fiabilidad en las canalizaciones a lo largo del tiempo.

Lo que revelan las métricas de frescura

Retrasos en el oleoducto.
Fallos de registro o ingestión.
Problemas de integración con fuentes de datos de terceros.
Fallas en las tareas programadas o en la coordinación.

Los problemas de frescura suelen ser la primera señal de que algo va mal, lo que convierte a estas métricas en algunas de las más importantes.

2. Métricas de calidad

Las métricas de calidad de los datos evalúan la corrección, coherencia, integridad y validez de los datos. Ayudan a los equipos a detectar rápidamente anomalías o inexactitudes.

Integridad

Esta métrica mide el porcentaje de valores no nulos o no faltantes. Los valores faltantes suelen indicar problemas en fases anteriores, uniones incorrectas o interrupciones del sistema.

Precisión

La precisión es una evaluación de la coincidencia entre los datos y la realidad o los patrones esperados. Veamos un ejemplo: un sensor de temperatura que registra constantemente valores imposibles revela que hay un mal funcionamiento del sensor.

cohérence

La coherencia garantiza que los datos de todos los sistemas coincidan con las relaciones o reglas esperadas.

Ejemplos:
- Las relaciones de clave externa se mantienen.
- No se crean ID de usuario duplicados.
- Los valores de ingresos coinciden en todos los paneles de BI.

Validez

Al evaluar la validez, se comprueba si los datos se ajustan a los formatos, tipos o rangos especificados.

Ejemplos:
- Los correos electrónicos contienen «@».
- Las fechas son válidas.
- Los campos numéricos se encuentran dentro de los rangos permitidos.

Singularidad

Las métricas de unicidad comprueban si hay duplicaciones o redundancias. Esto resulta útil para la resolución de identidades, los conjuntos de datos fusionados y los casos de uso de Customer 360.

KPI de calidad personalizados

Muchos equipos definen métricas específicas del dominio, como las siguientes:

Validez de la puntuación de fraude.
Desviación de características de ML.
Tasas de desajuste del inventario de la cadena de suministro.

Lo que revelan las métricas de calidad

Corrupción de datos.
Transformaciones incorrectas.
Picos nulos inesperados.
Registros duplicados.
Fuentes de terceros fallidas.
Violaciones del esquema.

Las métricas de calidad son la columna vertebral de cualquier implementación de observabilidad, ya que afectan directamente a la precisión de la toma de decisiones.

3. Métricas de volumen

Las métricas de volumen muestran si la cantidad adecuada de datos fluye a través de las tuberías. Una cantidad insuficiente o excesiva de datos puede ser igualmente problemática.

Recuento de filas (o recuento de registros)

La comparación de los recuentos con los valores históricos de referencia pone de relieve las caídas o aumentos repentinos.

Ejemplo: una tabla de marketing suele procesar 100 000 eventos diarios, pero hoy solo tiene 2000. Algo va mal.

Recuento de archivos o tamaño del lote

Esta métrica es útil para sistemas de procesamiento por lotes como Hadoop o Spark.

Tamaño de los datos

Esta métrica realiza un seguimiento de si los tamaños generales de almacenamiento y procesamiento son los esperados. Los picos pueden indicar un procesamiento duplicado o registros descontrolados. Las caídas podrían indicar la pérdida de datos.

Rendimiento de datos

El rendimiento mide los datos que fluyen por segundo, minuto y/o hora. Es fundamental para plataformas de streaming como Kafka, Flink o Kinesis.

Lo que revelan las métricas de volumen

Cuellos de botella en las tuberías.
Cargas de datos incompletas.
Sensores o emisores de eventos defectuosos.
Ingestión duplicada.
Inflación de datos debido a errores o valores inesperados.

Las métricas de volumen son esenciales para garantizar la integridad y detectar patrones o fallos en todo el sistema.

4. Métricas del esquema

Las métricas de esquema supervisan la estructura de los datos (sus campos, tipos, restricciones y relaciones). Los cambios inesperados en el esquema se encuentran entre las causas más comunes de fallos en el proceso.

Cambios en el recuento de campos

Los campos nuevos, que faltan o que han cambiado de nombre pueden interrumpir los trabajos de ETL y los paneles de control posteriores.

Cambios en el tipo de datos

Un cambio de entero a cadena o de marca de tiempo a texto puede impedir que se ejecuten las consultas.

Violaciones de restricciones

Algunos ejemplos son:

Faltan claves primarias.
Restricciones únicas rotas.
Discrepancias en las claves externas.
Los valores de la enumeración se expanden de forma inesperada.

Cambios en la distribución

El seguimiento de las distribuciones esperadas para los campos ayuda a detectar:

Valores atípicos
Sesgo
Desviación de datos

Lo que revelan las métricas de esquema

Actualizaciones de la versión de la API.
Cambios no anunciados por parte de los equipos superiores.
Ingesta de datos corruptos.
Recalibración o reconfiguración del sensor.

Las métricas de esquema son fundamentales para garantizar la estabilidad estructural y la compatibilidad entre los procesos.

5. Métricas de linaje

Las métricas de linaje de datos proporcionan visibilidad sobre cómo fluyen los datos a través de los sistemas, las transformaciones y las dependencias.

Aunque el linaje se suele considerar un gráfico estático, también se puede medir de forma dinámica.

Tasa de fallos aguas arriba

Esto registra la frecuencia con la que las fuentes ascendentes causan problemas descendentes.

Latencia por dependencia de canalización

La latencia por dependencia de canalización es una medida de los retrasos introducidos por las dependencias ascendentes.

Duración de la etapa de transformación

Comprender la duración de cada paso de la transformación es útil para entender dónde surgen los cuellos de botella a lo largo del proceso.

Radio de impacto

El radio de impacto identifica cuántos activos posteriores se ven afectados cuando falla una tabla o un trabajo.

Por qué son importantes las métricas de linaje

Ayuda a los equipos a clasificar rápidamente los incidentes relacionados con los datos.
Apoya la gobernanza y el cumplimiento normativo.
Garantiza la transparencia operativa en todos los sistemas.
Reduce el tiempo medio de resolución (MTTR).

Las métricas de linaje ayudan a las organizaciones no solo a observar, sino también a comprender sus sistemas de datos.

Métricas operativas entre pilares

Más allá de los cinco pilares, varias métricas operativas son cada vez más importantes para los programas de observabilidad de datos.

1. Métricas de estado de las tuberías

Índices de éxito/fracaso.
Variabilidad en la duración del trabajo.
Recuento de reintentos de tareas.

2. Métricas de alerta

Frecuencia de alerta.
Tasa de verdaderos positivos frente a tasa de falsos positivos.
Tiempo medio entre alertas.
Cumplimiento del acuerdo de nivel de servicio (SLA) para la resolución de alertas.

3. Métricas de fiabilidad de la plataforma

Tasas de error de la API.
Latencia de consulta.
Utilización de recursos (CPU, memoria, E/S).

4. Métricas de confianza del usuario

Las organizaciones miden cada vez más la fiabilidad de los datos desde la perspectiva del usuario. Esto incluye métricas como:

Puntuación de frescura del panel de control.
Encuestas de satisfacción de los consumidores de datos.
Incidentes notificados por los equipos comerciales.

Estas métricas operativas ayudan a garantizar que el buen funcionamiento técnico de los sistemas de datos se ajuste a las necesidades empresariales.

Cómo implementar métricas de observabilidad de datos de manera eficaz

Conocer las métricas adecuadas es solo el principio. Una implementación eficaz requiere estrategia y procesos.

1. Todo lo básico

Las bases de referencia históricas son esenciales porque lo «normal» varía según el conjunto de datos, la unidad de negocio y la estacionalidad.

Utilice promedios móviles.
Segmentar las líneas de base por horas laborables frente a horas no laborables.
Tenga en cuenta los ciclos diarios/semanales/estacionales.

2. Automatizar la supervisión

Las comprobaciones manuales no son escalables. Las plataformas de observabilidad modernas automatizan este proceso realizando lo siguiente:

Seguimiento continuo de métricas.
Detección de anomalías mediante modelos de aprendizaje automático.
Activación automática de alertas.
Integración con procesos de CI/CD.

3. Establecer prioridades en función del impacto en el negocio

No todos los activos de datos merecen el mismo nivel de observabilidad.

Clasifica los activos de la siguiente manera:

Nivel 1: crítico para la misión (funciones de aprendizaje automático, datos financieros).
Nivel 2: importante, pero no urgente.
Nivel 3: impacto bajo.

4. Integrar Lineage con métricas

La observabilidad basada en el linaje acelera el análisis de la causa raíz.

Consideremos este ejemplo: una caída repentina del volumen y un cambio en el esquema ascendente permiten identificar al posible culpable al instante.

5. Cerrar el ciclo con la gestión de incidentes

Vincula las métricas de observabilidad con:

Alertas de Slack o Teams.
Tickets de Jira o ServiceNow.
Procesos de rotación de guardias.

Asegúrate de que cada alerta conduzca al aprendizaje y a la mejora del sistema.

Ejemplos de métricas en la observabilidad de datos del mundo real

Dediquemos un momento a ver algunos ejemplos reales de métricas de observabilidad de datos en acción.

Comercio electrónico

Las métricas de volumen detectan que los pedidos diarios han caído inesperadamente, lo que indica un fallo en el sistema de pago.
Las métricas de frescura revelan retrasos en las actualizaciones del procesador de pagos.
Las métricas de linaje identifican que la tabla afectada alimenta el panel de control de ingresos, lo que evita que los datos erróneos lleguen a los ejecutivos.

Sanidad

Las métricas de calidad detectan grandes picos en la falta de datos vitales de los pacientes debido a dispositivos médicos mal configurados.
Las métricas de esquema detectan un cambio en el tipo de datos en una fuente de resultados de laboratorio.
Las métricas operativas realizan un seguimiento de los fallos de API entre EMR y los sistemas de análisis.

Tecnología financiera

Las métricas de frescura garantizan que los modelos de detección de fraudes reciban datos de transacciones en tiempo real.
Las métricas de validez comprueban que los importes de las transacciones se mantengan dentro de límites plausibles.
Las métricas de linaje respaldan las auditorías de cumplimiento al mostrar exactamente cómo se transforman los datos financieros.

La plataforma de inteligencia de datos Actian está a la vanguardia de la observabilidad de datos.

Las métricas son la base de la observabilidad de los datos. Proporcionan las señales cuantificables y objetivas que las organizaciones necesitan para garantizar que los datos sean actuales, precisos, coherentes y fiables. Al centrarse en los cinco pilares y en las métricas operativas y centradas en el usuario clave, las organizaciones pueden obtener una visibilidad profunda de su ecosistema de datos.

Actian Data Intelligence Platform optimiza la observabilidad de los datos, lo que ayuda a garantizar que los datos de una organización sean fiables y precisos en todo momento. Para descubrir cómo la plataforma puede ayudarle a transformar la forma en que protege, utiliza, descubre, gestiona y activa sus datos, solicite hoy mismo una demostración personalizada.

Acerca del autor

Acerca de Actian Corporation

Actian ayuda a las empresas a gestionar y gobernar sus datos con total confianza, incluso a gran escala. Las organizaciones confían en las soluciones de gestión e inteligencia de datos de Actian para simplificar entornos complejos y acelerar la entrega de datos listos para la IA. Diseñadas para ser flexibles, las soluciones de Actian se integran perfectamente, funcionan de forma fiable y se adaptan a entornos locales, en la nube o híbridos. Descubra más sobre Actian, la división de datos e IA de HCL Software, en actian.com.