¿Por qué es importante nettoyage des données ?
Gracias a la digitalización de los procesos empresariales, se dispone de abundantes datos para analizar. Obtener valor de esos datos depende en gran medida de la calidad y la integridad de los datos utilizados para impulsar el análisis y la prise de décision. Tomar decisiones basadas en datos de mala calidad y/o inexactos aumenta las posibilidades de obtener malos resultados debido a la desinformación. Las decisiones fiables deben basarse en datos de alta calidad.
Dónde nettoyage des données Fits
nettoyage des données forma parte de un proceso más amplio de preparación de datos que suele seguir la siguiente secuencia de pasos antes de que una organización pueda analizar los datos:
- Datos de acceso.
- Ingesta (o búsqueda) de datos.
- Limpia los datos.
- Formato de los datos.
- Combinar conjuntos de datos.
nettoyage des données describe las herramientas y técnicas utilizadas para limpiar datos gruesos o sucios rellenando huecos, filtrando datos irrelevantes, deduplicando y formateando para que sean precisos y de mayor calidad.
nettoyage des données Techniques
Son muchas las causas de que los datos no sean aptos para el análisis. A continuación se presenta una selección de técnicas utilizadas para refinar los datos brutos o mejorar su calidad:
Deduplicación y nettoyage des données
La eliminación de copias de registros duplicados es esencial para evitar el doble recuento. Al fusionar varios conjuntos de datos, es fácil crear registros duplicados. En una base de datos relacional, es fácil utilizar el calificador UNIQUE para ignorar los duplicados, pero sigue teniendo sentido deduplicar para ahorrar espacio y ciclos de processeur . Las herramientas de extracción, transferencia y carga (ETL) comparan cadenas cuando procesan fuera de una base de datos. Si se realiza la deduplicación dentro de una base de datos utilizando una metodología de extracción, carga y transformación (ELT), es más sencillo en SQL utilizando SELECT UNIQUE e INSERT en una tabla de destino.
Mejorar cohérence con la nettoyage des données
La mayoría de las validaciones de entrada de datos comprueban los valores permitidos, pero los distintos sistemas suelen tener sus propias reglas sobre lo que consideran válido. Por ejemplo, si un sistema registra los estados de EE.UU. con dos caracteres y otro utiliza un desplegable con los nombres de los estados deletreados, es una buena idea estandarizar un formato y actualizar los registros para mantener la coherencia del formato. Utilizar la misma mayúscula y minúscula y el mismo tipo de datos también mejora cohérence.
Rellenar huecos
Si un campo es opcional, puede dar lugar a un fichero de datos con valores nulos. Si existe un valor por defecto razonable, puede insertarse para eliminar los nulos. En una serie de datos, un valor extrapolado o interpolado puede ayudar a suavizar los datos.
Filtrado
Los registros y los campos que no son útiles para el análisis posterior pueden filtrarse para aumentar la pertinencia y la calidad de los datos. A menudo es necesario eliminar los valores atípicos para que no distorsionen los resultados analíticos.
Transformación
Campos como los formatos de fecha suelen ser incoherentes en los conjuntos de datos de origen. Las herramientas de integración de datos como DataConnect permiten establecer reglas para automatizar las transformaciones de campos. Puede ser necesario enmascarar u ofuscar los datos privados para mantener la conformidad.
En la fabricación, los datos de los sensores de control de calidad se utilizan para ver hasta dónde se puede llevar la producción antes de que la calidad se resienta. La fábrica de Tesla en China produce un coche cada 40 segundos.
Validación cruzada
La integridad de los datos conduce a la confianza en ellos. Una forma de evaluar la validez de los datos es compararlos con otros sistemas de registro que deberían tener el mismo valor. Los registros que son idénticos se consideran válidos; las excepciones se marcan y almacenan por separado para nettoyage des données. Los catálogos de datos pueden registrar que los datos son válidos y puntuar su calidad en consecuencia.
¿Quién realiza nettoyage des données?
El puesto que suele ocuparse del nettoyage des données es el de ingeniero de datos, responsable de las canalizaciones de datos y el procesamiento ETL. El Chief Data Officer (CDO) garantiza la calidad general de los datos y su disponibilidad para los consumidores. Los usuarios analíticos y los científicos de datos son consumidores de datos depurados. Los ingenieros de datos deben especificar los cambios realizados en los sistemas de origen para proporcionar datos más limpios.
Causas de los datos sucios
A continuación se presentan algunos escenarios que conducen a datos sucios:
- La mayoría de las aplicaciones funcionan en un silo, ya que están diseñadas para satisfacer un caso de uso específico definido por un jefe de producto, un analista de negocio, un diseñador de software u otros usuarios.
- Un mal diseño de la interfaz de usuario (UI) puede significar que los campos opcionales suelen dejarse en blanco, y la falta de botones de opción o valores desplegables suele significar que una mala mecanografía llena los campos de basura.
- Un mal diseño de los datos, como permitir varios registros con el mismo valor de clave primaria, suele acarrear problemas.
- La falta de restricciones de integridad referencial puede corromper un esquema al utilizar relaciones de uno a muchos que deberían ser relaciones de uno a uno.
- El mantenimiento del software y la evolución del negocio a menudo conspiran para crear fallos que afectan a la integridad de los datos.
- La falta de validación en el procesamiento de la integración de datos puede provocar la filtración de datos erróneos a un sistema posterior. Por ejemplo, un sistema de automatización del marketing mal configurado puede introducir clientes potenciales duplicados en un sistema de ventas diseñado para un único registro de contacto con una dirección de correo electrónico única como clave principal.
Automatización de la calidad de los datos
Las soluciones de integración de datos como DataConnect permiten a los ingenieros de datos configurar canalizaciones de datos que realizan el procesamiento de la calidad de los datos mediante reglas. Los campos pueden rellenarse con valores predeterminados, los rangos de valores pueden comprobarse, los tipos de datos pueden modificarse y las funciones de transformación pueden realizar actualizaciones más sofisticadas.
Actian ayuda con la calidad de los datos
Actian Data Platform incluye una solución de integración híbrida altamente escalable que proporciona datos de alta calidad para unificar, transformar y orquestar canalizaciones de datos. DataConnect es una plataforma de integración inteligente de bajo código que aborda casos de uso complejos con integraciones automatizadas, intuitivas y reutilizables.
Obtenga más información visitando nuestra página sobre Actian Data Platform.