Análisis de datos

Preparación de los datos

Imagen de un hombre trabajando en un ordenador portátil con un lápiz óptico con iconos de archivos interconectados que emiten de un ordenador portátil que representa la preparación de datos

Antes de que los datos se utilicen para un fin específico, como el entrenamiento de un modelo de aprendizaje automático (ML) o para el análisis de datos, deben estar listos. Preparar los datos puede implicar rellenar huecos, normalizar la distribución y eliminar valores atípicos para proporcionar los resultados más precisos.

¿Por qué es importante la preparación de los datos?

Si no se comprueba la disponibilidad de los datos, los resultados analíticos pueden ser inexactos o engañosos. Es más probable que las decisiones basadas en estos datos den lugar a resultados no deseados. Por ejemplo, no eliminar los valores atípicos sesgará las conclusiones resultantes e introducirá un sesgo en los modelos de IA.

Lista de comprobación de la disponibilidad de datos

A continuación se indican algunos de los factores que deben tenerse en cuenta a la hora de preparar los datos para casos de uso analítico o de IA:

  • ¿Son los datos una muestra representativa que contiene un número suficiente de valores para ser significativa?
  • ¿Se han colmado las lagunas utilizando múltiples fuentes o mediante extrapolación?
  • ¿Se han eliminado los valores periféricos o se han ponderado menos que los valores centrales?
  • ¿Se han etiquetado los objetivos si los datos se utilizan para el aprendizaje automático?
  • ¿Se han cuadriculado los mismos datos para contener muestras a lo largo de un continuo espacial o temporal?

Preparar los datos

A continuación se indican varias formas de poner los datos a punto:

Deduplicación inteligente

Muchos campos de datos están pensados para contener duplicados, como el color de un producto o los códigos postales. Cuando los campos se utilizan para valores clave, como las direcciones de correo electrónico en un conjunto de datos de contactos, lo ideal es que los valores de los datos sean únicos. Una forma aproximada de eliminar copias de registros duplicados es simplemente borrar filas. Una forma más inteligente es utilizar un enfoque basado en reglas para conservar la ocurrencia más reciente o fusionar y reconciliar registros aumentando los datos existentes con valores de campo adicionales de instancias duplicadas.

Aumentar la cohérence datos

Al consolidar registros de múltiples fuentes, pueden aparecer incoherencias. Puede ocurrir que en algunas regiones se escriba el Estado del cliente. Esto puede solucionarse fácilmente con un script o una sentencia SQL que contenga un predicado CASE.

Rellenar huecos

Las lagunas en los datos pueden colmarse recurriendo a múltiples fuentes de datos y asignando valores por defecto. En muchos casos, puede utilizarse un valor extrapolado o interpolado para rellenar las lagunas.

Eliminación de valores periféricos

Los valores periféricos pueden eliminarse para evitar que el análisis esté indebidamente sesgado o sesgado por valores periféricos.

Filtrar datos

Los datos esenciales para un proceso ascendente pueden resultar irrelevantes para una aplicación analítica. En este caso, los datos innecesarios pueden filtrarse. De este modo, se reduce el uso de processeur y almacenamiento, al tiempo que se protege la validez de cualquier análisis. Esto es especialmente importante en el caso de grandes conjuntos de datos que se utilizan en una plataforma de nube pública en la que se paga por consumo de recursos. Los datos deben filtrarse cada vez más a medida que se utilizan para responder a preguntas más específicas.

Particionamiento

Si el resultado de un proceso analítico es crítico en términos de tiempo, los datos pueden ser pre-particionados para acelerar el tiempo de procesamiento. La partición puede basarse en un valor clave, en rangos de valores o en un hash para distribuir uniformemente los datos entre las particiones. La partición acelera de forma masiva los tiempos de procesamiento de grandes conjuntos de datos al hacer más eficiente el procesamiento paralelo. Las consultas de escaneo de rangos también pueden acelerarse al facilitar la omisión de particiones con valores que no coinciden con los criterios de rango.

Transformación de datos

Las herramientas de integración de datos como Actian DataConnect o la integración como servicio en Actian Data Platform pueden utilizarse para cambiar los formatos de los datos con el fin de mejorar la correspondencia, eliminar espacios iniciales o finales y añadir ceros a la izquierda. Los datos regulados pueden enmascararse u ofuscarse para proteger la privacidad del cliente.

Validación para mejorar la calidad de los datos

Una forma significativa de imponer la validez de los datos consiste en comparar varias fuentes de datos para garantizar su integridad.

Automatización de la preparación de datos

A pipeline de données gestionado por una solución de integración de datos puede ayudar a automatizar la preparación de los datos. Se puede encadenar un conjunto de tareas preprogramadas y programadas para ayudar a la preparación de datos. Un pipeline de preparación de datos puede contener pasos para extraer, filtrar, transformar, rellenar huecos y verificar datos de partición de datos.

Ventajas de la preparación de datos

Las principales razones para adoptar la preparación para los datos son:

  • Evitar retrasos en el análisis de los datos debido a datos incompletos o sin procesar.
  • Aumentar la cantidad y calidad de los datos disponibles para analistas y científicos de datos.
  • Proporcionar a la empresa la capacidad de comprender las condiciones imperantes en el mercado y actuar con rapidez.
  • Aumente la competitividad respondiendo más rápidamente a las cambiantes necesidades de los clientes y a la dinámica del mercado.

Actian y la preparación de datos

Actian Data Platform incluye una solución de integración híbrida altamente escalable que proporciona datos de alta calidad para unificar, transformar y orquestar canalizaciones de datos para impulsar la preparación de datos. DataConnect es una plataforma de integración inteligente de bajo código que aborda casos de uso complejos con integraciones automatizadas, intuitivas y reutilizables.

La base de datos Actian Vector facilita la realización de análisis de mercado gracias a su capacidad de stockage en colonnes que minimiza la necesidad de índices de datos preexistentes. El procesamiento vectorial acelera las consultas al explotar múltiples cachés de processeur a partir de una única instrucción.

Actian Data Platform puede ejecutarse en las instalaciones y en múltiples plataformas en la nube para ejecutar sus análisis dondequiera que residan sus datos. Obtenga más información aquí.