Guía completa para la preparación eficaz de datos
Corporación Actian
28 de julio de 2021

Abraham Lincoln podría fácilmente haber estado discutiendo los pasos de preparación de datos para la analítica cuando dijo: "Si tuviera 8 horas para cortar un árbol, pasaría 6 afilando mi hacha". Dedicar el 75% del tiempo asignado a la preparación puede parecer mucho. Pero, de hecho, la mayoría de los observadores del sector señalan que los pasos de preparación de datos para el análisis empresarial o el aprendizaje automático consumen entre el 70 % y el 80 % del tiempo que dedican los científicos de datos y los analistas.
Pasos detallados de la preparación de datos
El proceso de preparación de datos consta de los siguientes pasos:
- Accede a los datos.
- Ingerir (o recuperar) los datos.
- Limpia los datos.
- Formatea los datos.
- Combina los datos.
- Y, por último, analiza los datos.
Acceda a
Existen muchas fuentes de datos empresariales dentro de cualquier organización. Algunos ejemplos son los datos de punto final, los datos de clientes, los datos de marketing y todos sus repositorios asociados. Este primer paso esencial de preparación de datos implica identificar los datos necesarios y sus repositorios. No se trata simplemente de identificar todas las fuentes de datos y repositorios posibles, sino de identificar todos los que se aplican al análisis deseado. Esto significa que primero debe haber un plan que incluya las preguntas específicas a las que debe responder el análisis de datos.
Ingerir
Una vez identificados los datos, hay que introducirlos en las herramientas de análisis. Es probable que los datos sean una combinación de datos estructurados y semiestructurados en distintos tipos de repositorios. Importarlos todos a un repositorio común es necesario para las siguientes etapas del proceso. El acceso y la ingesta tienden a ser procesos manuales con variaciones significativas en lo que hay que hacer exactamente. Ambos pasos de la preparación de datos requieren una combinación de conocimientos empresariales e informáticos, por lo que es mejor que los realice un equipo reducido. Este paso es también la primera oportunidad para validar los datos.
Limpiar
La limpieza de los datos garantiza que el conjunto de datos pueda proporcionar respuestas válidas cuando se analicen los datos. Este paso puede hacerse manualmente para conjuntos de datos pequeños, pero requiere automatización para la mayoría de los conjuntos de datos de tamaño realista. Existen herramientas informáticas para este tratamiento. Si se necesita un procesamiento personalizado, muchos ingenieros de datos confían en aplicaciones codificadas en Python. Hay muchos problemas posibles con los datos introducidos. Puede haber valores omitidos, valores fuera de rango, nulos y espacios en blanco que ofuscan los valores, así como valores atípicos que podrían sesgar los resultados del análisis. Los valores atípicos son especialmente problemáticos cuando son el resultado de combinar dos o más variables en el conjunto de datos. Los ingenieros de datos deben planificar cuidadosamente cómo van a limpiar sus datos.
Formato
Una vez depurado el conjunto de datos, hay que formatearlo. Este paso incluye la resolución de problemas como múltiples formatos de fecha en los datos o abreviaturas incoherentes. También es posible que algunas variables de datos no sean necesarias para el análisis y, por lo tanto, deban eliminarse del conjunto de datos de análisis. Este es otro paso de la preparación de datos que avantage de la automatización. Los pasos de limpieza y formateo deben guardarse en una receta repetible que los científicos o ingenieros de datos puedan aplicar a conjuntos de datos similares en el futuro. Por ejemplo, un análisis mensual de datos de ventas y asistencia probablemente tendrá las mismas fuentes que necesiten los mismos pasos de limpieza y formateo cada mes.
Combine
Una vez que el conjunto de datos se ha limpiado y formateado, puede transformarse combinando, dividiendo o uniendo los conjuntos de entrada. Una vez completado el paso de combinación, los datos están listos para ser trasladados al área de preparación del almacén de datos. Una vez cargados los datos en la zona de preparación, hay una segunda oportunidad para la validación.
Analice
Una vez iniciado el análisis, los cambios en el conjunto de datos sólo deben hacerse con detenimiento. Durante el análisis, los algoritmos suelen ajustarse y compararse con otros resultados. Los cambios en los datos pueden sesgar los resultados del análisis y hacer imposible determinar si los diferentes resultados se deben a cambios en los datos o en los algoritmos.
Principios y buenas prácticas para la preparación de datos
Muchos de los principios de la programación funcional pueden aplicarse a la preparación de datos. No es necesario utilizar un lenguaje de programación funcional para automatizar la preparación de datos, pero estos lenguajes se utilizan a menudo para ello.
- Entender al consumidor de datos: quién va a utilizar los datos y qué preguntas necesita que se respondan.
- Comprender los datos: de dónde proceden y cómo se han generado.
- Guardar los datos brutos. Si el ingeniero de datos dispone de los datos brutos, podrá recrear todas las transformaciones de datos. Además, no muevas ni borres los datos brutos una vez guardados.
- Si es posible, almacene todos los datos, brutos y procesados. Por supuesto, normativas de privacidad como el Reglamento General de Protección de Datos (RGPD) de la Unión Europea (UE) influirán en qué datos pueden guardarse y durante cuánto tiempo.
- Garantizar que las transformaciones sean reproducibles, deterministas e idempotentes. Cada transformación debe producir los mismos resultados cada vez que se ejecute dado el mismo conjunto de datos de entrada, sin efectos perjudiciales.
- Prepare su pipeline de données para el futuro. Versione no sólo los datos y el código que realiza el análisis, sino también las transformaciones que se han aplicado a los datos.
- Asegúrese de que existe una separación adecuada entre el sistema en línea y el análisis fuera de línea para que el paso de ingesta no afecte a los servicios orientados al usuario.
- Supervisar el pipeline de données para comprobar cohérence entre los conjuntos de datos.
- Utilice la gouvernance de datos desde el principio y sea proactivo. La necesidad de seguridad y cumplimiento por parte de los departamentos de TI implica que la incorporación de funciones de gouvernance , como el enmascaramiento de datos, la retención, el linaje y los permisos basados en funciones, son aspectos importantes del proceso.
Conozca sus datos, conozca las necesidades de sus clientes y establezca un proceso reproducible para construir su canal de preparación de datos.
Facilitar la integración de datos
Actian DataConnect es una solución de integración híbrida versátil. Le permite conectarse a prácticamente cualquier fuente de datos, independientemente de su formato o ubicación, utilizando cualquier protocolo que permita a los usuarios empresariales, especialistas en integración, administradores de SaaS y propietarios de la línea de negocio. Los usuarios pueden diseñar y gestionar integraciones y mover datos rápidamente mientras TI mantiene gouvernanceativo. Descubra aquí cómo Actian puede ayudarle con todas sus necesidades de integración de datos, gestion des données y almacenamiento de datos.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.
Suscríbase a
(por ejemplo, ventas@..., soporte@...)