¿Qué son los datos sintéticos?
Corporación Actian
4 de junio de 2023

Los datos sintéticos pueden definirse como información anotada artificialmente. Se generan mediante algoritmos o simulaciones informáticas y se utilizan ampliamente en los sectores sanitario, industrial y financiero. Una mirada retrospectiva a una tendencia clave en el mundo de los datos.
Diferencias clave entre datos reales y sintéticos
Los datos sintéticos, también conocidos como datos artificiales, se generan por ordenador en lugar de recogerse de fuentes reales. Aunque pretenden representar patrones y características similares a los de los datos reales, no se derivan directamente de observaciones o sucesos reales. Por tanto, existen tres diferencias principales entre los datos convencionales y los datos artificiales.
Representatividad
La primera distinción entre datos reales y datos sintéticos se refiere a la noción de representatividad. Los datos reales proceden de fuentes, mediciones u observaciones realizadas en el mundo real. Reflejan las características y variaciones de una realidad tangible y observada. Por tanto, son lo más representativos posible. Los datos sintéticos, en cambio, se generan de forma programada. Aunque están diseñados para reproducir patrones y características similares a los datos reales, no siempre captan toda la complejidad y variabilidad de los datos reales.
Confidencialidad
Es probable que los datos reales contengan información sensible sobre las personas. Se rigen por fuertes principios de confidencialidad, debido a la información personal identificable (IPI) o a riesgos de cumplimiento. Los datos sintéticos, en cambio, se generan de forma que no contengan ninguna información real o identificable. Como tales, proporcionan una solución a los problemas de confidencialidad de los datos, ofreciendo una alternativa más segura para el intercambio, el análisis y el desarrollo de aplicaciones.
Disponibilidad
Los datos sintéticos pueden generarse en cantidades ilimitadas y adaptarse a las necesidades específicas de una aplicación. Esto le libera de las limitaciones de los datos reales en cuanto a cantidad y disponibilidad, ofreciéndole una mayor flexibilidad a la hora de probar, experimentar o desarrollar aplicaciones de uso intensivo de datos.
¿Cómo se generan los datos sintéticos?
Los datos sintéticos pueden crearse utilizando modelos estadísticos que reproduzcan las distribuciones, correlaciones y características de los datos reales. También pueden generarse mediante simulación. Esto implica la creación de escenarios y procesos simulados que imitan el comportamiento de la vida real. El aprendizaje automático puede utilizarse para generar datos sintéticos aprendiendo de los datos reales existentes.
Por último, a veces pueden utilizarse datos reales como base para generar datos sintéticos. En este caso, se modifican algunos elementos para preservar la confidencialidad o la sensibilidad de la información. En todos los casos, la generación de datos sintéticos se basa siempre en un conocimiento profundo de las características y estructuras de sus datos reales, con el fin de maximizar su realismo y representatividad.
¿Cuáles son las principales ventajas de los datos sintéticos?
Más flexibles, más disponibles y a menudo más ricos, hay muchas razones para interesarse por la generación de datos sintéticos, ya que ofrecen cuatro grandes ventajas:
Limitar los problemas de confidencialidad de los datos
Generar datos ficticios que no contengan información personal identificable significa que los datos pueden compartirse, analizarse y procesarse sin poner en peligro la privacidad individual o la normativa de protección de datos.
Mejorar la precisión de los datos
En muchos casos, los datos reales pueden tener lagunas de información. Los datos sintéticos ayudan a colmar estas lagunas generando datos adicionales para las áreas en las que los datos reales están incompletos. Esto proporciona una representación más completa y precisa de todo el conjunto de datos. También pueden utilizarse para corregir desequilibrios en las clases de datos o para detectar y compensar valores atípicos.
Garantizar la disponibilidad de los datos
Los datos reales suelen ser escasos y de difícil acceso. Con los datos sintéticos, no hay restricciones cuantitativas ni dependencia de recursos limitados del mundo real. Pueden producirse a voluntad, lo que permite una mayor flexibilidad en la realización de proyectos y la exploración de escenarios.
Control de los costes de recogida y almacenamiento de datos
Recopilar datos reales puede ser costoso en términos de recursos financieros, humanos y materiales. Utilizando datos sintéticos, es posible generar datos a un coste menor. Es más, los datos sintéticos pueden generarse bajo demanda, lo que reduce las necesidades de capacidad de almacenamiento y optimiza los costes.
Algunos ejemplos de uso de datos sintéticos
Los datos sintéticos ya cumplen una serie de usos. Cuando se trata de datos sintéticos de localización, por ejemplo, es fácil simular rutas y movimientos de personas o vehículos, lo que ahorra mucho tiempo en planificación urbana o logística.
Los datos de imagen y vídeo sintéticos se utilizan para simular escenas, objetos y movimientos, y son habituales en el mundo de la realidad virtual, el análisis de vídeo y el entrenamiento de modelos de reconocimiento de objetos. Los datos de texto sintético se utilizan para simular documentos, conversaciones e incluso análisis de sentimientos.
Por último, los datos financieros sintéticos pueden crearse para simular transacciones, carteras de inversión, variaciones de precios, volúmenes de negociación, etcétera. Por ello, son muy habituales en el análisis de los mercados financieros o el desarrollo de algoritmos de negociación.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.