Blog | Inteligencia de datos | | 4 min de lectura

¿Qué son los datos sintéticos?

Estructura de conexión

Resumen

  • Los datos sintéticos son datos generados artificialmente y diseñados para imitar los patrones de los datos reales sin haber sido recopilados directamente a partir de acontecimientos del mundo real.
  • Sus principales diferencias con respecto a los datos reales son una menor representatividad directa, una mayor protección de la privacidad y una disponibilidad mucho mayor.
  • Se puede generar mediante modelos estadísticos, simulaciones, aprendizaje automático o transformaciones de datos reales.
  • Entre las principales ventajas se incluyen la reducción de los riesgos para la privacidad, la subsanación de las lagunas en los datos, la mejora de la disponibilidad y la reducción de los costes de recopilación y almacenamiento.
  • Entre sus usos habituales se incluyen la asistencia sanitaria, las finanzas, la logística, la generación de imágenes y vídeos, la simulación de textos y el entrenamiento de modelos de IA.

Los datos sintéticos pueden definirse como información anotada artificialmente. Se generan mediante algoritmos o simulaciones informáticas y se utilizan ampliamente en los sectores sanitario, industrial y financiero. Una mirada retrospectiva a una tendencia clave en el mundo de los datos.

Diferencias clave entre datos reales y sintéticos

Los datos sintéticos, también conocidos como datos artificiales, se generan por ordenador en lugar de recogerse de fuentes reales. Aunque pretenden representar patrones y características similares a los de los datos reales, no se derivan directamente de observaciones o sucesos reales. Por tanto, existen tres diferencias principales entre los datos convencionales y los datos artificiales.

Representatividad

La primera distinción entre datos reales y datos sintéticos se refiere a la noción de representatividad. Los datos reales proceden de fuentes, mediciones u observaciones realizadas en el mundo real. Reflejan las características y variaciones de una realidad tangible y observada. Por tanto, son lo más representativos posible. Los datos sintéticos, en cambio, se generan de forma programada. Aunque están diseñados para reproducir patrones y características similares a los datos reales, no siempre captan toda la complejidad y variabilidad de los datos reales.

Confidencialidad

Es probable que los datos reales contengan información sensible sobre las personas. Se rigen por fuertes principios de confidencialidad, debido a la información personal identificable (IPI) o a riesgos de cumplimiento. Los datos sintéticos, en cambio, se generan de forma que no contengan ninguna información real o identificable. Como tales, proporcionan una solución a los problemas de confidencialidad de los datos, ofreciendo una alternativa más segura para el intercambio, el análisis y el desarrollo de aplicaciones.

Disponibilidad

Los datos sintéticos pueden generarse en cantidades ilimitadas y adaptarse a las necesidades específicas de una aplicación. Esto le libera de las limitaciones de los datos reales en cuanto a cantidad y disponibilidad, ofreciéndole una mayor flexibilidad a la hora de probar, experimentar o desarrollar aplicaciones de uso intensivo de datos.

¿Cómo se generan los datos sintéticos?

Los datos sintéticos pueden crearse utilizando modelos estadísticos que reproduzcan las distribuciones, correlaciones y características de los datos reales. También pueden generarse mediante simulación. Esto implica la creación de escenarios y procesos simulados que imitan el comportamiento de la vida real. El aprendizaje automático puede utilizarse para generar datos sintéticos aprendiendo de los datos reales existentes.

Por último, a veces pueden utilizarse datos reales como base para generar datos sintéticos. En este caso, se modifican algunos elementos para preservar la confidencialidad o la sensibilidad de la información. En todos los casos, la generación de datos sintéticos se basa siempre en un conocimiento profundo de las características y estructuras de sus datos reales, con el fin de maximizar su realismo y representatividad.

¿Cuáles son las principales ventajas de los datos sintéticos?

Más flexibles, más disponibles y a menudo más ricos, hay muchas razones para interesarse por la generación de datos sintéticos, ya que ofrecen cuatro grandes ventajas:

Limitar los problemas de confidencialidad de los datos

Generar datos ficticios que no contengan información personal identificable significa que los datos pueden compartirse, analizarse y procesarse sin poner en peligro la privacidad individual o la normativa de protección de datos.

Mejorar la precisión de los datos

En muchos casos, los datos reales pueden tener lagunas de información. Los datos sintéticos ayudan a colmar estas lagunas generando datos adicionales para las áreas en las que los datos reales están incompletos. Esto proporciona una representación más completa y precisa de todo el conjunto de datos. También pueden utilizarse para corregir desequilibrios en las clases de datos o para detectar y compensar valores atípicos.

Garantizar la disponibilidad de los datos

Los datos reales suelen ser escasos y de difícil acceso. Con los datos sintéticos, no hay restricciones cuantitativas ni dependencia de recursos limitados del mundo real. Pueden producirse a voluntad, lo que permite una mayor flexibilidad en la realización de proyectos y la exploración de escenarios.

Control de los costes de recogida y almacenamiento de datos

Recopilar datos reales puede ser costoso en términos de recursos financieros, humanos y materiales. Utilizando datos sintéticos, es posible generar datos a un coste menor. Es más, los datos sintéticos pueden generarse bajo demanda, lo que reduce las necesidades de capacidad de almacenamiento y optimiza los costes.

Algunos ejemplos de uso de datos sintéticos

Los datos sintéticos ya tienen múltiples aplicaciones. En el caso de los datos sintéticos de ubicación, por ejemplo, se pueden simular fácilmente las rutas y los desplazamientos de personas o vehículos, lo que supone un ahorro de tiempo considerable en la planificación urbana o la logística.

Los datos de imagen y vídeo sintéticos se utilizan para simular escenas, objetos y movimientos, y son habituales en el mundo de la realidad virtual, el análisis de vídeo y el entrenamiento de modelos de reconocimiento de objetos. Los datos de texto sintético se utilizan para simular documentos, conversaciones e incluso análisis de sentimientos.

Por último, los datos financieros sintéticos pueden crearse para simular transacciones, carteras de inversión, variaciones de precios, volúmenes de negociación, etcétera. Por ello, son muy habituales en el análisis de los mercados financieros o el desarrollo de algoritmos de negociación.