Los datos sintéticos son datos fabricados artificialmente en lugar de generados por sucesos del mundo real. La inteligencia artificial (IA) genera datos sintéticos que sustituyen a los reales para entrenar modelos de aprendizaje automático y predecir resultados. Los resultados analíticos son idénticos utilizando datos sintéticos que utilizando datos reales, porque los datos son estructural y estadísticamente iguales.
¿Por qué son importantes los datos sintéticos?
Los datos sintéticos se utilizan para validar modelos matemáticos y entrenar modelos de ML. Pueden generarse a partir de una muestra de datos reales. Su volumen puede ajustarse al nivel requerido para satisfacer las necesidades de la aplicación analítica o de prueba. Si no existen datos reales en el mundo real, se puede desarrollar un modelo ML para generar datos representativos que permitan probar las aplicaciones antes de que los usuarios reales estén disponibles.
Este tipo de datos se alteran para simular posibles escenarios y estimar cómo afectan a los resultados. Por ejemplo, un escenario puede probar entradas o rutas no válidas o poco comunes en las aplicaciones de prueba. Los desarrolladores suelen ceñirse a los casos de uso tradicionales porque quieren que sus aplicaciones funcionen tal y como están diseñadas. Por otro lado, los equipos de control de calidad (QA) buscan posibles problemas porque su función es mejorar una aplicación explorando casos de uso que los desarrolladores pueden no haber tenido en cuenta.
A menudo, normativas como la de Información de Identificación Personal (IIP) obligan a no conservar los datos reales para proteger la privacidad de las personas. En este caso, los datos sintéticos pueden sustituir a los datos reales. Esto reduce la exposición de la organización a la divulgación accidental de datos, pero sigue proporcionando un análisis de tendencias muy necesario, que puede utilizarse para tomar decisiones basadas en datos.
Desafíos de los datos sintéticos
Ningún modelo de datos es 100% fiel a los datos reales, pero comparte características del jeu de données real. Los datos sintéticos suelen requerir una validación adicional, como la comparación de los resultados generados con información del mundo real anotada por humanos. Si la muestra de datos reales es demasiado pequeña, se reflejará en la precisión de los datos generados. Muchas aplicaciones deben utilizar datos sintéticos porque los datos reales no se pueden obtener o no existen. En este caso, se generan utilizando suposiciones que pueden invalidar el análisis al no estar basado en datos empíricos.
Ejemplos de aplicaciones de datos sintéticos
A continuación se ofrecen ejemplos que demuestran la utilidad de los datos sintéticos:
- Las empresas financieras crean este tipo de datos que contienen patrones de actividad que podrían ser el resultado de transacciones bancarias o con tarjetas de crédito fraudulentas. Estos datos se utilizan para desarrollar algoritmos de détection des fraudes más robustos.
- Compartir datos reales fuera de una empresa o de las fronteras nacionales puede estar restringido por la normativa sobre privacidad. Los datos sintéticos están libres de tales restricciones, lo que permite compartir conjuntos de datos fuera de una organización o a través de las fronteras.
- En los seguros, las reclamaciones falsas se pueden perfilar. Los defraudadores que utilizan con éxito un método intentarán la misma hazaña contra otras aseguradoras. La aseguradora afectada puede generar datos sintéticos y compartirlos con todo el sector para mejorar la detección de posibles fraudes en las reclamaciones.
- Los coches autoconducidos generan datos de sensores, que los datos sintéticos pueden aumentar para entrenar algoritmos de autoconducción que mejoren la detección de peligros potenciales con mayor precisión. El servicio de taxis sin conductor Waymo de Google utiliza este enfoque con éxito.
- Las aplicaciones de lenguaje natural, como Amazon Alexa, utilizan datos sintéticos para mejorar la cognición sin el riesgo para la privacidad que supone compartir conversaciones del mundo real.
- El personal de control de calidad de los equipos de desarrollo de software utiliza datos sintéticos generados para probar la funcionalidad de las aplicaciones. Los datos generados pueden utilizarse para probar el uso válido e inválido de la aplicación y garantizar que la gestión de excepciones está codificada y funciona como se espera. Los mismos datos de prueba pueden utilizarse para realizar pruebas de regresión en futuras iteraciones de la aplicación, con el fin de garantizar que las correcciones no rompan lo que funciona actualmente.
- Deslocalizar las pruebas de control de calidad en lugares remotos como la India, por ejemplo, es una práctica habitual. El uso de datos sintéticos basados en datos reales recopilados de usuarios estadounidenses ayuda a realizar el control de calidad en otras ubicaciones.
- Los datos sintéticos basados en datos reales con contenido verificado por humanos pueden utilizarse para ayudar a reducir el sesgo en los modelos de ML.
Benefits
Entre las ventajas de utilizar datos sintéticos se incluyen:
- Reduzca el riesgo de cumplimiento para el partage des données transfronterizo porque normativas como el Reglamento General de Protección de Datos (RGPD) solo se aplican a los datos reales de los usuarios. Los enfoques tradicionales, que conllevan más riesgos, anonimizan los datos o los ofuscan. Los datos sintéticos generados eliminan los riesgos para la privacidad.
- Reducir el sesgo en el aprendizaje automático utilizando mayores volúmenes de datos generados representativos.
- Aumente la precisión de los modelos ML con más datos de entrenamiento.
- Reduzca el riesgo cibernético sustituyendo los datos reales por datos sintéticos.
- Evaluar los cambios. Los datos sintéticos pueden modificarse para alterar los resultados en función de los cambios ambientales simulados aplicados al modelo ML. Cuando una empresa se plantea cambiar un producto, como actualizar una cámara en un véhicule autonome, su impacto puede evaluarse inicialmente utilizando datos sintéticos de prueba.
Actian and the Data Intelligence Platform
Actian Data Intelligence Platform is purpose-built to help organizations unify, manage, and understand their data across hybrid environments. It brings together metadata management, governance, lineage, quality monitoring, and automation in a single platform. This enables teams to see where data comes from, how it’s used, and whether it meets internal and external requirements.
Through its centralized interface, Actian supports real-time insight into data structures and flows, making it easier to apply policies, resolve issues, and collaborate across departments. The platform also helps connect data to business context, enabling teams to use data more effectively and responsibly. Actian’s platform is designed to scale with evolving data ecosystems, supporting consistent, intelligent, and secure data use across the enterprise. Request your personalized demo.
Preguntas frecuentes
Los datos sintéticos son datos generados artificialmente por la inteligencia artificial, en lugar de proceder de acontecimientos del mundo real, y están diseñados para ser estructural y estadísticamente idénticos a los datos reales, con el fin de utilizarlos en el entrenamiento de modelos de aprendizaje automático y en la predicción de resultados.
Los datos sintéticos pueden generarse a partir de una muestra de datos reales utilizando modelos de aprendizaje automático, y su volumen puede ajustarse para satisfacer las necesidades de las aplicaciones de análisis o de pruebas.
Los datos sintéticos se crean artificialmente para reproducir las propiedades estadísticas de los datos reales, mientras que los datos reales proceden de hechos reales; los resultados analíticos son idénticos independientemente del tipo de datos utilizado, ya que los datos sintéticos son estructural y estadísticamente iguales a los datos reales.
Los datos sintéticos protegen la privacidad al eliminar los riesgos relacionados con la información de identificación personal (PII), permiten cumplir con normativas como el RGPD, reducen los riesgos cibernéticos y permiten a las organizaciones generar datos cuando los datos reales no se pueden obtener, están sujetos a restricciones o aún no existen.
Los datos sintéticos se utilizan para detectar fraudes en los servicios financieros, entrenar algoritmos de vehículos autónomos, mejorar el procesamiento del lenguaje natural, realizar pruebas de control de calidad de software, reducir los sesgos en los modelos de aprendizaje automático y compartir datos a nivel internacional sin restricciones de privacidad.
Entre las ventajas se incluyen la reducción de los riesgos de cumplimiento normativo y cibernéticos, la eliminación de las preocupaciones sobre la privacidad en el intercambio transfronterizo de datos, una mayor precisión de los modelos de aprendizaje automático gracias a un mayor volumen de datos de entrenamiento, la reducción de los sesgos y la capacidad de evaluar los cambios mediante la simulación de escenarios ambientales.
Ningún modelo de datos es fiel al 100 % a los datos reales; los datos sintéticos requieren una validación adicional con información del mundo real y, si la muestra de datos reales es demasiado pequeña, esto afectará negativamente a la precisión de los datos generados.
Sí, los equipos de control de calidad utilizan datos sintéticos para probar tanto el uso válido como el no válido de las aplicaciones, garantizar que la gestión de excepciones funcione correctamente y realizar pruebas de regresión en futuras versiones sin exponer los datos reales de los usuarios.