Los datos sintéticos son datos fabricados artificialmente en lugar de generados por sucesos del mundo real. La inteligencia artificial (IA) genera datos sintéticos que sustituyen a los reales para entrenar modelos de aprendizaje automático y predecir resultados. Los resultados analíticos son idénticos utilizando datos sintéticos que utilizando datos reales, porque los datos son estructural y estadísticamente iguales.
¿Por qué son importantes los datos sintéticos?
Los datos sintéticos se utilizan para validar modelos matemáticos y entrenar modelos de ML. Pueden generarse a partir de una muestra de datos reales. Su volumen puede ajustarse al nivel requerido para satisfacer las necesidades de la aplicación analítica o de prueba. Si no existen datos reales en el mundo real, se puede desarrollar un modelo ML para generar datos representativos que permitan probar las aplicaciones antes de que los usuarios reales estén disponibles.
Este tipo de datos se alteran para simular posibles escenarios y estimar cómo afectan a los resultados. Por ejemplo, un escenario puede probar entradas o rutas no válidas o poco comunes en las aplicaciones de prueba. Los desarrolladores suelen ceñirse a los casos de uso tradicionales porque quieren que sus aplicaciones funcionen tal y como están diseñadas. Por otro lado, los equipos de control de calidad (QA) buscan posibles problemas porque su función es mejorar una aplicación explorando casos de uso que los desarrolladores pueden no haber tenido en cuenta.
A menudo, normativas como la de Información de Identificación Personal (IIP) obligan a no conservar los datos reales para proteger la privacidad de las personas. En este caso, los datos sintéticos pueden sustituir a los datos reales. Esto reduce la exposición de la organización a la divulgación accidental de datos, pero sigue proporcionando un análisis de tendencias muy necesario, que puede utilizarse para tomar decisiones basadas en datos.
Desafíos de los datos sintéticos
Ningún modelo de datos es 100% fiel a los datos reales, pero comparte características del jeu de données real. Los datos sintéticos suelen requerir una validación adicional, como la comparación de los resultados generados con información del mundo real anotada por humanos. Si la muestra de datos reales es demasiado pequeña, se reflejará en la precisión de los datos generados. Muchas aplicaciones deben utilizar datos sintéticos porque los datos reales no se pueden obtener o no existen. En este caso, se generan utilizando suposiciones que pueden invalidar el análisis al no estar basado en datos empíricos.
Ejemplos de aplicaciones de datos sintéticos
A continuación se ofrecen ejemplos que demuestran la utilidad de los datos sintéticos:
- Las empresas financieras crean este tipo de datos que contienen patrones de actividad que podrían ser el resultado de transacciones bancarias o con tarjetas de crédito fraudulentas. Estos datos se utilizan para desarrollar algoritmos de détection des fraudes más robustos.
- Compartir datos reales fuera de una empresa o de las fronteras nacionales puede estar restringido por la normativa sobre privacidad. Los datos sintéticos están libres de tales restricciones, lo que permite compartir conjuntos de datos fuera de una organización o a través de las fronteras.
- En los seguros, las reclamaciones falsas se pueden perfilar. Los defraudadores que utilizan con éxito un método intentarán la misma hazaña contra otras aseguradoras. La aseguradora afectada puede generar datos sintéticos y compartirlos con todo el sector para mejorar la detección de posibles fraudes en las reclamaciones.
- Los coches autoconducidos generan datos de sensores, que los datos sintéticos pueden aumentar para entrenar algoritmos de autoconducción que mejoren la detección de peligros potenciales con mayor precisión. El servicio de taxis sin conductor Waymo de Google utiliza este enfoque con éxito.
- Las aplicaciones de lenguaje natural, como Amazon Alexa, utilizan datos sintéticos para mejorar la cognición sin el riesgo para la privacidad que supone compartir conversaciones del mundo real.
- El personal de control de calidad de los equipos de desarrollo de software utiliza datos sintéticos generados para probar la funcionalidad de las aplicaciones. Los datos generados pueden utilizarse para probar el uso válido e inválido de la aplicación y garantizar que la gestión de excepciones está codificada y funciona como se espera. Los mismos datos de prueba pueden utilizarse para realizar pruebas de regresión en futuras iteraciones de la aplicación, con el fin de garantizar que las correcciones no rompan lo que funciona actualmente.
- Deslocalizar las pruebas de control de calidad en lugares remotos como la India, por ejemplo, es una práctica habitual. El uso de datos sintéticos basados en datos reales recopilados de usuarios estadounidenses ayuda a realizar el control de calidad en otras ubicaciones.
- Los datos sintéticos basados en datos reales con contenido verificado por humanos pueden utilizarse para ayudar a reducir el sesgo en los modelos de ML.
Beneficios
Entre las ventajas de utilizar datos sintéticos se incluyen:
- Reduzca el riesgo de cumplimiento para el partage des données transfronterizo porque normativas como el Reglamento General de Protección de Datos (RGPD) solo se aplican a los datos reales de los usuarios. Los enfoques tradicionales, que conllevan más riesgos, anonimizan los datos o los ofuscan. Los datos sintéticos generados eliminan los riesgos para la privacidad.
- Reducir el sesgo en el aprendizaje automático utilizando mayores volúmenes de datos generados representativos.
- Aumente la precisión de los modelos ML con más datos de entrenamiento.
- Reduzca el riesgo cibernético sustituyendo los datos reales por datos sintéticos.
- Evaluar los cambios. Los datos sintéticos pueden modificarse para alterar los resultados en función de los cambios ambientales simulados aplicados al modelo ML. Cuando una empresa se plantea cambiar un producto, como actualizar una cámara en un véhicule autonome, su impacto puede evaluarse inicialmente utilizando datos sintéticos de prueba.
Actian facilita los datos
Actian Data Platform transforma su negocio simplificando la forma de conectar, gestionar y analizar datos en las instalaciones y en una o varias nubes. Actian Data Platform puede alojar proyectos analíticos a través de muchas instancias en una única plataforma conectada.