Modelos de difusión
Los modelos de difusión permiten a los modelos de aprendizaje automático (ML) crear y mejorar imágenes y vídeos. Las indicaciones basadas en texto impulsan la creación de imágenes para proporcionar información sobre el encuadre, el tema y el estilo requeridos.
Los modelos de difusión funcionan aprendiendo a partir de conjuntos de datos de entrenamiento y descartándolos después del entrenamiento. También añaden ruido a una imagen de forma reversible, aprenden a eliminar el ruido de la imagen y aplican lo aprendido por el modelo para crear imágenes completamente nuevas. Las herramientas de imagen Generative Pre-trained Transformer (GPT), como Dall-E2 y Microsoft Designer, utilizan modelos de difusión.
¿Por qué son importantes los modelos de difusión?
Los modelos de difusión han proporcionado un enfoque innovador y eficaz para la creación de imágenes que se considera superior a los enfoques alternativos para crear imágenes de alta calidad, incluidas las redes generativas adversariales (GAN), los autocodificadores variacionales (VAE) y los modelos basados en el flujo. A diferencia de las GAN, los modelos de difusión suavizan las distribuciones, lo que hace que los modelos de difusión tengan más diversidad en las imágenes. Esto significa que el modèle de diffusion puede proporcionar múltiples variaciones de una imagen en comparación con los enfoques más antiguos de generación de imágenes y reducción de ruido. Los modelos de difusión están en pañales, pero ya están demostrando su superioridad frente a los enfoques tradicionales.
Desarrollar y perfeccionar los estímulos
El componente marco de la consulta especifica el estilo requerido de la salida deseada. Algunos ejemplos de marcos son un dibujo, una fotografía o una pintura al óleo.
El marco se combina con un tema que puede ser algo con muchas imágenes de Internet disponibles de las que aprender. Por ejemplo, si te dedicas a la hostelería, puedes elegir como tema las propiedades de tu hotel porque tu objetivo es crear imágenes abstractas para promociones y folletos.
El encuadre y el sujeto especificados pueden tener un estilo, que podría especificarse como un estilo artístico o de iluminación de mal humor, soleado, surrealista o abstracto.
Personalización de imágenes
Las imágenes generadas pueden tener recortes para permitir la colocación de contenido adicional. El pintado puede sustituir elementos de la imagen, como la selección de un estilo de ropa, nubes en el cielo o la pose de una persona.
Outpainting se refiere a la capacidad de crear un contexto para el sujeto que se está generando. Por ejemplo, puede que desee situar el sujeto en una habitación determinada o en el entorno de un parque.
Aplicaciones de los modelos de difusión
Las aplicaciones de los modelos de difusión serán cada vez más habituales gracias a productos de empresas como Microsoft y OpenAI, que están integrando los modelos en sus plataformas. Estos son los casos de uso que permiten los modelos de difusión:
- Los modelos de difusión transformarán el diseño de productos al permitir a los diseñadores ver los diseños desde múltiples ángulos, aplicar perspectivas y crear renders 3D que pueden utilizarse para imprimir modelos 3D.
- Los profesionales del marketing pueden utilizar texto para describir qué imágenes les gustaría asociar al contenido y hacer que se rendericen en lugar de pagar por una foto de archivo de compromiso, como se suele hacer hoy en día.
- Los minoristas en línea pueden mostrar los productos en diferentes configuraciones y colores.
- Gracias a los renders modèle de diffusion, los configuradores en línea pueden crear imágenes de alta resolución de productos como coches que incluyen características personalizadas y visualizarlas en distintos escenarios.
Retos de los modelos de difusión
Los modelos de difusión son aún nuevos y evolucionan rápidamente. Las limitaciones incluyen:
- Los rostros pueden distorsionarse cuando en una imagen aparecen más de dos personas.
- El texto de una imagen puede distorsionarse.
- Los modelos de difusión funcionan mejor cuando el resultado es similar a los datos de entrenamiento.
- Los modelos de difusión requieren enormes recursos de servidor que pueden resultar caros en entornos de nube con un uso medido de la unidad central de procesamientoprocesseur), la unidad de procesamiento gráfico (GPU) y la unidad de procesamiento tensorial (TPU). Productos como DreamStudio de Stability AI son de código abierto con una versión descargable que puede ejecutarse utilizando hardware interne para evitar costes de uso medido.
- La generación de imágenes es compleja, lo que hace que el proceso sea difícil de optimizar sin utilizar muchos datos de entrenamiento etiquetados adicionales. A menudo, las indicaciones se malinterpretan y se obtienen resultados inesperados.
- La generación basada en la IA es susceptible de sesgo, al igual que los formadores humanos. Hay que tener cuidado de limitar los modelos para que funcionen dentro de unas normas sociales y éticas aceptables.
Actian y la plataforma de inteligencia de datos
Actian Data Intelligence Platform está diseñada para ayudar a las organizaciones a unificar, gestionar y comprender sus datos en entornos híbridos. Reúne la gestión de metadatos, la gobernanza, el linaje, la supervisión de la calidad y la automatización en una única plataforma. Esto permite a los equipos ver de dónde proceden los datos, cómo se utilizan y si cumplen los requisitos internos y externos.
A través de su interfaz centralizada, Actian permite conocer en tiempo real las estructuras y flujos de datos, lo que facilita la aplicación de políticas, la resolución de problemas y la colaboración entre departamentos. La plataforma también ayuda a conectar los datos con el contexto empresarial, lo que permite a los equipos utilizar los datos de forma más eficaz y responsable. La plataforma de Actian está diseñada para escalar con ecosistemas de datos en evolución, apoyando un uso de datos consistente, inteligente y seguro en toda la empresa. Solicite su demostración personalizada.
PREGUNTAS FRECUENTES
Los modelos de difusión son un tipo de modelo de aprendizaje automático generativo que aprende a añadir ruido a las imágenes y luego invierte ese proceso (de-noising) para generar o mejorar imágenes o vídeos completamente nuevos.
A diferencia de las redes generativas adversariales (GAN) o los autocodificadores variacionales (VAE), los modelos de difusión añaden progresivamente ruido a los datos de entrenamiento y luego aprenden a invertir ese proceso para reconstruir y generar nuevos resultados. Este suavizado de las distribuciones permite a los modelos de difusión producir una mayor variedad de resultados e imágenes de mayor calidad.
Los modelos de difusión se utilizan para:
- Renderización de visualizaciones de productos (por ejemplo, diferentes ángulos, colores para el comercio electrónico).
- Creación de activos de marketing mediante mensajes de texto (marco + asunto + estilo).
- Generación de imágenes o vídeos de alta calidad para el diseño, la fotografía o los casos de uso multimedia.
Entre los principales retos figuran:
- Distorsión de rostros humanos cuando aparecen varias personas en la imagen.
- Dificultad para representar con precisión el texto dentro de las imágenes generadas.
- Grandes requisitos de computación (CPU/GPU/TPU), lo que hace que la generación en la nube sea costosa.
- Riesgos de sesgo en los datos de entrenamiento y resultados no deseados si las indicaciones son ambiguas.
Las empresas pueden aprovechar los modelos de difusión para:
- Sustituya o aumente las fotografías de archivo con imágenes personalizadas a la carta basadas en indicaciones de texto.
- Permita que los minoristas en línea muestren imágenes configurables de los productos en diferentes configuraciones y colores.
- Acelere el diseño de productos generando múltiples perspectivas o renders listos en 3D para la creación de prototipos.
Al considerar los modelos de difusión, debe evaluar:
- En qué dominio de datos de entrenamiento se construyó el modelo (para que coincida con su estilo de salida).
- Si dispone de los recursos informáticos (GPU/TPU) necesarios para la generación a escala.
- Cómo mitigará el sesgo o los resultados inesperados (por ejemplo, para caras o texto en imágenes).
- Cómo se alinea la arquitectura del mensaje (encuadre, tema, estilo) con tu flujo de trabajo creativo.