Aprendizaje por refuerzo a partir de información humana
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) se utiliza en el aprendizaje automático (ML) para mejorar la precisión y el lenguaje de las respuestas de los agentes o modelos mediante la retroalimentación humana. La retroalimentación puede recopilarse de forma pasiva, basándose en modificaciones de los resultados, o de forma más activa, mediante puntuaciones numéricas de las respuestas o evaluaciones en lenguaje natural.
¿Por qué es importante el aprendizaje por refuerzo a partir del feedback humano?
RLHF es muy útil cuando la retroalimentación es escasa o "ruidosa". Cuando la función ML proporciona un lenguaje natural o un resumen de texto, los humanos pueden juzgar fácilmente la calidad, lo que es difícil de hacer con precisión utilizando un enfoque algorítmico. El modelo RLHF puede afinar su rendimiento utilizando comentarios positivos y negativos haciendo que los humanos clasifiquen los resultados de buenos a malos.
Métodos de aprendizaje
Los humanos pueden proporcionar información explícita a un algoritmo de aprendizaje editando los resultados, que pueden ser revisados por el algoritmo como guía. El ajuste suele comenzar con el uso de conjuntos de datos de entrenamiento. Estos conjuntos incluyen el jeu de données jeu de données ", que contiene instrucciones sin etiquetar, y un jeu de données de preferencias humanas, que contiene pares de respuestas candidatas, incluidas etiquetas que indican la respuesta preferida. Durante la fase de refuerzo, se utiliza un enfoque más indiferente, orientando el aprendizaje hacia las conversaciones que proporcionan las mejores valoraciones de los resultados del agente. Los formadores humanos pueden proporcionar información sobre lo que se ha hecho bien y lo que se ha hecho peor en temas más sofisticados o matizados.
Aplicaciones de RLHF
Hay muchas aplicaciones actuales y emergentes para el RLHF. He aquí algunos ejemplos:
Chatbots conversacionales
Los chatbots conversacionales suelen empezar con un modelo parcialmente preentrenado, y luego los formadores humanos ajustan el modelo base. Cuando se ponen en producción, los chatbots solicitan la opinión de los usuarios para puntuar su comprensión y sus respuestas. Las conversaciones con mayor puntuación se utilizan para establecer puntos de referencia de refuerzo positivo para la mejora continua.
Diálogos GPT
Las conversaciones basadas en GPT pueden utilizar la retroalimentación positiva de los humanos para guiar su aprendizaje. Se pueden desarrollar plug-ins preentrenados que incluyan conocimientos de diversos dominios.
Resumir y traducir textos
Los revisores humanos leen los resúmenes y realizan o sugieren ediciones que el modèle de machine learning utiliza como entrada para los sucesivos intentos. El mismo planteamiento funciona bien en los servicios de traducción y transcripción, donde el modelo tiene que adaptarse a sutiles diferencias locales.
Retos del RLHF
Las conversaciones basadas en la inteligencia artificial (IA) todavía tienen un camino que recorrer para ser tan naturales como las conversaciones humanas reales, pero están madurando rápidamente. La dependencia de la subjetividad humana puede ser problemática porque las opiniones de las distintas personas varían. Las conversaciones rara vez utilizan una gramática pobre, pero pueden tener fallos basados en el uso del lenguaje por parte del formador. Por ejemplo, si el formador es tendencioso o abusa de coloquialismos, el algoritmo captará esos rasgos. Un formador diferente debe marcar estos rasgos negativamente para que dejen de utilizarse. Imagina que entrenas a tu chatbot utilizando demasiados comunicados de prensa y contenidos de marketing. El resultado será que el uso excesivo de hipérboles afecta a la credibilidad del agente de chat. Un modelo poco entrenado suele recurrir a la repetición, lo que puede cansar o irritar al consumidor.
Ventajas del RLHF
A continuación se enumeran muchas de las ventajas de adoptar RLHF:
- Proporciona una forma de mejorar continuamente la precisión y el rendimiento de las conversaciones basadas en chat.
- Permite un ajuste más preciso de los diálogos específicos de un dominio utilizando la entrada humana.
- Permite a los agentes de chat imitar el lenguaje de forma más natural, lo que mejora la atención al cliente.
- Proporciona al usuario final comentarios que mejoran las interacciones futuras.
- Permite a los humanos entrenar a la IA para que se adapte mejor a su estilo de interacción, lo que incluye tener una personalidad más informal y menos robótica.
Actian and the Data Intelligence Platform
Actian Data Intelligence Platform is purpose-built to help organizations unify, manage, and understand their data across hybrid environments. It brings together metadata management, governance, lineage, quality monitoring, and automation in a single platform. This enables teams to see where data comes from, how it’s used, and whether it meets internal and external requirements.
Through its centralized interface, Actian supports real-time insight into data structures and flows, making it easier to apply policies, resolve issues, and collaborate across departments. The platform also helps connect data to business context, enabling teams to use data more effectively and responsibly. Actian’s platform is designed to scale with evolving data ecosystems, supporting consistent, intelligent, and secure data use across the enterprise. Request your personalized demo.
Preguntas frecuentes
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es un método de entrenamiento en el que los modelos de aprendizaje automático —especialmente los modelos de lenguaje a gran escala— se perfeccionan mediante evaluaciones humanas. La retroalimentación humana guía al modelo para que genere respuestas más seguras, de mayor calidad y más coherentes.
El RLHF suele constar de tres pasos:
- Ajuste de un modelo base con ejemplos supervisados.
- Entrenamiento de un modelo de recompensa basado en clasificaciones de preferencias humanas.
- Utilizar algoritmos de aprendizaje por refuerzo (como PPO) para optimizar el comportamiento del modelo en función del modelo de recompensa.
RLHF ayuda a alinear los resultados del modelo con las expectativas humanas, reduce las respuestas perjudiciales o incorrectas, mejora la coherencia y permite que los modelos sigan instrucciones de forma más fiable en comparación con el entrenamiento sólo con datos brutos.
La retroalimentación humana puede incluir respuestas clasificadas, preferencias binarias, correcciones, anotaciones o evaluaciones específicas del dominio. Esta información entrena el modelo de recompensa que, en última instancia, influye en el comportamiento del sistema.
Entre los retos se encuentran la escalabilidad del etiquetado humano, la retroalimentación inconsistente o sesgada, la piratería de recompensas, la sobreoptimización hacia objetivos estrechos y el alto coste computacional de los ciclos de entrenamiento del aprendizaje por refuerzo.
Las empresas utilizan RLHF para mejorar la precisión de los chatbot, alinear los asistentes de IA con los conocimientos específicos del dominio, refinar el comportamiento del modelo para el cumplimiento y la seguridad, y optimizar los modelos de toma de decisiones basados en el juicio humano experto.