Aprendizaje por refuerzo a partir de información humana

Aprendizaje por refuerzo a partir de información humana

El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) se utiliza en el Aprendizaje Automático (AM ) para mejorar la precisión y el lenguaje de las respuestas de agentes o modelos utilizando la retroalimentación humana. La retroalimentación puede obtenerse de forma pasiva, basándose en la edición de los resultados, o de forma más activa mediante la puntuación numérica de las respuestas o las evaluaciones en lenguaje natural.

¿Por qué es importante el aprendizaje por refuerzo a partir del feedback humano?

RLHF es muy útil cuando la retroalimentación es escasa o "ruidosa". Cuando la función ML proporciona un lenguaje natural o un resumen de texto, los humanos pueden juzgar fácilmente la calidad, lo que es difícil de hacer con precisión utilizando un enfoque algorítmico. El modelo RLHF puede afinar su rendimiento utilizando comentarios positivos y negativos haciendo que los humanos clasifiquen los resultados de buenos a malos.

Métodos de aprendizaje

Los humanos pueden proporcionar información explícita a un algoritmo de aprendizaje editando los resultados, que pueden ser revisados por el algoritmo como guía. El ajuste suele comenzar con el uso de conjuntos de datos de entrenamiento. Estos conjuntos incluyen el jeu de données jeu de données ", que contiene instrucciones sin etiquetar, y un jeu de données de preferencias humanas, que contiene pares de respuestas candidatas, incluidas etiquetas que indican la respuesta preferida. Durante la fase de refuerzo, se utiliza un enfoque más indiferente, orientando el aprendizaje hacia las conversaciones que proporcionan las mejores valoraciones de los resultados del agente. Los formadores humanos pueden proporcionar información sobre lo que se ha hecho bien y lo que se ha hecho peor en temas más sofisticados o matizados.

Aplicaciones de RLHF

Hay muchas aplicaciones actuales y emergentes para el RLHF. He aquí algunos ejemplos:

Chatbots conversacionales

Los chatbots conversacionales suelen empezar con un modelo parcialmente preentrenado, y luego los formadores humanos ajustan el modelo base. Cuando se ponen en producción, los chatbots solicitan la opinión de los usuarios para puntuar su comprensión y sus respuestas. Las conversaciones con mayor puntuación se utilizan para establecer puntos de referencia de refuerzo positivo para la mejora continua.

Diálogos GPT

Las conversaciones basadas en GPT pueden utilizar la retroalimentación positiva de los humanos para guiar su aprendizaje. Se pueden desarrollar plug-ins preentrenados que incluyan conocimientos de diversos dominios.

Resumir y traducir textos

Los revisores humanos leen los resúmenes y realizan o sugieren ediciones que el modèle de machine learning utiliza como entrada para los sucesivos intentos. El mismo planteamiento funciona bien en los servicios de traducción y transcripción, donde el modelo tiene que adaptarse a sutiles diferencias locales.

Retos del RLHF

Las conversaciones basadas en la inteligencia artificial (IA) todavía tienen un camino que recorrer para ser tan naturales como las conversaciones humanas reales, pero están madurando rápidamente. La dependencia de la subjetividad humana puede ser problemática porque las opiniones de las distintas personas varían. Las conversaciones rara vez utilizan una gramática pobre, pero pueden tener fallos basados en el uso del lenguaje por parte del formador. Por ejemplo, si el formador es tendencioso o abusa de coloquialismos, el algoritmo captará esos rasgos. Un formador diferente debe marcar estos rasgos negativamente para que dejen de utilizarse. Imagina que entrenas a tu chatbot utilizando demasiados comunicados de prensa y contenidos de marketing. El resultado será que el uso excesivo de hipérboles afecta a la credibilidad del agente de chat. Un modelo poco entrenado suele recurrir a la repetición, lo que puede cansar o irritar al consumidor.

Ventajas del RLHF

A continuación se enumeran muchas de las ventajas de adoptar RLHF:

  • Proporciona una forma de mejorar continuamente la precisión y el rendimiento de las conversaciones basadas en chat.
  • Permite un ajuste más preciso de los diálogos específicos de un dominio utilizando la entrada humana.
  • Permite a los agentes de chat imitar el lenguaje de forma más natural, lo que mejora la atención al cliente.
  • Proporciona al usuario final comentarios que mejoran las interacciones futuras.
  • Permite a los humanos entrenar a la IA para que se adapte mejor a su estilo de interacción, lo que incluye tener una personalidad más informal y menos robótica.

Actian y la plataforma de inteligencia de datos

Actian Data Intelligence Platform está diseñada para ayudar a las organizaciones a unificar, gestionar y comprender sus datos en entornos híbridos. Reúne la gestión de metadatos, la gobernanza, el linaje, la supervisión de la calidad y la automatización en una única plataforma. Esto permite a los equipos ver de dónde proceden los datos, cómo se utilizan y si cumplen los requisitos internos y externos.

A través de su interfaz centralizada, Actian permite conocer en tiempo real las estructuras y flujos de datos, lo que facilita la aplicación de políticas, la resolución de problemas y la colaboración entre departamentos. La plataforma también ayuda a conectar los datos con el contexto empresarial, lo que permite a los equipos utilizar los datos de forma más eficaz y responsable. La plataforma de Actian está diseñada para escalar con ecosistemas de datos en evolución, apoyando un uso de datos consistente, inteligente y seguro en toda la empresa. Solicite su demostración personalizada.

PREGUNTAS FRECUENTES

El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) es un enfoque de formación en el que los modelos de aprendizaje automático -especialmente los grandes modelos lingüísticos- se mejoran utilizando evaluaciones humanas. La retroalimentación humana guía al modelo hacia la producción de respuestas más seguras, de mayor calidad y más alineadas.

El RLHF suele constar de tres pasos:

  1. Ajuste de un modelo base con ejemplos supervisados.
  2. Entrenamiento de un modelo de recompensa basado en clasificaciones de preferencias humanas.
  3. Utilizar algoritmos de aprendizaje por refuerzo (como PPO) para optimizar el comportamiento del modelo en función del modelo de recompensa.

RLHF ayuda a alinear los resultados del modelo con las expectativas humanas, reduce las respuestas perjudiciales o incorrectas, mejora la coherencia y permite que los modelos sigan instrucciones de forma más fiable en comparación con el entrenamiento sólo con datos brutos.

La retroalimentación humana puede incluir respuestas clasificadas, preferencias binarias, correcciones, anotaciones o evaluaciones específicas del dominio. Esta información entrena el modelo de recompensa que, en última instancia, influye en el comportamiento del sistema.

Entre los retos se encuentran la escalabilidad del etiquetado humano, la retroalimentación inconsistente o sesgada, la piratería de recompensas, la sobreoptimización hacia objetivos estrechos y el alto coste computacional de los ciclos de entrenamiento del aprendizaje por refuerzo.

Las empresas utilizan RLHF para mejorar la precisión de los chatbot, alinear los asistentes de IA con los conocimientos específicos del dominio, refinar el comportamiento del modelo para el cumplimiento y la seguridad, y optimizar los modelos de toma de decisiones basados en el juicio humano experto.