Aprendizaje por refuerzo a partir feedback humain

Formas y gráficos de datos SaaS sobre la imagen de una mujer en la tecnología

El aprendizaje por refuerzo a partir de feedback humain (RLHF) se utiliza en el aprendizaje automático (ML) para mejorar la precisión y el lenguaje de las respuestas de agentes o modelos utilizando feedback humain. La retroalimentación se puede capturar de forma pasiva, basándose en las ediciones de las salidas, o de forma más activa a través de la puntuación numérica de las respuestas o las evaluaciones de lenguaje natural.

¿Por qué es importante el aprendizaje por refuerzo a partir del feedback humain ?

RLHF es muy útil cuando la retroalimentación es escasa o "ruidosa". Cuando la función ML proporciona un lenguaje natural o un resumen de texto, los humanos pueden juzgar fácilmente la calidad, lo que es difícil de hacer con precisión utilizando un enfoque algorítmico. El modelo RLHF puede afinar su rendimiento utilizando comentarios positivos y negativos haciendo que los humanos clasifiquen los resultados de buenos a malos.

Métodos de aprendizaje

Los humanos pueden proporcionar información explícita a un algoritmo de aprendizaje editando los resultados, que pueden ser revisados por el algoritmo como guía. El ajuste suele comenzar con el uso de conjuntos de datos de entrenamiento. Estos conjuntos incluyen el jeu de données jeu de données ", que contiene instrucciones sin etiquetar, y un jeu de données de preferencias humanas, que contiene pares de respuestas candidatas, incluidas etiquetas que indican la respuesta preferida. Durante la fase de refuerzo, se utiliza un enfoque más indiferente, orientando el aprendizaje hacia las conversaciones que proporcionan las mejores valoraciones de los resultados del agente. Los formadores humanos pueden proporcionar información sobre lo que se ha hecho bien y lo que se ha hecho peor en temas más sofisticados o matizados.

Aplicaciones de RLHF

Hay muchas aplicaciones actuales y emergentes para el RLHF. He aquí algunos ejemplos:

Chatbots conversacionales

Los chatbots conversacionales suelen empezar con un modelo parcialmente preentrenado, y luego los formadores humanos ajustan el modelo base. Cuando se ponen en producción, los chatbots solicitan la opinión de los usuarios para puntuar su comprensión y sus respuestas. Las conversaciones con mayor puntuación se utilizan para establecer puntos de referencia de refuerzo positivo para la mejora continua.

Diálogos GPT

Las conversaciones basadas en GPT pueden utilizar la retroalimentación positiva de los humanos para guiar su aprendizaje. Se pueden desarrollar plug-ins preentrenados que incluyan conocimientos de diversos dominios.

Resumir y traducir textos

Los revisores humanos leen los resúmenes y realizan o sugieren ediciones que el modèle de machine learning utiliza como entrada para los sucesivos intentos. El mismo planteamiento funciona bien en los servicios de traducción y transcripción, donde el modelo tiene que adaptarse a sutiles diferencias locales.

Retos del RLHF

Las conversaciones basadas en la inteligencia artificial (IA) todavía tienen un camino que recorrer para ser tan naturales como las conversaciones humanas reales, pero están madurando rápidamente. La dependencia de la subjetividad humana puede ser problemática porque las opiniones de las distintas personas varían. Las conversaciones rara vez utilizan una gramática pobre, pero pueden tener fallos basados en el uso del lenguaje por parte del formador. Por ejemplo, si el formador es tendencioso o abusa de coloquialismos, el algoritmo captará esos rasgos. Un formador diferente debe marcar estos rasgos negativamente para que dejen de utilizarse. Imagina que entrenas a tu chatbot utilizando demasiados comunicados de prensa y contenidos de marketing. El resultado será que el uso excesivo de hipérboles afecta a la credibilidad del agente de chat. Un modelo poco entrenado suele recurrir a la repetición, lo que puede cansar o irritar al consumidor.

Ventajas del RLHF

A continuación se enumeran muchas de las ventajas de adoptar RLHF:

  • Proporciona una forma de mejorar continuamente la precisión y el rendimiento de las conversaciones basadas en chat.
  • Permite un ajuste más preciso de los diálogos específicos de un dominio utilizando la entrada humana.
  • Permite a los agentes de chat imitar el lenguaje de forma más natural, lo que mejora la atención al cliente.
  • Proporciona al usuario final comentarios que mejoran las interacciones futuras.
  • Permite a los humanos entrenar a la IA para que se adapte mejor a su estilo de interacción, lo que incluye tener una personalidad más informal y menos robótica.

Configure la plataforma de datos Actian en cuestión de minutos

Actian Data Platform proporciona una experiencia unificada para la ingesta, transformación, análisis y almacenamiento de datos. Más de 10.000 clientes de todo el mundo confían en las soluciones Actian. Actian Data Platform puede ejecutarse en múltiples nubes y sur site y configurarse en cuestión de minutos. La tecnología de integración de datos incorporada permite que los datos se carguen rápidamente, para que pueda obtener información rápidamente.

Actian Data Platform proporciona un rendimiento de consulta ultrarrápido, incluso para cargas de trabajo complejas, sin el ajuste que requieren los almacenes de datos tradicionales. Esto se debe a una arquitectura altamente escalable que utiliza stockage en colonnes con procesamiento vectorial para un paralelismo sin igual para el procesamiento de consultas.