Bestärkendes Lernen von menschliches Feedback

SaaS-Daten, Formen und Grafiken über dem Bild einer Frau in der Technologiebranche

Bestärkendes Lernen aus menschliches Feedback (RLHF) wird im Maschinelles Lernen (ML) eingesetzt, um die Genauigkeit und Sprache von Agenten- oder Modellantworten durch menschliches Feedback zu verbessern. Das Feedback kann passiv erfasst werden, auf der Grundlage von Bearbeitungen von Ausgaben, oder aktiver durch numerische Bewertung von Antworten oder natürlichsprachliche Bewertungen.

Warum ist Bestärkendes Lernen aus menschliches Feedback wichtig?

RLHF ist sehr nützlich, wenn das Feedback spärlich oder "verrauscht" ist. Wenn die ML-Funktion eine Zusammenfassung in natürlicher Sprache oder Text liefert, kann der Mensch die Qualität leicht beurteilen, was mit einem algorithmischen Ansatz nur schwer zu erreichen ist. Das RLHF-Modell kann seine Leistung mit Hilfe von positivem und negativem Feedback feinabstimmen , indem Menschen die Ausgaben von gut bis schlecht einstufen.

Lernmethoden

Menschen können einem Lernalgorithmus explizite Rückmeldungen geben, indem sie den Output bearbeiten, der dann vom Algorithmus als Anleitung verwendet werden kann. Die Abstimmung beginnt in der Regel mit der Verwendung von training . Dazu gehören der Datensatz , der unbeschriftete Prompts enthält, und ein menschlicher Datensatz , der Paare von Antwortmöglichkeiten enthält, einschließlich Beschriftungen, die die bevorzugte Prompt-Antwort angeben. In der Verstärkungsphase wird ein stärkerer "Hands-Off"-Ansatz verwendet, indem das Lernen auf die Gespräche gelenkt wird, die die besten Bewertungen für den Output des Agenten liefern. Menschliche Trainer können Rückmeldungen darüber geben, was bei anspruchsvolleren oder nuancierteren Themen gut und weniger gut gemacht wurde.

Anwendungen von RLHF

Es gibt viele aktuelle und neue Anwendungen für RLHF. Hier sind einige Beispiele:

Konversationelle Chatbots

Konversations-Chatbots beginnen in der Regel mit einem teilweise vortrainierten Modell, und dann feinabstimmen menschliche Trainer das Basismodell feinabstimmen . Wenn sie in der Produktion eingesetzt werden, bitten die Chatbots um Nutzer , um deren Verständnis und Antworten zu bewerten. Die Konversationen mit den höchsten Punktzahlen werden verwendet, um positive Verstärkungsmaßstäbe für eine kontinuierliche Verbesserung zu setzen.

GPT-Dialoge

Chats, die eine GPT-gesteuerte Konversation beinhalten, können positives Feedback von Menschen nutzen, um ihr Lernen zu steuern. Es können vorgefertigte Plug-ins entwickelt werden, die Kenntnisse über verschiedene Bereiche enthalten.

Textzusammenfassung und Übersetzung

Menschliche Prüfer lesen Zusammenfassungen und nehmen entweder Änderungen vor oder schlagen Änderungen vor, die das ModellMaschinelles Lernen als Input für nachfolgende Versuche verwendet. Der gleiche Ansatz eignet sich auch für Übersetzungs- und Transkriptionsdienste, bei denen sich das Modell an subtile lokale Unterschiede anpassen muss.

Herausforderungen mit RLHF

Die durch künstliche Intelligenz (KI) gesteuerten Unterhaltungen müssen noch so natürlich sein wie echte menschliche Unterhaltungen, aber sie entwickeln sich schnell weiter. Die Abhängigkeit von der menschlichen Subjektivität kann problematisch sein, weil die Ansichten verschiedener Menschen variieren. Gespräche sind selten grammatikalisch schlecht, können aber aufgrund des Sprachgebrauchs des Trainers Fehler aufweisen. Wenn der Trainer zum Beispiel voreingenommen ist oder zu viele umgangssprachliche Ausdrücke verwendet, wird der Algorithmus diese Merkmale aufgreifen. Ein anderer Trainer muss diese Eigenschaften negativ kennzeichnen, um sie aus dem Gebrauch trainieren . Stellen Sie sich vor, training Ihren Chatbot mit zu vielen Pressemitteilungen und Marketinginhalten. Das Ergebnis wird sein, dass die übermäßige Verwendung von Übertreibungen die Glaubwürdigkeit des Chatbots beeinträchtigt. Ein Modell, das nicht ausreichend trainiert wurde, greift häufig auf Wiederholungen zurück, was den Verbraucher ermüden oder irritieren kann.

Vorteile von RLHF

Nachfolgend sind viele der Vorteile der Einführung von RLHF aufgeführt:

  • Bietet eine Möglichkeit zur kontinuierlichen Verbesserung der Genauigkeit und Leistung von chatbasierten Unterhaltungen.
  • Ermöglicht die Feinabstimmung von domänenspezifischen Dialogen unter Verwendung menschlicher Eingaben.
  • Ermöglicht es Chat-Agenten, die Sprache natürlicher zu imitieren und so den Kundenservice zu verbessern.
  • Bietet einem Nutzer die Möglichkeit, Feedback zu geben, um zukünftige Interaktionen zu verbessern.
  • Sie ermöglicht es den Menschen, die KI so trainieren , dass sie besser auf ihren Interaktionsstil abgestimmt ist, einschließlich eines informelleren und weniger roboterhaften Auftretens.

Einrichten der Actian Data Platform in wenigen Minuten

Die Actian Data Platform bietet eine einheitliche Lösung für das Aufnehmen, Umwandeln, Analysieren und Speichern von Daten. Mehr als 10.000 Kunden auf der ganzen Welt vertrauen auf die Lösungen von Actian. Die Actian Data Platform kann über mehrere Clouds und On-Premises betrieben und in wenigen Minuten konfiguriert werden. Die integrierte Datenintegrationstechnologie ermöglicht ein schnelles Laden von Daten, so dass Sie schnell Einblicke erhalten.

Die Actian Data Platform bietet eine ultraschnelle Anfrage , selbst bei komplexen Workloads, ohne das bei traditionellen Data Warehouses erforderliche Tuning. Dies ist auf eine skalierbar Architektur zurückzuführen, die Vertikale Speicherung mit Vektorverarbeitung für unübertroffene Parallelität bei der Anfrage nutzt.