Sprachmodelle haben in der Verstärkungslernmethode durch menschliches Feedback (RLHF) an Bedeutung gewonnen, aber aktuelle Belohnungsmodellierungsansätze stehen vor Herausforderungen, um menschliche Präferenzen genau einzufangen. Traditionelle Belohnungsmodelle, die als einfache Klassifizierer trainiert sind, haben Schwierigkeiten, eine explizite Bewertung zur Antwortqualität durchzuführen, was ihre Wirksamkeit bei der Lenkung des Verhaltens von LLM einschränkt. Das Hauptproblem liegt in ihrer Unfähigkeit, Schlussfolgerungsspuren zu generieren, was alle Bewertungen dazu zwingt, implizit in einem einzigen Durchlauf zu erfolgen. Dies hemmt die Fähigkeit des Modells, die Feinheiten menschlicher Präferenzen gründlich zu bewerten. Alternativansätze wie das LLM-als-Richter Framework haben versucht, diese Einschränkung anzugehen, aber sie unterperformen im Allgemeinen gegenüber klassischen Belohnungsmodellen bei der Paarpräferenzklassifikationsaufgabe, was die Notwendigkeit einer wirksameren Methode hervorhebt.
Forscher haben verschiedene Ansätze untersucht, um die Herausforderungen der Belohnungsmodellierung für Sprachmodelle zu bewältigen. Ranglistenmodelle wie Bradley-Terry und Plackett-Luce wurden eingesetzt, haben aber Schwierigkeiten mit transitiven Präferenzen. Einige Studien modellieren direkt die Wahrscheinlichkeit, dass eine Antwort gegenüber einer anderen bevorzugt wird, während andere sich darauf konzentrieren, Belohnungen über mehrere Ziele zu modellieren. Aktuelle Arbeiten schlagen vor, das Sprachmodell-Head als eine Art Regularisierung beizubehalten und zu trainieren.
Kritikbasierte Rückmeldeverfahren wurden ebenfalls untersucht, wobei einige selbstgenerierte Kritiken verwenden, um die Generierungsqualität zu verbessern oder als Präferenzsignale zu dienen. Diese Ansätze unterscheiden sich jedoch von Bemühungen, bessere Belohnungsmodelle zu trainieren, wenn menschliche Präferenzdaten verfügbar sind. Einige Forscher haben untersucht, die Orakel-Kritiken oder die von Menschen gelabelten Kritikpräferenzen zu verwenden, um Sprachmodelle effektiv zu kritisieren.
Das LLM-als-Richter-Framework, das ein Bewertungsraster verwendet, um Antworten zu bewerten, ähnelt den kritikbasierten Methoden, konzentriert sich jedoch auf die Evaluation anstelle der Überarbeitung. Obwohl dieser Ansatz Ketten von Gedanken hervorbringt, unterperformt er im Allgemeinen gegenüber klassischen Belohnungsmodellen in der Paarpräferenzklassifikationsaufgabe.
Forscher von Databricks, MIT und der University of California, San Diego stellen die Critique-out-Loud (CLoud) Belohnungsmodelle vor, die einen einzigartigen Ansatz zur Verbesserung der Leistung von Sprachmodellen im Verstärkungslernen durch menschliches Feedback darstellen. Diese Modelle generieren eine detaillierte Kritik dazu, wie gut die Antwort eines Assistenten eine Anfrage eines Benutzers beantwortet, bevor sie eine skalare Belohnung für die Antwortqualität erzeugen. Dieser Prozess kombiniert die Stärken klassischer Belohnungsmodelle und des LLM-als-Richter-Frameworks.
CLoud-Belohnungsmodelle werden mit einem Präferenzdatensatz trainiert, der Anfragen, Antworten und Orakelkritiken enthält. Der Schulungsprozess beinhaltet ein überwachtes Feintuning an Orakelkritiken zur Kritikerstellung und dem Bradley-Terry-Präferenzmodell zur skalaren Belohnungserzeugung. Um die Leistung zu verbessern, untersuchen die Forscher Mehrfachprobeninferenztechniken, insbesondere Selbstkonsistenz, die darin besteht, mehrere Kritik-Vorhersagen zu proben und sie für eine genauere Belohnungsschätzung zu marginalisieren.
Dieser innovative Ansatz zielt darauf ab, Belohnungsmodelle und LLM-als-Richter-Methoden zu vereinen und potenziell signifikante Verbesserungen bei der Paarpräferenzklassifikationsgenauigkeit und Gewinnraten in verschiedenen Benchmarks zu erreichen. Die Forscher untersuchen auch wichtige Designentscheidungen, wie On-policy gegenüber Off-policy Training, und die Vorteile von Selbstkonsistenz gegenüber Kritiken zur Optimierung der Belohnungsmodellierung.
Hinterlasse eine Antwort