Sprachmodelle haben in der Verstärkungslernmethode durch menschliches Feedback (RLHF) an Bedeutung gewonnen, aber aktuelle Belohnungsmodellierungsansätze stehen vor Herausforderungen, um menschliche Präferenzen genau einzufangen. Traditionelle Belohnungsmodelle, die als einfache Klassifizierer trainiert sind, haben Schwierigkeiten, eine explizite Bewertung zur Antwortqualität durchzuführen, was ...