Entwirrung des menschlichen Belohnungslernens: Ein hybrider Ansatz, der Verstärkungslernen mit fortgeschrittenen Speicherarchitekturen kombiniert.

Entwirrung des menschlichen Belohnungslernens: Ein hybrider Ansatz, der Verstärkungslernen mit fortgeschrittenen Speicherarchitekturen kombiniert.

Die menschliche belohnungsgesteuerte Lernweise wird oft mit einfachen RL-Algorithmen modelliert, die vergangene Erfahrungen in Schlüsselvariablen wie Q-Werten zusammenfassen, die erwartete Belohnungen darstellen. Neueste Befunde legen jedoch nahe, dass diese Modelle die Komplexität des menschlichen Gedächtnisses und der Entscheidungsfindung vereinfachen. ANNs, insbesondere RNNs, bieten ein komplexeres Modell, das langfristige Abhängigkeiten und komplexe Lernmechanismen erfasst, obwohl sie oft interpretierbarer sein müssen als traditionelle RL-Modelle.

Forscher von Institutionen wie Google DeepMind, der Universität Oxford, der Princeton University und dem University College London haben das menschliche Belohnungslernverhalten unter Verwendung eines hybriden Ansatzes aus RL-Modellen und ANNs untersucht. Sie fanden heraus, dass das menschliche Verhalten durch Algorithmen angemessen erklärt werden muss, die Wahlvariablen inkrementell aktualisieren. Das menschliche Belohnungslernen beruht auf einem flexiblen Gedächtnissystem, das komplexe Darstellungen vergangener Ereignisse über mehrere Zeitabläufe bildet.

Ein Datensatz wurde aus einer Belohnungserlernaufgabe mit 880 Teilnehmern gesammelt. Die Studie umfasste nach der Filterung 862 Teilnehmer und 617.871 gültige Versuche. Die meisten Teilnehmer lernten die Aufgabe, indem sie konsequent Aktionen mit höheren Belohnungen wählten. Dieser umfangreiche Datensatz ermöglichte eine signifikante Verhaltensvarianzextraktion unter Verwendung von RNNs und Hybridmodellen, die die traditionellen RL-Modelle in der Erfassung menschlicher Entscheidungsmuster übertrafen.

Die Daten wurden zunächst mit einem traditionellen RL-Modell (Best RL) und einem flexiblen Vanilla RNN modelliert. Das Vanilla RNN, das Aktionen, Belohnungen und latente Zustände zusammen verarbeitet, sagte die Entscheidungen genauer voraus als Best RL. Weitere Hybridmodelle wie RL-ANN und Context-ANN, die sich gegenüber Best RL verbesserten, konnten jedoch den Vanilla RNN nicht übertreffen. Memory-ANN, das rekurrente Gedächtnisrepräsentationen einbezieht, erreichte die Leistung des Vanilla RNN, was darauf hindeutet, dass eine detaillierte Verwendung des Gedächtnisses entscheidend für das Lernen der Teilnehmer in der Aufgabe war.

Die Studie zeigt, dass traditionelle RL-Modelle, die ausschließlich auf inkrementell aktualisierten Entscheidungsvariablen beruhen, im Vergleich zu einem neuartigen Modell, das entscheidungssensitive Gedächtnisfunktionen integriert, in der Vorhersage menschlicher Entscheidungen aufholen müssen. Dieser neue Ansatz trennt Entscheidungs- und Gedächtnisvariablen, was zu einem besseren Verständnis führt, wie das Lernen die Entscheidungen beeinflusst.

Memory-ANN, die vorgeschlagene modulare kognitive Architektur, trennt belohnungsbasiertes Lernen von aktionsbasiertem Lernen. Diese Erkenntnisse stimmen darin überein, dass komplexe Modelle mit reichen Darstellungen das gesamte Spektrum menschlichen Verhaltens, insbesondere in Lernaufgaben, erfassen müssen. Die gewonnenen Erkenntnisse könnten breitere Anwendungen haben, die sich auf verschiedene Lernaufgaben und die Kognitionswissenschaft erstrecken.