Die menschliche belohnungsgesteuerte Lernweise wird oft mit einfachen RL-Algorithmen modelliert, die vergangene Erfahrungen in Schlüsselvariablen wie Q-Werten zusammenfassen, die erwartete Belohnungen darstellen. Neueste Befunde legen jedoch nahe, dass diese Modelle die Komplexität des menschlichen Gedächtnisses und der Entscheidungsfindung vereinfachen. ANNs, ...