Die zukünftige Belohnungsschätzung ist entscheidend im Reinforcement Learning, da sie die kumulativen Belohnungen vorhersagt, die ein Agent möglicherweise erhält, typischerweise durch Q-Wert oder Zustandswertfunktionen. Diese skalar Ausgaben fehlt jedoch Details darüber, wann oder welche spezifischen Belohnungen der Agent erwartet. Diese ...