Vertiefendes Lernen, Teil 6: n-Schritt-Bootstrapping

Vertiefendes Lernen, Teil 6: n-Schritt-Bootstrapping

Die Grenzen erweiternd: Verallgemeinerung von temporalen Differenzalgorithmen. Verstärkendes Lernen ist ein Gebiet im maschinellen Lernen, das die Konzeption eines Agenten einführt, der optimale Strategien in komplexen Umgebungen lernt. Der Agent lernt aus seinen Handlungen, die zu Belohnungen führen, basierend auf dem Zustand der Umgebung. Verstärkendes Lernen ist ein anspruchsvolles Thema und unterscheidet sich erheblich von anderen Bereichen des maschinellen Lernens.

Was bemerkenswert ist am verstärkenden Lernen, ist dass dieselben Algorithmen verwendet werden können, um den Agenten an vollständig unterschiedliche, unbekannte und komplexe Bedingungen anzupassen. In diesem Artikel wird die Verallgemeinerung von TD-Konzepten betrachtet und wann es vorteilhaft sein könnte, andere Algorithmusvarianten zu verwenden.

In vorherigen Teilen wurde analysiert, wie TD-Algorithmen durch Kombination von Prinzipien der dynamischen Programmierung und MC-Methoden arbeiten. Außerdem wurde ein Ein-Schritt-TD-Algorithmus betrachtet. In diesem Artikel werden TD-Konzepte verallgemeinert und Varianten von Algorithmen beleuchtet. Der Artikel basiert auf dem Buch “Reinforcement Learning” von Richard S. Sutton und Andrew G. Barto.

Nebenbei wurden die Vorzüge von Ein-Schritt-TD-Algorithmen gegenüber MC-Methoden diskutiert und wie sie zu schnellerer Konvergenz führen. In der Praxis ist allerdings n = 1 nicht immer die beste Wahl. Man sollte den besten Wert für n als problemabhängig betrachten und sorgfältig auswählen, um das Optimum zu finden.