Verstärkendes Lernen, Teil 7: Einführung in die Wertefunktion-Approximation

Verstärkendes Lernen, Teil 7: Einführung in die Wertefunktion-Approximation

Reinforcement Learning ist ein Bereich des maschinellen Lernens, der die Konzept des Agenten einführt, der optimale Strategien in komplexen Umgebungen lernt. Dabei lernt der Agent aus seinen Handlungen, die Belohnungen basieren auf dem Zustand der Umgebung. Reinforcement Learning ist ein herausforderndes Thema und unterscheidet sich signifikant von anderen Bereichen des maschinellen Lernens. Ein bemerkenswerter Aspekt des Reinforcement Learning ist, dass die gleichen Algorithmen dem Agenten ermöglichen können, sich an komplett unterschiedliche, unbekannte und komplexe Bedingungen anzupassen.

Bisher haben wir nur über tabellarische Reinforcement-Learning-Methoden gesprochen. Der Begriff “tabellarisch” bedeutet hier, dass alle möglichen Aktionen und Zustände aufgelistet werden können. Das Ziel unserer Algorithmen war es bisher, diese Wertefunktion zu finden und sie zu verwenden, um eine optimale Strategie abzuleiten. Es gibt jedoch zwei große Probleme hinsichtlich tabellarischer Methoden, die wir zunächst betrachten und dann einen neuartigen Ansatz zur Überwindung dieser Hindernisse vorstellen müssen.

Die Idee der Wertefunktionsapproximation besteht darin, einen parametrisierten Vektor w zu verwenden, der eine Wertefunktion approximieren kann. Unser Ziel ist es, v̂ und w zu finden. Die Funktion v̂ kann verschiedene Formen annehmen, aber der häufigste Ansatz ist die Verwendung eines überwachten Lernalgorithmus. Somit kann v̂ eine lineare Regression, einen Entscheidungsbaum oder sogar ein neuronales Netzwerk sein. Jeder Zustand s kann als Satz von Merkmalen dargestellt werden, die diesen Zustand beschreiben. Diese Merkmale dienen als Eingabe für den Algorithmus v̂.

Es gibt zwei Hauptprobleme, die mit der präsentierten Idee des überwachten Lernens adressiert werden müssen. Erstens hängen die erlernten Zustandswerte nicht mehr voneinander ab. Zweitens erfordern überwachte Lernalgorithmen Ziele für das Training, die nicht verfügbar sind. Diese Probleme können durch die Bestimmung einer Zustandsverteilung und die Verwendung eines bestimmten Verlustfunktion gelöst werden. Zu den bevorzugten Methoden gehören Stochastic-Gradient-Verfahren, Gradient Monte Carlo und Semi-Gradient Methoden, die die Art der Approximation und die Garantien für den Konvergenzpunkt beeinflussen.

In der Zusammenfassung umfasst dieser Artikel die Skalierbarkeitsgrenzen von Standard-Tabellalgorithmen und führt in Wertefunktionsapproximationsmethoden ein, die es ermöglichen, das Problem des Reinforcement Learning elegant in eine überwachte maschinelle Lernaufgabe umzuwandeln.