In diesem Inhalt wird beschrieben, wie simulierte humanoide Roboter mithilfe von fünf neuen Verstärkungslernpapieren darauf trainiert wurden, zu kämpfen. Die fünf verwendeten Algorithmen sind: Deep Deterministic Policy Gradient (DDPG), Decision Transformer, Soft Actor-Critic (SAC), Imagination-Augmented Agents (I2A) mit Proximal Policy Optimization (PPO). Die Simulationsumgebung wurde in der Unity-Maschinenlernalgorithmensimulator erstellt, wobei jeder Roboter mit 21 Aktuatoren auf 9 Gelenken, einer 10×10 RGB-Vision durch eine virtuelle Kamera im Kopf, sowie einem Schwert und einem Schild ausgestattet wurde. Die Belohnungen für die Agenten wurden darin definiert, das Schwert am Gegner anzulegen, die Kopfposition über dem Körper zu halten und sich dem Gegner zu nähern.
Wenn es um die Implementierung der Algorithmen geht, dann basiert das Verständnis darauf, wie der Q-Lernvorgang funktioniert. Q-Learning verfolgt die Q-Funktion Q(s,a), die die erwartete Rückkehr nach der Aktion a_t vom Zustand s_t verfolgt. Um das Q-Funktion zu trainieren, wurden Algorithmen wie DDPG (Deep Deterministic Policy Gradient) verwendet, welcher versucht, in kontinuierlichen Aktionsräumen Q-Netzwerke auf neuartige Weise zu verwenden.
Ein weiterer Algorithmus, der in dem Inhalt behandelt wird, ist Soft Actor-Critic (SAC), der im Vergleich zu DDPG einige Probleme hat, wie z.B. Ungenauigkeiten aufgrund von Rauschen in den Netzwerken oder die Notwendigkeit umfangreicher Hyperparameter-Einstellungen.
Des Weiteren wird der Algorithmus Imagination-Augmented Agents (I2A) in Kombination mit Proximal Policy Optimization (PPO) vorgestellt, um die spezifischen Vorteile dieses Ansatzes für die Roboterbekämpfung zu verdeutlichen.
Ein weiterer wichtiger Aspekt ist die Entscheidungstransformation, bei der Transformer-Architekturen für Verstärkungslernen genutzt werden, um relevante Belohnungen unter sporadischen oder ablenkenden Belohnungen zu identifizieren und von vorherigen suboptimalen Daten zu lernen.
In Bezug auf die Trainingsergebnisse zeigte sich, dass die Entscheidungstransformation die besten Leistungen erbrachte. Es wurde jedoch betont, dass die Trainingszeit und die verwendeten Ressourcen weiter verbessert werden können, um zusätzliche Fortschritte zu erzielen. Der Autor des Inhalts plant, mit Hilfe von NVIDIA-Skill-Einbettungen oder Lifelong Learning die Roboter in Zukunft zu lehren, zuerst zu laufen, bevor sie kämpfen lernen.
Hinterlasse eine Antwort