Mit Nvidia und KI angetrieben, nehmen menschenähnliche Ambitionen Form an

Mit Nvidia und KI angetrieben, nehmen menschenähnliche Ambitionen Form an

Als das Verteidigungsministerium 2015 mit seinem Robotik-Wettbewerb begann, war das erklärte Ziel, Bodenroboter zu entwickeln, die mit Hilfe menschlicher Bediener bei der Katastrophenbewältigung helfen können. Jeder Roboter hatte eine Stunde Zeit, um acht Aufgaben zu erledigen, darunter das Fahren eines Autos und das Besteigen einiger Treppen. Fast ein Jahrzehnt später beschleunigt die generative KI diese Lernkurve und kann menschenähnliche Maschinen dazu bringen, neue Aufgaben in Echtzeit zu übernehmen.

Die Vision von Null-Fehler-Lernen, bei dem der Roboter gezeigt wird, was zu tun ist, und es genauso ausführt wie der Bediener, rückt langsam in greifbare Nähe. Letzte Woche enthüllte das von OpenAI unterstützte Unternehmen Figure die neueste Version seines humanoiden Roboters. Der Roboter ist mit einem visuellen Sprachmodell ausgestattet, das es der Maschine ermöglicht, visuell zu argumentieren und gelerntes Verhalten selbst zu korrigieren. Im Juni präsentierte Tesla eine aktualisierte Version seines Optimus-Roboters auf der Tesla-Investorenkonferenz und zeigte ihn auf einem Fabrikboden.

Roboter wurden bereits seit Jahren in Fabrikhallen und Lagern integriert, um die Effizienz zu steigern. Aktuelle Maschinen können jedoch oft nur von A nach B bewegt werden und einige wenige Aufgaben erledigen. Menschähnliche Roboter, die sich an bestehende Umgebungen anpassen können, wurden schon immer als Ultima Ratio angesehen, wenn es darum geht, ob sie in Räumen arbeiten können, die für sie geschaffen wurden. Nvidia treibt die schnelle Entwicklung von Humanoiden voran, indem sie ein speziell für Humanoiden entwickeltes Ökosystem bietet, das leistungsstarke Chips mit einer hohen Verarbeitungsgeschwindigkeit und dem Omniversum kombiniert. Die Firma kündigte die Entwicklung von KI-Grundlagenmodellen an, und letzen Monat stellte sie “NIM Microservices” vor, ein visuelles Trainingsfeld, das es generativen KI-Modellen ermöglicht, ihre Umgebung in 3D visuell zu interpretieren.