Ein Team des MIT hat Tests vorgeschlagen, um die Sehfähigkeiten von Sprachmodellen zu überprüfen. Dies beinhaltet die Fähigkeit, Codes für komplexe visuelle Konzepte zu schreiben, visuelle Konzepte aus Code zu erkennen und Rendering-Codes mit reinem Text-Feedback zu korrigieren. Die Forscher konnten beobachten, dass Sprachmodelle Verbesserungen in ihren Bildern vornehmen, wenn sie angewiesen wurden, ihre Codes für verschiedene Bilder selbst zu korrigieren.
Die CSAIL-Forscher des MIT haben herausgefunden, dass Sprachmodelle, die ausschließlich auf Text trainiert sind, ein solides Verständnis von der visuellen Welt haben. Sie können Bildrendering-Codes schreiben, um komplexe Szenen zu erstellen und verbessern sogar ihre Bilder, wenn sie nicht korrekt verwendet werden. Die visuelle Kenntnis dieser Sprachmodelle stammt aus Beschreibungen von Konzepten wie Formen und Farben im Internet. Die Forscher testeten die visuellen Fähigkeiten der Modelle und verwendeten die Ergebnisse, um ein Computersichtsystem zu trainieren, das den Inhalt von echten Fotos erkennt.
Die Forscher erstellten ein Datenset für die visuelle Überprüfung der Sprachmodelle, indem sie die Modelle aufforderten, Codes für verschiedene Formen, Objekte und Szenen zu generieren. Diese Codes wurden verwendet, um einfache digitale Illustrationen zu rendern, wie beispielsweise eine Reihe von Fahrrädern. Die Forscher stellten fest, dass die Sprachmodelle genug räumliches Verständnis haben, um die Fahrräder horizontal anzuordnen. Obwohl die Modelle manchmal Probleme haben, bestimmte Konzepte zu erkennen, können sie diese immer wieder auf unterschiedliche Weise zeichnen, was auf echte Vorstellungen von visuellen Konzepten hindeutet.
Zum Training des Computersichtsystems wurden diese Illustrationen verwendet, obwohl das System nie zuvor echte Fotos gesehen hatte. Die CSAIL-Gruppe glaubt, dass die Kombination des versteckten visuellen Wissens von Sprachmodellen mit den künstlerischen Fähigkeiten anderer KI-Tools vorteilhaft sein könnte. Sie planen, ihre Forschung fortzusetzen, um die Ursprünge dieses visuellen Wissens weiter zu untersuchen und ein besseres Visionssystem zu entwickeln.
Hinterlasse eine Antwort