Die Forscher haben die Hypothese aufgestellt, dass das visuelle Lernen von Säuglingen von der Ortswahrnehmung abhängt. Um ein egokentrisches Datensatz mit raumzeitlichen Informationen zu generieren, haben sie virtuelle Umgebungen auf der Plattform ThreeDWorld eingerichtet, die eine hochwertige, interaktive 3D-physikalische Simulationsumgebung bietet. Dies ermöglichte es ihnen, die Lage der ansehenden Kameras zu manipulieren und zu messen, als ob ein Kind durch ein Haus gehen würde.
Die Wissenschaftler haben drei Simulationsumgebungen erstellt – House14K, House100K und Apartment14K, wobei “14K” und “100K” auf die ungefähre Anzahl der Bilder in jeder Umgebung verweisen. Anschließend führten sie Basiskontrastlernmodelle und Modelle mit dem neuen Algorithmus dreimal durch die Simulationen, um zu sehen, wie gut jedes Bild klassifiziert wurde. Das Team stellte fest, dass Modelle, die nach ihrem Algorithmus trainiert wurden, auf eine Vielzahl von Aufgaben besser abschnitten als die Basismodelle. Zum Beispiel erzielte das verfeinerte Modell bei der Aufgabe, den Raum in der virtuellen Wohnung zu erkennen, im Durchschnitt 99,35%, eine Verbesserung von 14,99% gegenüber dem Basismodell. Diese neuen Datensätze stehen anderen Wissenschaftlern zur Verfügung, um sie zum Training auf www.child-view.com zu verwenden.
Die Forschung hat Auswirkungen auf die zukünftige Entwicklung fortschrittlicher KI-Systeme, die dazu gedacht sind, in neuen Umgebungen zu navigieren und daraus zu lernen. Dieser Ansatz wäre besonders vorteilhaft in Situationen, in denen ein Team autonomer Roboter mit begrenzten Ressourcen lernen muss, wie sie sich in einer völlig unbekannten Umgebung zurechtfinden können. Um den Weg für zukünftige Anwendungen zu ebnen, planen die Forscher, ihr Modell zu verbessern, um räumliche Informationen besser zu nutzen und vielfältigere Umgebungen einzubeziehen.
Hinterlasse eine Antwort