Meta präsentiert Sapiens: Grundlage für menschliche Sichtmodelle.

Meta präsentiert Sapiens: Grundlage für menschliche Sichtmodelle.

Die groß angelegte Vorbereitung gefolgt von einer aufgabenbezogenen Feinabstimmung hat die Sprachmodellierung revolutioniert und transformiert nun die Computer Vision. Durch umfangreiche Datensätze wie LAION-5B und JFT-300M wird die Vorbereitung über herkömmliche Benchmarks hinaus ermöglicht, wodurch die visuellen Lernfähigkeiten erweitert werden. Modelle wie DINOv2, MAWS und AIM haben bedeutende Fortschritte bei der selbstüberwachten Merkmalsgenerierung und der Maskenautoencoder-Skalierung erzielt. Es gibt jedoch einen Mangel an Ansätzen, die den Menschen in den Mittelpunkt stellen, da sie sich hauptsächlich auf die allgemeine Bildvorbereitung oder die Null-Schuss-Klassifizierung konzentrieren.

Dieses Papier stellt Sapiens vor, eine Sammlung von hochauflösenden Vision-Transformer-Modellen, die auf Millionen von menschlichen Bildern vorab trainiert sind. Im Gegensatz zu früheren Arbeiten, die Vision-Transformer nicht im gleichen Maße wie große Sprachmodelle skaliert haben, schließt Sapiens diese Lücke, indem es den Humans-300M-Datensatz nutzt. Diese vielfältige Sammlung von 300 Millionen menschlichen Bildern ermöglicht die Untersuchung der Auswirkungen der Verteilung von Vorbereitungsdaten auf nachgelagerte menschenspezifische Aufgaben. Durch die Betonung der menschlichen Zentrierung der Vorbereitung zielt Sapiens darauf ab, das Gebiet der Computer Vision in Bereichen wie der 3D-Menschendigitalisierung, der Schlüsselpunktabschätzung und der Segmentierung von Körperteilen voranzutreiben, die für praktische Anwendungen entscheidend sind.

Die Sapiens-Modelle verwenden eine vielschichtige Methodik, die sich auf die groß angelegte Vorbereitung, hochwertige Annotationen und architektonische Innovationen konzentriert. Der Ansatz verwendet einen kuratierten Datensatz für menschenzentrierte Aufgaben, der präzise Annotationen mit 308 Schlüsselpunkten für die Posenabschätzung und 28 Segmentierungsklassen betont. Die architektonische Gestaltung priorisiert die Skalierung der Breite gegenüber der Tiefe, wodurch die Leistung verbessert wird, ohne dass signifikante Kostensteigerungen anfallen. Ein Schwerpunkt liegt auf dem schichtweisen Abfallen der Lernrate und der Gewichtsabfalloptimierung. Es wird eine Generalisierung über verschiedene Umgebungen betont und synthetische Daten für die Tiefen- und Normalabschätzung verwendet. Diese strategische Kombination schafft robuste Modelle, die in der Lage sind, verschiedene menschenzentrierte Aufgaben effektiv in realen Szenarien auszuführen und Herausforderungen in vorhandenen öffentlichen Benchmarks anzugehen.

Die Sapiens-Modelle wurden umfassend auf vier primären Aufgaben evaluiert: Posenabschätzung, Teilesegmentierung, Tiefenabschätzung und Normalabschätzung. Die Vorbereitung mit dem Human-300M-Datensatz führte zu einer überlegenen Leistung bei allen Metriken. Die Leistung wurde anhand von mAP für die Posenabschätzung, mIoU für die Segmentierung, RMSE für die Tiefenabschätzung und mittlerem Winkelfehler für die Normalabschätzung quantifiziert. Eine zunehmende Größe des Vorbereitungsdatensatzes verbesserte die Leistung konsistent und zeigte eine Korrelation zwischen Datenvielfalt und Modellgeneralisierung auf. Die Modelle zeigten robuste Generalisierungsfähigkeiten über verschiedene in-the-wild-Szenarien. Insgesamt zeigte Sapiens eine starke Leistung bei allen bewerteten Aufgaben, wobei Verbesserungen mit der Qualität und Menge der Vorbereitungsdaten in Verbindung gebracht wurden. Diese Ergebnisse bestätigen die Wirksamkeit der Sapiens-Methodik bei der Schaffung präziser und generalisierbarer menschlicher Vision Modelle.

Zusammenfassend stellt Sapiens einen bedeutenden Fortschritt in menschenzentrierten Vision-Modellen dar, der eine starke Generalisierung über verschiedene Aufgaben hinweg zeigt. Die außergewöhnliche Leistung resultiert aus der groß angelegten Vorbereitung auf einem kuratierten Datensatz, hochauflösenden Vision-Transformern und hochwertigen Annotationen. Als grundlegendes Element für nachgelagerte Aufgaben positioniert, macht Sapiens hochwertige Vision-Backbones zugänglicher. Mögliche zukünftige Arbeiten könnten sich auf 3D- und multimodale Datensätze erstrecken. Die Forschung betont, dass die Kombination von domänenspezifischer groß angelegter Vorbereitung mit begrenzten hochwertigen Annotationen zu robuster realer Generalisierung führt und den Bedarf an umfangreichen Annotatensätzen verringert. Sapiens erweist sich somit als ein transformatives Modell in der menschenzentrierten Vision und bietet bedeutendes Potenzial für zukünftige Forschung und Anwendungen.