In den letzten Jahren wurden erhebliche Fortschritte bei der Generierung fotorealistischer menschlicher Darstellungen sowohl in 2D als auch in 3D erzielt, dank Fortschritten bei der präzisen Abschätzung verschiedener visueller Assets. Trotz dieser Verbesserungen bleibt die genaue und robuste Abschätzung eine Herausforderung, insbesondere aufgrund der Schwierigkeiten bei der Skalierung von Ground-Truth-Anmerkungen für Alltagsszenarien. Ein Meta-Forschungsteam stellt in einem neuen Paper mit dem Titel “Sapiens: Foundation for Human Vision Models” Sapiens vor, eine Reihe von Modellen, die vier Kernvision-Aufgaben im menschlichen Bereich adressieren: 2D-Posenschätzung, Körperteilsegmentierung, Tiefenschätzung und Vorhersage der Oberflächennormalen. Die Hauptbeiträge des Teams umfassen die Vorstellung von Sapiens als Familie von Vision-Transformern, die auf einem umfangreichen Datensatz von menschlichen Bildern vortrainiert sind.
Die Studie zeigt, dass durch die Kombination einer einfachen Datenkuration mit großangelegtem Vortraining signifikante Leistungssteigerungen ohne zusätzliche Rechenkosten erreicht werden können. Die Modelle, die sowohl mit qualitativ hochwertigen als auch mit synthetischen Labels feinabgestimmt wurden, zeigen starke Verallgemeinerungsfähigkeiten in realen Umgebungen. Sapiens stellt das erste Modell vor, das eine Auflösung von 1K unterstützt und nativ eine hochwertige Inferenz für menschenzentrierte Aufgaben ermöglicht und neue Maßstäbe in der 2D-Posenschätzung, Körperteilsegmentierung, Tiefe und Normalenschätzung setzt. Die Forscher nutzen einen umfangreichen proprietären Datensatz von etwa einer Milliarde Alltagsbildern für das Vortraining. Sie verwenden einen Person-Bounding-Box-Detektor, um Bilder geringerer Qualität herauszufiltern und nur diejenigen mit einer Erkennungswertung über 0,9 und Begrenzungsrahmen über 300 Pixel zu behalten. Während des Vortrainings wird eine Strategie mit einem Maskenautoencoder (MAE) angewendet, bei der das Modell lernt, das Originalbild eines Menschen aus teilweise sichtbaren Segmenten wiederherzustellen. Der Encoder erfasst latente Repräsentationen aus den sichtbaren Teilen des Bildes, während der Decoder das vollständige Bild aus diesen latenten Daten rekonstruiert.
Für die 2D-Posenschätzung verwendet Sapiens einen Top-Down-Ansatz, um Schlüsselpunkte aus einem Eingabebild zu identifizieren. Im Gegensatz zu früheren Modellen, die bis zu 68 Gesichtsschlüsselpunkte verwenden, integriert Sapiens 243 Gesichtsschlüsselpunkte, um komplexe Details um Augen, Nase, Lippen und Ohren zur besseren Darstellung von Gesichtsausdrücken zu erfassen. Bei der Körperteilsegmentierung verwendet das Modell eine Encoder-Decoder-Struktur und führt im Vergleich zu früheren Datensätzen eine detailliertere Klassifizierungsvokabel ein. Dies umfasst feinere Unterscheidungen wie Oberteile und Unterteile sowie spezifische Teile wie Ober- und Unterlippen, Zähne und Zunge. Zur Tiefenschätzung verwenden die Forscher eine ähnliche Architektur wie bei der Segmentierung und modifizieren den Ausgabekanal zur Unterstützung der Regression. Das Tiefenschätzungmodell wird anhand von 500.000 synthetischen Bildern trainiert, die aus 600 hochauflösenden Photogrammetrie-Menschenscans generiert wurden und eine hohe Genauigkeit für die monokulare Tiefenschätzung gewährleisten.
Empirische Ergebnisse zeigen, dass Sapiens signifikant besser abschneidet als bisherige State-of-the-Art-Methoden. Das Modell verbessert die Leistung im Humans-5K-Benchmark für Posenschätzung um 7,6 mAP, im Humans-2K-Benchmark für Körperteilsegmentierung um 17,1 mIoU, im Hi4D-Benchmark für Tiefenschätzung um 22,4% im relativen RMSE und im THuman2-Benchmark für Normalschätzung um 53,5% im relativen Winkelabstand. Zusammenfassend markiert Sapiens einen erheblichen Fortschritt bei humanzentrierten Vision-Modellen und positioniert sich als fundiertes Framework für zukünftige Anwendungen. Die Forscher glauben, dass ihre Modelle zu einem wichtigen Bestandteil in zahlreichen nachgelagerten Aufgaben werden können und eine hochwertige Grundlage für Visionen für eine breitere Gemeinschaft bereitstellen werden. Das Paper “Sapiens: Foundation for Human Vision Models” ist auf arXiv verfügbar. Autor: Hecate He | Editor: Chain Zhang.
Hinterlasse eine Antwort