Meta’s KI-Vision-Modelle überzeugen in der freien Wildbahn

Meta’s KI-Vision-Modelle überzeugen in der freien Wildbahn

Meta AI, das Mutterunternehmen von Facebook, hat die Sapiens-Familie von Hochleistungs-Visionsmodellen vorgestellt, die darauf ausgelegt sind, in “wildlebenden” Umgebungen zu glänzen und die Einschränkungen traditioneller Modelle zu überwinden, die häufig auf kontrollierte Studioeinstellungen beschränkt sind. Diese Modelle konzentrieren sich auf vier grundlegende, menschenzentrierte Visionsaufgaben, darunter 2D-Posenschätzung, Körperteilsegmentierung, Tiefenschätzung und Oberflächennormalenvorhersage. Die Modelle bieten sowohl Anpassungsfähigkeit als auch robuste Leistung, da sie einfach an individuelle Aufgaben angepasst werden können, indem vortrainierte Modelle auf über 300 Millionen wildlebende Bilder von Menschen verfeinert werden.

Um die Modelle an reale Szenarien anzupassen, verwenden sie eine Kombination aus einem groß angelegten, kuratierten Trainingsdatensatz und einer skalierbaren Architektur basierend auf Vision-Transformern. Interesse an Transformatoren ist seit etwa 2018 stark gewachsen, insbesondere bei Modellen für die natürliche Sprachverarbeitung, aber auch bei Modellen wie Google DeepMind’s AlphaFold 2 für die Vorhersage von Proteinstrukturen. Computer Vision wird ebenfalls immer beliebter.

Vor Sapiens hatte Meta bereits Erfahrung mit Transformer-Architekturen gesammelt, indem sie Modelle wie Data-efficient Image Transformers (DeiT) im Jahr 2021 und DETR (DEtection TRansformer), ein Objekterkennungs-Framework, entwickelt haben. In Sapiens ermöglichen Transformatoren-Aufmerksamkeitsmechanismen den verschiedenen Modellen, die Bedeutung verschiedener Teile des Eingabebildes zu gewichten und sich dynamisch auf die relevantesten Merkmale zu konzentrieren. Diese Fähigkeiten ermöglichen es den Modellen, menschliche Pose, Segmentierung, Tiefe und Oberflächen-Normalen in verschiedenen Szenarien genau zu erfassen.

Die Sapiens-Modelle sind für vier menschliche Aufgaben konzipiert: 2D-Posenschätzung, Körperteilsegmentierung, Tiefenvorhersage und Normalenvorhersage. Das Ziel von Sapiens ist es, ein vereinheitlichtes Framework und Modelle anzubieten, um eine Vielzahl menschenzentrierter Anwendungen für jeden zugänglich zu machen. In Zukunft könnten die Modelle ein Werkzeug zur Entwicklung zukünftiger Generationen von menschlichen Visionsmodellen sein.

Die Sapiens-Modelle könnten in Bereichen wie Unterhaltung, Augmented und Virtual Reality, Überwachung und Sicherheit sowie im Gesundheitswesen vielfältige Anwendungen finden. Die präzise Körperhaltungs- und Tiefenschätzfähigkeiten könnten beispielsweise für Ganganalysen, physiotherapeutische Überwachung oder ergonomische Bewertungen nützlich sein. [Von Metas Arxiv-Papier]Die Sapiens-Modelle sind kostenlos auf GitHub zum Download verfügbar.