Meta's KI-Vision-Modelle überzeugen in der freien Wildbahn

Meta AI, das Mutterunternehmen von Facebook, hat die Sapiens-Familie von Hochleistungs-Visionsmodellen vorgestellt, die darauf ausgelegt sind, in “wildlebenden” Umgebungen zu glänzen und die Einschränkungen traditioneller Modelle zu überwinden, die häufig auf kontrollierte Studioeinstellungen beschränkt sind. Diese Modelle konzentrieren sich auf vier grundlegende, menschenzentrierte Visionsaufgaben, darunter 2D-Posenschätzung, Körperteilsegmentierung, Tiefenschätzung und Oberflächennormalenvorhersage. Die Modelle bieten sowohl Anpassungsfähigkeit als auch robuste Leistung, da sie einfach an individuelle Aufgaben angepasst werden können, indem vortrainierte Modelle auf über 300 Millionen wildlebende Bilder von Menschen verfeinert werden.

Um die Modelle an reale Szenarien anzupassen, verwenden sie eine Kombination aus einem groß angelegten, kuratierten Trainingsdatensatz und einer skalierbaren Architektur basierend auf Vision-Transformern. Interesse an Transformatoren ist seit etwa 2018 stark gewachsen, insbesondere bei Modellen für die natürliche Sprachverarbeitung, aber auch bei Modellen wie Google DeepMind’s AlphaFold 2 für die Vorhersage von Proteinstrukturen. Computer Vision wird ebenfalls immer beliebter.

Vor Sapiens hatte Meta bereits Erfahrung mit Transformer-Architekturen gesammelt, indem sie Modelle wie Data-efficient Image Transformers (DeiT) im Jahr 2021 und DETR (DEtection TRansformer), ein Objekterkennungs-Framework, entwickelt haben. In Sapiens ermöglichen Transformatoren-Aufmerksamkeitsmechanismen den verschiedenen Modellen, die Bedeutung verschiedener Teile des Eingabebildes zu gewichten und sich dynamisch auf die relevantesten Merkmale zu konzentrieren. Diese Fähigkeiten ermöglichen es den Modellen, menschliche Pose, Segmentierung, Tiefe und Oberflächen-Normalen in verschiedenen Szenarien genau zu erfassen.

Die Sapiens-Modelle sind für vier menschliche Aufgaben konzipiert: 2D-Posenschätzung, Körperteilsegmentierung, Tiefenvorhersage und Normalenvorhersage. Das Ziel von Sapiens ist es, ein vereinheitlichtes Framework und Modelle anzubieten, um eine Vielzahl menschenzentrierter Anwendungen für jeden zugänglich zu machen. In Zukunft könnten die Modelle ein Werkzeug zur Entwicklung zukünftiger Generationen von menschlichen Visionsmodellen sein.

Die Sapiens-Modelle könnten in Bereichen wie Unterhaltung, Augmented und Virtual Reality, Überwachung und Sicherheit sowie im Gesundheitswesen vielfältige Anwendungen finden. Die präzise Körperhaltungs- und Tiefenschätzfähigkeiten könnten beispielsweise für Ganganalysen, physiotherapeutische Überwachung oder ergonomische Bewertungen nützlich sein. [Von Metas Arxiv-Papier]Die Sapiens-Modelle sind kostenlos auf GitHub zum Download verfügbar.

Meta’s KI-Vision-Modelle überzeugen in der freien Wildbahn

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Eine umfassende Untersuchung der induktiven Verzerrungen, die hochgradige visuelle Repräsentationen in Gehirn und Maschinen formen

7 Computer Vision Projekte für alle Levels

Quanteninspirierte Techniken reduzieren die Latenz in der Computer Vision, ohne die Genauigkeit zu beeinträchtigen

Solink® stellt Produktverbesserungen vor, die zeigen, wozu Computer Vision bestimmt ist.

Forscher erforschen die Vor- und Nachteile generativer KI in der medizinischen Ausbildung.

Frontiers | Eine Fallstudie zur Erschließung des Potenzials von Deep Learning im Asset-Liability-Management

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360