Enthüllung von SAM 2: Metas neues Open-Source-Grundmodell für Echtzeit-Objektsegmentierung in Videos und Bildern

Enthüllung von SAM 2: Metas neues Open-Source-Grundmodell für Echtzeit-Objektsegmentierung in Videos und Bildern

In den letzten Jahren hat die Welt der KI bemerkenswerte Fortschritte bei der Grundlagen-KI für die Textverarbeitung erlebt, mit Fortschritten, die Branchen von Kundenservice bis hin zur Rechtsanalyse verändert haben. Doch wenn es um die Bildverarbeitung geht, kratzen wir nur an der Oberfläche. Die Komplexität visueller Daten und die Herausforderungen beim Training von Modellen, um Bilder genau zu interpretieren und zu analysieren, haben signifikante Hindernisse dargestellt. Während Forscher weiterhin die Grundlagen-KI für Bilder und Videos erforschen, hält die Zukunft der Bildverarbeitung in der KI Potenzial für Innovationen im Gesundheitswesen, bei autonomen Fahrzeugen und darüber hinaus.

Objektsegmentierung, bei der die genauen Pixel in einem Bild identifiziert werden, die einem Objekt von Interesse entsprechen, ist eine kritische Aufgabe in der Computer Vision. Traditionell war dies mit der Erstellung spezialisierter KI-Modelle verbunden, was umfangreiche Infrastruktur und große Mengen annotierter Daten erfordert. Meta führte im letzten Jahr das Segment-Anything-Modell (SAM) ein, ein Grundlagen-KI-Modell, das diesen Prozess vereinfacht, indem Benutzern ermöglicht wird, Bilder mit einer einfachen Aufforderung zu segmentieren. Diese Innovation reduzierte die Notwendigkeit spezialisierter Expertise und umfangreicher Rechnerressourcen und machte die Bildsegmentierung zugänglicher.

Nun geht Meta einen Schritt weiter mit SAM 2. Diese neue Version verbessert nicht nur SAMs vorhandene Bildsegmentierungsfunktionen, sondern erweitert sie auch auf die Videobearbeitung. SAM 2 kann jedes Objekt in Bildern und Videos segmentieren, selbst solche, die es zuvor nicht gesehen hat. Dieser Fortschritt ist ein Sprung vorwärts im Bereich der Computer Vision und Bildverarbeitung, und bietet ein vielseitigeres und leistungsfähigeres Werkzeug zur Analyse von visuellen Inhalten. In diesem Artikel werden wir uns mit den spannenden Fortschritten von SAM 2 befassen und sein Potential diskutieren, das Feld der Computer Vision neu zu definieren.

Die Einführung des Segment-Anything-Modells (SAM)
Traditionelle Segmentierungsmethoden erfordern entweder eine manuelle Verfeinerung, die als interaktive Segmentierung bekannt ist, oder umfangreiche annotierte Daten für die automatische Segmentierung in vordefinierten Kategorien. SAM ist ein Grundlagen-KI-Modell, das die interaktive Segmentierung mit vielseitigen Aufforderungen wie Klicks, Boxen oder Texteingaben unterstützt. Es kann auch mit minimalen Daten und Rechenressourcen für die automatische Segmentierung feinabgestimmt werden. Mit Schulungen über 1 Milliarde verschiedener Bildannotationen kann SAM neue Objekte und Bilder verarbeiten, ohne dass eine benutzerdefinierte Datensammlung oder Feinabstimmung erforderlich ist.

SAM arbeitet mit zwei Hauptkomponenten: einem Bild-Encoder, der das Bild verarbeitet, und einem Aufforderungs-Encoder, der Eingaben wie Klicks oder Text verarbeitet. Diese Komponenten kommen mit einem leichten Decoder zusammen, um Segmentierungsmasken vorherzusagen. Nach der Verarbeitung des Bildes kann SAM in nur 50 Millisekunden eine Segment erstellen – ein leistungsstarkes Werkzeug für Echtzeit- und interaktive Aufgaben. Zur Erstellung von SAM entwickelten Forscher einen dreistufigen Datenbeschaffungsprozess: modelassistierte Annotation, eine Mischung aus automatischer und assistierter Annotation, und vollautomatische Maskenerstellung. Dieser Prozess führte zum SA-1B-Datensatz, der über 1,1 Milliarden Masken auf 11 Millionen lizenzierten, die Privatsphäre wahrenden Bildern umfasst – 400 Mal größer als jeder vorhandene Datensatz. Die beeindruckende Leistung von SAM beruht auf diesem umfangreichen und vielfältigen Datensatz und gewährleistet eine bessere Repräsentation in verschiedenen geografischen Regionen im Vergleich zu früheren Datensätzen.

Enthüllung von SAM 2: Ein Schritt von der Bild- zur Videosegmentierung
Aufbauend auf der Grundlage von SAM ist SAM 2 für die Echtzeit-, abrufbare Objektsegmentierung in Bildern und Videos konzipiert. Im Gegensatz zu SAM, das sich ausschließlich auf statische Bilder konzentriert, bearbeitet SAM 2 Videos, indem es jedes Frame als Teil einer kontinuierlichen Sequenz betrachtet. Dadurch kann SAM 2 dynamische Szenen und sich verändernde Inhalte effektiver handhaben. Bei der Bildsegmentierung verbessert SAM 2 nicht nur die Fähigkeiten von SAM, sondern ist auch dreimal schneller bei interaktiven Aufgaben.

SAM 2 behält die gleiche Architektur wie SAM bei, führt jedoch einen Speichermechanismus für die Videobearbeitung ein. Diese Funktion ermöglicht es SAM 2, Informationen aus früheren Frames zu speichern, um eine konsistente Objektsegmentierung trotz Veränderungen in Bewegung, Beleuchtung oder Verdeckung zu gewährleisten. Durch Bezugnahme auf vergangene Frames kann SAM 2 seine Maskenprognosen im gesamten Video verfeinern.

Das Modell ist auf dem neu entwickelten Datensatz SA-V trainiert, der über 600.000 Masklet-Annotationen auf 51.000 Videos aus 47 Ländern umfasst. Dieser vielfältige Datensatz umfasst sowohl ganze Objekte als auch deren Teile und verbessert die Genauigkeit von SAM 2 bei der Videosegmentierung in der realen Welt.

SAM 2 steht als Open-Source-Modell unter der Apache 2.0-Lizenz zur Verfügung, was es für verschiedene Anwendungen zugänglich macht. Meta hat auch den Datensatz, der für SAM 2 verwendet wurde, unter einer CC BY 4.0-Lizenz geteilt. Zudem gibt es eine webbasierte Demo, die es Benutzern ermöglicht, das Modell zu erkunden und seine Leistung zu sehen.