Meta hat kürzlich das Segment Anything 2-Modell oder SAM 2 veröffentlicht – ein neuronales Netzwerk, das nicht nur Bilder, sondern auch ganze Videos segmentieren kann. SAM 2 ist ein promptbares interaktives Fundamentsegmentierungsmodell. Das bedeutet, dass Sie auf Objekte klicken oder Bounding-Boxen ziehen können, die Sie segmentieren möchten, und SAM 2 wird eine Maske vorhersagen, die das Objekt isoliert und es über den Eingabeclip verfolgt. Als interaktiv bedeutet, dass Sie die Hinweise nicht nur während des Trainings, sondern auch während der Anwendung bearbeiten können. Zuletzt bedeutet eine Grundlagensegmentierung, dass das Modell auf einem umfangreichen Datensatz trainiert ist und für eine Vielzahl von Anwendungsfällen eingesetzt werden kann.
SAM-2 konzentriert sich auf die PVS- oder Prompt-fähige visuelle Segmentierungsaufgabe. Das Netzwerk muss eine Maskette vorhersagen, die sich auf einen Nutzerhinweis und eine Eingabevideo bezieht. Zu SAM-2 gehört auch eine verbesserte Version der ursprünglichen SAM-Architektur, die auf Bildsegmentierung spezialisiert war. Diese basierte auf der Image Encoder, der Prompt Encoder und der Mask Decoder, um Segmentierungsmasken für angefragte Objekte zu erstellen.
Was unterscheidet SAM-2 und wie wird die oben beschriebene Architektur für Videos angepasst? Das Input-Video wird in mehrere Frames aufgeteilt, die unabhängig voneinander mit einem Vision-Transformer-basierten Masked Auto-encoder-Modell codiert werden. Die Heira-Architektur konvertiert Frame-Eingaben in allgemeine Frame-Embeddings. Wichtig ist, dass diese Embeddings die Videosequenz nicht berücksichtigen und auch nicht den Eingabehinweis. Dadurch kann SAM-2 interaktiv und schnell arbeiten, da die Bildcodierung nur einmal pro Frame durchgeführt werden muss.
Der Prozess der Maskierung in SAM-2 bezieht sich auf die Generierung von Teil- bis Vollsegmentierungsmasken für angeforderte Objekte eines Videos. Durch den Einsatz von Memory und Memory Attention kann SAM-2 historische Informationen speichern und nutzen, um vorherige Masken und Nutzerhinweise in zukünftigen Frames zu berücksichtigen. Die Mask-Decoder und Memory Attention blöcke spielen eine Schlüsselrolle bei der Generierung genauer Segmentierungsmasken für Videoinhalte.
Abschließend kann SAM-2 durch die Verwendung von Input-Hinweisen wie Klicks, Boxen und Masken, die in Prompt-Encodings umgewandelt werden, genaue Segmentierungsmasken für Objekte in Videos erstellen. Die Architektur des Netzwerks ermöglicht eine interaktive Anwendung, wobei historische Informationen aus vorherigen Frames genutzt werden, um präzise Vorhersagen zu generieren.
Hinterlasse eine Antwort