Forscher von Google DeepMind schlagen dynamisches visuelles Gedächtnis für flexible Bildklassifizierung vor

Forscher von Google DeepMind schlagen dynamisches visuelles Gedächtnis für flexible Bildklassifizierung vor

Deep-Learning-Modelle stellen Wissen in der Regel statisch dar, was es schwierig macht, sich an sich verändernde Datenbedürfnisse und Konzepte anzupassen. Diese Starrheit erfordert häufiges Neutrainieren oder Feinabstimmung, um neue Informationen zu integrieren, was praktikabler sein könnte. Das Forschungspapier “Towards Flexible Perception with Visual Memory” von Geirhos et al. präsentiert eine innovative Lösung, die die symbolische Stärke von tiefen neuronalen Netzwerken mit der Anpassungsfähigkeit einer visuellen Gedächtnisdatenbank integriert. Durch die Zerlegung der Bildklassifizierung in Bildähnlichkeit und schnelles Retrieval des nächsten Nachbarn führen die Autoren ein flexibles visuelles Gedächtnis ein, das Daten nahtlos hinzufügen und entfernen kann.

Aktuelle Methoden zur Bildklassifizierung beruhen oft auf statischen Modellen, die ein Neutrainieren erfordern, um neue Klassen oder Datensätze zu integrieren. Traditionelle Aggregationstechniken wie Pluralität und Softmax-Voting können zu Übervertrauen in Vorhersagen führen, insbesondere bei der Betrachtung von entfernten Nachbarn. Die Autoren schlagen ein auf Retrieval basierendes visuelles Gedächtnissystem vor, das eine Datenbank von Merkmal-Label-Paaren aufbaut, die aus einem vortrainierten Bildencoder wie DinoV2 oder CLIP extrahiert wurden. Dieses System ermöglicht eine schnelle Klassifizierung durch das Abrufen der k nächsten Nachbarn basierend auf der kosinusbasierten Ähnlichkeit, was dem Modell ermöglicht, sich an neue Daten anzupassen, ohne Neuabstimmung.

Die Methodik besteht aus zwei Hauptteilen: dem Aufbau des visuellen Gedächtnisses und der Durchführung von Nachbar-basierten Inferenzen. Das visuelle Gedächtnis wird erstellt, indem Merkmale aus einem Datensatz extrahiert und in einer Datenbank gespeichert werden. Wenn ein Abfragebild präsentiert wird, werden seine Merkmale mit denen im visuellen Gedächtnis verglichen, um die nächsten Nachbarn abzurufen. Die Autoren stellen eine neue Aggregationsmethode namens RankVoting vor, die Gewichte an Nachbarn auf der Grundlage des Rangs vergibt, traditionelle Methoden übertreffend und die Klassifikationsgenauigkeit verbessert.