Forscher von Google DeepMind schlagen dynamisches visuelles Gedächtnis für flexible Bildklassifizierung vor

Deep-Learning-Modelle stellen Wissen in der Regel statisch dar, was es schwierig macht, sich an sich verändernde Datenbedürfnisse und Konzepte anzupassen. Diese Starrheit erfordert häufiges Neutrainieren oder Feinabstimmung, um neue Informationen zu integrieren, was praktikabler sein könnte. Das Forschungspapier “Towards Flexible Perception with Visual Memory” von Geirhos et al. präsentiert eine innovative Lösung, die die symbolische Stärke von tiefen neuronalen Netzwerken mit der Anpassungsfähigkeit einer visuellen Gedächtnisdatenbank integriert. Durch die Zerlegung der Bildklassifizierung in Bildähnlichkeit und schnelles Retrieval des nächsten Nachbarn führen die Autoren ein flexibles visuelles Gedächtnis ein, das Daten nahtlos hinzufügen und entfernen kann.

Aktuelle Methoden zur Bildklassifizierung beruhen oft auf statischen Modellen, die ein Neutrainieren erfordern, um neue Klassen oder Datensätze zu integrieren. Traditionelle Aggregationstechniken wie Pluralität und Softmax-Voting können zu Übervertrauen in Vorhersagen führen, insbesondere bei der Betrachtung von entfernten Nachbarn. Die Autoren schlagen ein auf Retrieval basierendes visuelles Gedächtnissystem vor, das eine Datenbank von Merkmal-Label-Paaren aufbaut, die aus einem vortrainierten Bildencoder wie DinoV2 oder CLIP extrahiert wurden. Dieses System ermöglicht eine schnelle Klassifizierung durch das Abrufen der k nächsten Nachbarn basierend auf der kosinusbasierten Ähnlichkeit, was dem Modell ermöglicht, sich an neue Daten anzupassen, ohne Neuabstimmung.

Die Methodik besteht aus zwei Hauptteilen: dem Aufbau des visuellen Gedächtnisses und der Durchführung von Nachbar-basierten Inferenzen. Das visuelle Gedächtnis wird erstellt, indem Merkmale aus einem Datensatz extrahiert und in einer Datenbank gespeichert werden. Wenn ein Abfragebild präsentiert wird, werden seine Merkmale mit denen im visuellen Gedächtnis verglichen, um die nächsten Nachbarn abzurufen. Die Autoren stellen eine neue Aggregationsmethode namens RankVoting vor, die Gewichte an Nachbarn auf der Grundlage des Rangs vergibt, traditionelle Methoden übertreffend und die Klassifikationsgenauigkeit verbessert.

Forscher von Google DeepMind schlagen dynamisches visuelles Gedächtnis für flexible Bildklassifizierung vor

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Wissensgraph-verstärkte Sprachagenten (KGLA): Ein Framework für maschinelles Lernen zur Vereinigung von Sprachagenten und Wissensgraphen für Empfehlungssysteme

Deep Learning verbessert Genauigkeit und Effizienz bei der Vorhersage von Prote Struktur.

Bildmanipulationserkennung basierend auf RDS-YOLOv5-Feature-Verbesserungstransformation

Schnelle inter-frame Bewegungs Korrektur in kontrastfreier Ultraschall-quantitativer Mikrovaskulatur-Bildgebung mit Deep Learning – Wissenschaftliche Berichte

8 Beste Natural Language Processing Tools 2024

Meta warnt vor ‘bedeutender Beschleunigung’ der KI-Kosten nach starkem Q3

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?