Hierarchische Objektrepräsentationen im visuellen Kortex und Computer Vision

Hierarchische Objektrepräsentationen im visuellen Kortex und Computer Vision

In den letzten 40 Jahren haben die Neurowissenschaften und die Computational Neuroscience gezeigt, dass ein tieferes Verständnis der visuellen Prozesse bei Menschen und Nicht-Menschenaffen zu wichtigen Fortschritten in den Theorien und Systemen der computergestützten Wahrnehmung führen kann. Ein Hauptproblem bei der Gestaltung automatischer Visionssysteme besteht darin, einen Mechanismus zu entwickeln, der ein Objekt erkennen oder einfach finden kann, wenn es mit allen möglichen Variationen konfrontiert wird, die in einer natürlichen Szene auftreten können und mit der Leichtigkeit des visuellen Systems des Primaten. Der Bereich des Gehirns bei Primaten, der der Analyse visueller Informationen gewidmet ist, ist der visuelle Kortex. Der visuelle Kortex führt eine Vielzahl komplexer Aufgaben durch, die mittels scheinbar einfacher Operationen bewerkstelligt werden. Diese Operationen werden auf mehrere Schichten von Neuronen angewandt, die zu einer Hierarchie organisiert sind, wobei die Schichten zunehmend komplexe, abstrakte Zwischenverarbeitungsstufen repräsentieren.

In diesem Forschungsthema schlagen wir vor, aktuelle Bemühungen in der Neurophysiologie und der Computer Vision zusammenzuführen, um besser zu verstehen: (1) wie der visuelle Kortex ein Objekt von einem Ausgangspunkt codiert, in dem Neuronen auf Linien, Balken oder Kanten reagieren, bis zur Repräsentation eines Objekts an der Spitze der Hierarchie, das unabhängig von Beleuchtung, Größe, Ort, Blickwinkel, Rotation und robust gegen Verdeckungen und Störungen ist; und (2) wie das Design automatischer Visionssysteme von diesem Wissen profitiert, um der menschlichen Genauigkeit, Effizienz und Robustheit bei Variationen näherzukommen. Tatsächlich hat das primate visuelle System bereits seit Jahrzehnten Einfluss auf Computersysteme für die Bildverarbeitung, da simple und komplexe Zellen von Hubel und Wiesel (1968) das Neocognitron von Fukushima (1980) inspirierten.

Die Antworten auf diese Fragen liefern Hypothesen, die teilweise in diesem Forschungsthema angesprochen werden, und werfen zusätzliche neue Fragen auf:
1. Welche Mechanismen sind an diesen visuellen Architekturen beteiligt? Was sind die Grenzen der Feedforward-Verbindungen? Wann sind Rückkopplungen und top-down Aktivierung notwendig? Die klassische Sichtweise von Rückkopplungsverbindungen besteht darin, die Verstärkung neuronaler Reaktionen durch top-down aufmerksame Prozesse zu ermöglichen. Aber in letzter Zeit unterstützen andere Studien eine Rolle von Rückkopplungsverbindungen, die sich auf die Zellenselektivität durch wiederkehrende Netzwerke beziehen.
2. Die Bereiche des ventralen Stroms (V1, V2, V4, inferotemporaler Kortex) wurden in der Regel als diejenigen betrachtet, die an der Objekterkennung beteiligt sind und das Thema mehrerer bestehender Modelle sind. Aber auch in letzter Zeit gibt es neue Erkenntnisse, die den dorsalen Strom mit derselben Aufgabe in Verbindung bringen. Was sind die Unterschiede in der Verarbeitung von Objekten im ventralen und dorsalen Strom? Welche Bereiche sind an der Erkennung und welche an der Lokalisierung beteiligt?
3. Und schließlich, wie viel wird gelernt und wie viel wird genetisch implementiert? Was ist die Beziehung zwischen Lernen, spärlicher Kodierung, Selektivität und Vielfalt und wie vergleichen sich unterschiedliche Lernstrategien?

Wir präsentieren insgesamt 19 Arbeiten zu diesen Fragen. Die folgenden fünf Arbeiten befassen sich mit Fragen im Zusammenhang mit visuellen Architekturen und ihren Mechanismen. Ghodrati et al. untersuchten, ob die jüngsten relativen Erfolge bei der Objekterkennung in verschiedenen Bild-Datensätzen, die auf spärlichen Repräsentationen basieren, die objektive Erkennung eines Durchbruchs bei invarianten Objekten darstellen. In ihrer Studie zeigten sie anhand einer sorgfältig gestalteten parametrisch gesteuerten Bilddatenbank, dass diese Ansätze scheitern, wenn die Komplexität der Bildvariationen hoch ist, und dass ihre Leistung im Vergleich zu Menschen immer noch schlecht ist. Dies legt nahe, dass das Lernen spärlicher informativer visueller Merkmale eine der notwendigen Komponenten sein kann, aber definitiv keine vollständige Lösung für ein menschenähnliches Objekterkennungssystem darstellt. Auch der in dem Papier von Herzog und Clarke untersuchte klassische feedforward-Filteransatz wird herausgefordert, wo die Autoren reichlich Beweise aus Versuchen aus der Crowding-Forschung vorlegten, um ihre Argumente zu unterstützen, dass die Berechnungen nicht rein lokal und feedforward, sondern global und iterativ sind. In derselben Thematik erforschten Tal und Bar die Rolle von top-down Mechanismen, die die Verarbeitung der eingehenden visuellen Informationen beeinflussen und eine schnelle und robuste Erkennung erleichtern. Diese Arbeit befasst sich speziell mit der Frage, was mit anfänglichen Vorhersagen geschieht, die letztendlich in einem Wettbewerbsauswahlprozess abgelehnt werden. Die Arbeit von Marfil et al. fokussiert einen weiteren wichtigen Aspekt biologischer visueller Systeme, nämlich die Aufmerksamkeit. Die Autoren untersuchten eine bidirektionale Beziehung zwischen Segmentierung und Aufmerksamkeitsprozessen. Sie präsentierten ein bottom-up Foveal-Aufmerksamkeitsmodell, das zeigt, wie der Aufmerksamkeitsprozess die Auswahl der nächsten Position der Fovea beeinflusst und wie die Segmentierung wiederum die Extraktion von Aufmerksamkeitseinheiten leitet. In Han und Vasconcelos untersuchten die Autoren ebenfalls die Rolle von Aufmerksamkeitsmodellen, diesmal jedoch in Bezug auf die Objekterkennung. Mit ihrem Anerkennungsmodell, dem hierarchischen diskriminierenden Saliency-Netzwerk (HDSN), zeigten sie klar die Vorteile der Integration von Aufmerksamkeit und Erkennung.
Ein Teil der Diskussion dreht sich um die Rolle des ventralen und dorsalen Stroms mit insgesamt 10 Artikeln. Kubilius et al. diskutieren die Bedeutung der Oberflächenrepräsentation und überblicken aktuelle Arbeiten zu Mittelstufen-Visuellen Bereichen im ventralen Strom. Hier werden zwei Modelle bezüglich der Form in diesen Zwischenbereichen vorgestellt. Der erste Ansatz ist ein rekurrentes Netzwerk, das die Figur-Grund-Segregation durch die Zuweisung von Grenzbesitz durch die Interaktion zwischen feedforward- und feedback-Eingängen erreicht. Der zweite Ansatz ist ein trainierbarer Satz von Formdetektoren, die als Filterbank angewendet werden können, um Buchstaben und Schlüsselwörter zu erkennen und Objekte in komplexen Szenen zu finden. Die Frage, die sich bei den Rechenvorlagen stellt, ist natürlich, wie treu sie sind. Dies beantwortet Ramakrishnan et al., indem sie die fMRT-Reaktionen von 20 Probanden mit zwei verschiedenen Arten von Computervisionsmodellen vergleichen: dem klassischen Bag-of-Words und dem biologisch inspirierten HMAX. HMAX ist auch Gegenstand der Studie von Zeman et al., hier verwenden die Autoren dieses Modell, um die Robustheit von Komplexzellen gegenüber einfachen Zellen in der Müller-Lyer-Illusion zu vergleichen. Die letzte Etappe im Objekterkennungsweg ist der inferotemporale Kortex (IT). Leeds et al. präsentieren eine fMRT-Studie, die das Problem erörtert, wie wir von einfachen kantenähnlichen Merkmalen in V1 zu Neuronen an der Spitze der Hierarchie gelangen, die auf komplexe Merkmale wie Teile, Texturen oder Formen reagieren. Mittels einer feed-forward Objekterkennungs- und Klassifizierungsmodellierung entwickelten Khosla und andere ein neuromorphisches System, das ebenfalls eine effiziente automatisierte Video-Objekterkennung ermöglicht. Das visuelle System beschränkt sich jedoch nicht nur auf das Erkennen von Objekten, sondern kann auch die räumlichen Beziehungen zwischen Objekten und sogar zwischen Teilen desselben Objekts erkennen. Daher sind die Bereiche des dorsalen Stroms auch für die Objektrepräsentation wichtig, wobei der Schwerpunkt auf der Aktion über Effektoren wie den Augen oder die Hand liegt. Theys et al. überprüfen, wie 3D-Formen für das Greifen entlang des dorsalen Stroms verarbeitet werden, mit Schwerpunkt auf den Repräsentationen im vorderen Intraparietalbereich (AIP) und im ventralen Prämotorcortex (PMv). Rezai et al. gehen noch weiter, indem sie die Krümmung und Gradienteneingaben vom caudalen Intraparietalbereich (CIP) zu visuellen Neuronen im AIP modellieren, unter Verwendung von Superquadricfits – die in der Robotik für die Griffsplanung verwendet werden – oder Isomap-Dimensionreduktionen von Objektoberflächen-Abständen. Sie stellten fest, dass beide Modelle die Antworten von Affen-AIP-Neuronen passend modellierten. Isomaps näherten sich jedoch besser der feedforward Eingabe von CIP an, was sie zu dem vielversprechenderen Modell macht, wie der dorsale Strom Formrepräsentationen für das Greifen erzeugt. Doch die für das Greifen verwendeten Merkmale sind nur eine Teilmenge der Merkmale eines Objekts. Während die Integration von Merkmalen entlang des ventralen Stroms zur Bildung von Objektrepräsentationen bekannt ist, überprüfen Perry und Fallah jüngste Erkenntnisse, die die dorsalen Stromobjektrepräsentationen unterstützen, und schlagen einen Rahmen für die Integration von Merkmalen entlang des dorsalen Stroms vor.

Schließlich befassen sich vier Arbeiten mit dem Problem des Lernens und der spärlichen Kodierung. Rinkus zeigt, dass ein hierarchisches spärlich verteiltes Code-Netzwerk die Grundlage für die Speicherung und den Abruf assoziativer Erinnerungen bietet und gleichzeitig eine Objektrepräsentation aufbaut. Der Endpunkt der Objektverarbeitung ist die Erkennung, bei der das menschliche visuelle System sehr effizient und viele Rechenmodelle darauf basieren. Webb und Rolls untersuchten, wie die Erkennung der Identität von Personen und deren Posen getrennt werden kann. Sie zeigten, dass ein Modell des ventralen visuellen Systems unter Verwendung von zeitlicher Kontinuität, VisNet, durch Lernen pose-spezifische und identitätsspezifische Repräsentationen entwickeln kann, die gegenüber dem anderen Faktor invariant sind. In ihrer biologisch inspirierten Studie erforschten Kermani Kolankeh und andere verschiedene rechnerische Prinzipien (spärliche Kodierung, Wettbewerb mit Voreingenommenheit, Hebbsches Lernen), die in der Lage sind, Rezeptivfelder zu entwickeln, die denen von V1-Simple-Cells vergleichbar sind, und entdeckten, dass Methoden, die Wettbewerbsmechanismen verwenden, höhere Stufen an Robustheit gegen Informationsverlust erreichen, was wichtig sein könnte, um eine bessere Leistung bei Klassifizierungsaufgaben zu erzielen. Während diese Studien sich darauf konzentriert haben, biologisch inspirierte visuelle Verarbeitung in Rechenmodellen zu verwenden, hat sich Bertalmío umgekehrt gearbeitet, indem er eine für die lokale Histogramm-Glättung verwendete Bildverarbeitungstechnik auf ein neuronales Tätigkeitsmodell angewandt hat. Das resultierende Modell sagt spektrale Enthärtung, Kontrastverstärkung und Lichterinduktion vorher, alles Verhaltensaspekte der visuellen Verarbeitung. Die Zeit wird zeigen, ob neuronale Studien diesen Prozess bestätigen.

Wir bringen zwei scheinbar unterschiedliche Disziplinen zusammen: Neurowissenschaften und Computer Vision. In diesem Forschungsthema zeigen wir, dass jede von der anderen profitieren kann. Letzteres kann den Neurowissenschaften dabei helfen, Hypothesen bezüglich des visuellen Kortex auf nicht-invasive Weise zu testen, oder auch dann, wenn wir technische Grenzen erreichen, beispielsweise wie die Informationen entlang der visuellen Architekturen fließen. Andererseits kann die Computer Vision von den Neurowissenschaften profitieren, um bessere, robustere, effizientere und allgemeinere Systeme als die bislang vorhandenen zu entwickeln. Angesichts der Komplexität der Wahrnehmung werden Objekte/Standorte als konkurrierend um die Ressourcen des visuellen Systems betrachtet. Die hier vorgestellten Studien zeigen, dass Feedforward-Hierarchien unter anderem unzureichend sind und den Bedarf an top-down Priming oder Aufmerksamkeit unterstützen. Die Interaktion zwischen feedforward- und feedback-Eingängen wirkt sich auf die neuronale Kodierung aus, wie in den Modellen dargestellt, die in diesem Forschungsthema vorgestellt werden. Nicht nur der Wettbewerb, auch die Sparsamkeit ist ein weiterer wichtiger Mechanismus. Das Ziel ist es, effiziente Codes zu erzielen, die Objektklassen effizient repräsentieren und speichern, da nicht jede mögliche Kombination von Merkmalen/Parametern möglich ist, gespeichert zu werden. Schließlich betonen mehrere Studien die Bedeutung des dorsalen Stroms bei der Form- und Identitätsobjektrepräsentation, um mit spezifischen Objekten, z.B. beim Greifen, zu interagieren.