Eine umfassende Untersuchung der induktiven Verzerrungen, die hochgradige visuelle Repräsentationen in Gehirn und Maschinen formen

Eine umfassende Untersuchung der induktiven Verzerrungen, die hochgradige visuelle Repräsentationen in Gehirn und Maschinen formen

Einfluss von Architektur, Aufgaben und Eingabedaten auf die Vorhersagekraft tiefen neuronaler Netze im menschlichen occipitotemporalen Kortex

Verständnis der Vorhersagefähigkeiten von Deep Neural Networks in der menschlichen Gehirnaktivität

In der Welt der künstlichen Intelligenz hat sich die Forschung zu Deep Neural Networks (DNNs) als Schlüssel zum Verständnis der visuellen Wahrnehmung im menschlichen Gehirn etabliert. In diesem Blogbeitrag beleuchten wir einen neuartigen Ansatz, der sich mit der Vorhersage der neuronalen Reaktionen im menschlichen occipitotemporalen Cortex (OTC) beschäftigt und untersuchen die verschiedenen Faktoren, die die Effektivität dieser Vorhersagen beeinflussen.

Der Ansatz

Unser Verfahren beginnt mit der Durchsuchung vortrainierter Modell-Repositories und der Kuration unterschiedlicher Modelle mit leistungsstarken visuellen Kapazitäten. Ein zentrales Ziel ist es, bedeutungsvolle kontrollierte Variationen in wichtigen Induktiv-Parametern wie Architektur, Aufgabenstellung und visueller Diät (d.h. Trainingsdatensatz) zu schaffen. Jeder dieser Analysen isoliert Modelle, die nur entlang einer Dimension variieren, während die anderen konstant gehalten werden.

Insgesamt untersuchen wir, inwieweit die Repräsentationen von 224 verschiedenen DNNs die Reaktionen auf natürliche Bilder im OTC vorhersagen können, unter Verwendung des 7T Natural Scenes Dataset (NSD) und zweier unterschiedlichen Verfahren zur Verknüpfung von Modell und Gehirn.

Architekturvergleich: CNNs vs. Transformer

Ein interessanter Aspekt unserer Forschung ist der Vergleich zwischen Convolutional Neural Networks (CNNs) und Transformer-Modellen. Trotz drastischer Unterschiede in den Architekturen finden wir, dass beide Ansätze ähnliche Vorhersagefähigkeiten bezüglich der Struktur der OTC-Aktivität aufweisen. Unsere statistischen Analysen zeigen, dass CNNs und Transformer im Durchschnitt gleich gut abschneiden, wobei CNNs tendenziell etwas bessere Vorhersagen liefern. Diese Ergebnisse legen nahe, dass beide Architekturen auf ähnliche repräsentationalen Formate hinarbeiten.

Aufgabenvariationen: Einfluss von Aufgabenstellungen auf Vorhersagekapazitäten

Ein weiteres zentrales Forschungsthema ist die Untersuchung des Einflusses verschiedener Aufgabenstellungen auf die Vorhersagekapazitäten unserer Modelle. Wir analysierten die Performance von Modellen, die auf unterschiedliche, spezifische Aufgaben trainiert wurden – von klassischen Computer Vision Aufgaben wie Objektklassifikation bis zu modernen Ansätzen der Selbstüberwachung.

Die Resultate zeigen, dass Modelle, die mit kontrastiven Lernmethoden trainiert wurden, besseren neuronalen Vorhersagen erzielen als solche, die keine Kontraste nutzen. Zudem kam heraus, dass die Art der Aufgabenstellung einen erheblichen Einfluss auf die Vorhersagefähigkeit der Repräsentationen hat.

Eingangsvariation: Einfluss der Trainingsdatensätze

Ein dritter entscheidender Faktor ist die Variabilität der Trainingsdatensätze. Unsere Analysen ergaben, dass die Menge der Trainingsdaten nicht zwangsläufig zu besseren Vorhersagen im OTC führt. So führte der Vergleich von Modellen, die auf ImageNet1K und ImageNet21K trainiert wurden, zu keinen signifikanten Unterschieden in der Gehirnvorhersage.

Wir fanden jedoch heraus, dass die Vielfalt und die spezifischen Merkmale der Bilddaten einen erheblichen Einfluss auf die Leistung der DNNs haben. Modelle, die auf vielfältigeren und repräsentativen Datensätzen trainiert wurden, zeigten bessere Vorhersagefähigkeiten.

Einfluss des Trainings

Abschließend ist es wichtig zu betonen, dass das Training der Modelle einen wesentlichen Einfluss auf deren Vorhersagefähigkeiten hat. Unsere Tests zeigen, dass trainierte Modelle durchschnittlich signifikant bessere Vorhersageergebnisse für die Gehirnaktivitäten liefern als untrainierte Modelle.

Fazit

Zusammenfassend zeigt unsere Forschung, dass die Vorhersage von neuronalen Reaktionen durch Deep Neural Networks komplex ist und von vielen Faktoren abhängt, darunter architektonische Unterschiede, die Art der gestellten Aufgaben sowie die vielfältigen Eingabedaten. Diese Erkenntnisse könnten nicht nur das Verständnis der menschlichen visuellen Wahrnehmung vertiefen, sondern auch wertvolle Einblicke für die Entwicklung künftiger KI-Modelle liefern.

Für Interessierte und Fachleute in der AI- und Neurowissenschafts-Community sind unsere detaillierten Ergebnisse und statistischen Analysen in den veröffentlichten Methoden und Supplementen verfügbar.