Natürliche Sprachanweisungen induzieren kompositionelle Verallgemeinerung in Netzwerken von Neuronen

Natürliche Sprachanweisungen induzieren kompositionelle Verallgemeinerung in Netzwerken von Neuronen

In dieser Studie wird eine Modellarchitektur namens Sensorimotor-RNN vorgestellt. Diese basiert auf gated recurrent units (GRU) mit ReLU-Nichtlinearitäten und 256 versteckten Einheiten. Die Netzwerke der Sensorimotor-Einheiten verwenden das gleiche Verfahren zur Initialisierung des versteckten Zustands. Die Eingaben für die Netzwerke bestehen aus sensorischen Eingaben und informationen zur Identifizierung der Aufgabe. Die motorische Aktivität wird von einem Ausgabeschichtberechnet, die auf Basis der Aktivität der rekurrenten versteckten Einheiten decodiert wird.

Die sensorischen Eingaben bestehen aus drei Kanälen, welche die zwei sensorischen Modalitäten und einen Fixierungs-Kanal umfassen. Jede Modell-Identifizierungsinformation und sensorische Eingabe wird als Eingang für das Sensorimotor-RNN konkateniert. Es gibt auch nicht-linguistische Modelle, zu denen SIMPLENET, STRUCTURENET, SIMPLENETPLUS und STRUCTURENETPLUS gehören. Zur Verarbeitung orthogonaler Aufgabenregeln werden zusätzliche versteckte Schichten verwendet. Es wird eine Multilayer-Perceptron mit ReLU-Nichtlinearitäten zur Verarbeitung orthogonaler Aufgabenregeln genutzt.

Es werden auch Transformer-Modelle verwendet, die auf vorab trainierten Architekturen basieren. Modelle wie GPT, GPT (XL), BERT, SBERT und CLIP werden verwendet, um task-identifizierende Informationen zu generieren und in der Modellarchitektur zu integrieren. Es werden verschiedene Techniken wie Average Pooling und Percentage Pooling verwendet, um Transformer-Outputs in feste Repräsentationen umzuwandeln. Für die Auswahl bestimmter Aufgaben werden lineare Decoder in den Transformer-Modellen trainiert.

Die Modellleistung wird anhand der Fähigkeit der Modelle beurteilt, eine Vielzahl von Aufgaben zu generalisieren. Weiterhin wird die Cross-Task-Generality-Predictability (CCGP) errechnet, um die Fähigkeit der Modelle zu bewerten, Aufgaben zu übertragen. Schließlich werden auch Analysen zur Konditionalsatzbildung und Deduktion durchgeführt, um die Unterschiede in der Modellleistung bei verschiedenen Aufgabentypen herauszustellen. Insgesamt wird ein breites Spektrum von Modellen verwendet und Analysen durchgeführt, um die Fähigkeit von Modellen zur Verarbeitung sensorischer und sprachlicher Informationen zu bewerten.