Multimodales Deep Learning mit On-Chip diffraktiver Optik und In-situ-Trainingstauglichkeit – Nature Communications

Multimodales Deep Learning mit On-Chip diffraktiver Optik und In-situ-Trainingstauglichkeit – Nature Communications

Die Entwicklung und Fertigung des TDONN-Chips haben das Ziel, komplexe physikalische Modelle in abstrakte Modelle neuronaler Netzwerke abzubilden. Das optische neuronale Netzwerkmodell für die multimodale Klassifizierungsaufgabe besteht aus drei Teilen: einer Eingabeschicht, fünf versteckten Schichten und einer Ausgabeschicht. Nach der Merkmalsextraktion und Merkmalsfusion wird ein Merkmalsvektor aus Datensätzen verschiedener Modalitäten wie Vision, Audio und Berührung erhalten, der als Eingabe des neuronalen Netzwerks verwendet wird. Die Größe des Merkmalsvektors entspricht der Anzahl der Neuronen in der Eingabeschicht, und jedes Vektorelement wird durch Intensitätsmodulation in ein optisches Signal codiert. In den versteckten Schichten sind die Neuronen angeordnet und die Verbindungsgewichte zwischen den Neuronen werden während des Trainings angepasst, um die Ziel funktion zu erreichen. Die Daten, die in die Ausgabeschicht fließen, werden als Ausgabevektor betrachtet und die Elemente jedes Ausgabevektors entsprechen Ausgabekanälen. Der Ausgangsleistung jedes Kanals wird auf die Wahrscheinlichkeit im Inferenzergebnis zugeordnet. Durch Vergleich der Ausgangsleistung jedes Ports kann das Label mit der höchsten Wahrscheinlichkeit als Inferenzergebnis der TDONN-Architektur erhalten werden.

Ein TDONN-Chip wurde entwickelt und hergestellt, der auf einem SOI-Wafer mit einer 220 nm dicken oberen Siliziumschicht und einem 2 µm dicken Substrat aus Siliziumdioxid hergestellt ist. Die Struktur des TDONN-Chips besteht aus Eingabe-, versteckten und Ausgabeschichten entsprechend dem neuronalen Netzwerkmodell. Die Eingabeschicht besteht aus 16 Intensitätsmodulationseinheiten, die zum Laden der Eingabedaten verwendet werden. Die versteckten Schichten bestehen aus einstellbaren diffraktiven Einheiten, die in fünf Schichten mit jeweils 16 einstellbaren diffraktiven Einheiten pro Schicht angeordnet sind. Die Ausgabeschicht enthält vier Ausgangsports, die optische Signale empfangen. Die Wahrscheinlichkeitsverteilung jedes Labels kann durch die Detektion der Ausgangsleistung in Echtzeit durch das PD-Array erhalten werden. Die Gewichtungsparameter und Funktionen des TDONN-Chips können entsprechend der spezifischen Multimodalitätsaufgabe durch ein in-situ-Training konfiguriert werden.

Die Trainingsfähigkeit des TDONN-Chips ist entscheidend für die rekonfigurierbare Multimodalfähigkeit. Der TDONN-Chip ermöglicht in-situ-Training und Inferenz im optischen Bereich und kann somit die vier Klassen der visuellen, auditiven und taktilen Daten verarbeiten. Das Training des TDONN-Chips erfolgt in zwei Schritten: einer Vorverarbeitung der Eingabedaten verschiedener Modalitäten zur Merkmalsextraktion und anschließendem Training der einstellbaren diffraktiven Einheiten des Chips, um die Ziel funktion zu erreichen. Die Anpassung der diffraktiven Einheiten erfolgt durch einen angepassten Gradientenabstiegsalgorithmus und einen Drop-Out-Mechanismus für optische Neuronen.

Die multimodale Inferenz wird durch den TDONN-Chip implementiert, wobei die drei verschiedenen Modalitätsdatensätze verwendet werden, um die multimodale Verarbeitungsfähigkeit zu überprüfen. Der TDONN-Chip ist in der Lage, multimodale Klassifizierungsaufgaben im optischen Bereich durch in-situ-Training zu bewältigen. Die Verwirrungsmatrizen der Testdaten in den drei Modalitäten zeigen eine Klassifizierungsgenauigkeit von 86%, 82% und 89%. Durch den TDONN-Chip kann eine genaue Klassifizierung der vier Klassen in den verschiedenen Modalitätendatensätzen erreicht werden.