Schnelles und robustes analoges Deep-Learning-Training im Speicher – Nature Communications

Schnelles und robustes analoges Deep-Learning-Training im Speicher – Nature Communications

Die Verwendung von Analogmatrix-Vektor-Multiplikation wurde bereits früher vorgeschlagen, um ein MVM im Speicher mithilfe resistiver Kreuzmusterarrays zu berechnen. Es gibt mehrere Prototyp-Chips, die die Beschleunigung von MVMs in DNNs während der Inferenz ermöglichen. Dabei werden Gewichte eines linearen Layers in einem Kreuzmusterarray gespeichert, wobei Eingaben z.B. in Form von Spannungsimpulsen kodiert werden. Ohm’sche und Kirchhoffsche Gesetze werden verwendet, um die Gewichte mit den Eingaben zu multiplizieren und die Produkte zu akkumulieren. Oft werden die resultierenden Ströme oder Ladungen anschließend durch hochparallele Analog-Digital-Wandler digitalisiert.

Für das vollständige Analogtraining im Speicher, so wie in anderen Bereichen vorgeschlagen, muss ein transponiertes MVM für den Rückwärtspass implementiert werden. Hierbei wird die Nichtlinearität berücksichtigt, die durch ein MVM im Vorwärts- und Rückwärtspass entsteht. Besondere Aufmerksamkeit wird den Nichtidealitäten gewidmet, die durch die inkrementelle Aktualisierung der Leitfähigkeiten verursacht werden und für das AIMC-Training typischerweise viel anspruchsvoller sind als die MVM-Nichtlinearitäten.

Während die Beschleunigung des Vorwärts- und Rückwärtspasses von SGD durch AIMC vielversprechend ist, muss für eine vollständige In-Memory-Trainingslösung die Gradientsberechnung und Gewichtsaktualisierung im Speicher beschleunigt werden. Die äußere Produktaktualisierung, um die Gewichtsmatrix eines Lineallayers zu berechnen, erfordert eine bestimmte Anzahl von digitalen Operationen und Lese-/Schreibvorgängen im Speicher.

Die Algorithmen TTv2, c-TTv2 und AGAD bauen aufeinander auf und verbessern die Gradientenberechnung und Gewichtsaktualisierung, indem sie auf frühen Forschungen basieren und innovative Ansätze wie Chopper-Techniken einführen. Diese Algorithmen zeichnen sich durch ihre Robustheit gegenüber Störgrößen und niedrigfrequenten Rauschquellen aus, um eine effiziente In-Memory-Trainingslösung zu bieten. Durch die Verwendung von Choppern und digitalen Referenzmatrizen verbessern sie die Genauigkeit und Effizienz des Trainings in ReRAM-ähnlichen Geräten. Darüber hinaus ermöglichen sie die Anpassung der Lernraten an die Gradientenmagnituden und verbessern dadurch die Konvergenzgeschwindigkeit und Stabilität des Trainingsprozesses.