Anleitung: Vision Transformer (ViT)

Zu diesem Zeitpunkt wurden alle ViT-Komponenten erfolgreich erstellt. Daher können wir sie jetzt verwenden, um die gesamte Vision Transformer-Architektur zu konstruieren. Die Klasse ViT in Codeblock 17 zeigt, wie dies gemacht wird. Es gibt einige wichtige Punkte, die ich hier hervorheben möchte. Zunächst verwenden wir an der Stelle #(1) entweder PatcherUnfold() oder PatcherConv(), da beide die gleiche Rolle haben, nämlich den Patch-Flattening- und linearen Projektionsschritt durchzuführen. In diesem Fall wird Letzteres ohne spezifischen Grund verwendet. Zweitens wird der Transformer Encoder-Block NUM_ENCODER (12) Mal wiederholt (#(2)), da wir ViT-Base gemäß Abbildung 3 implementieren. Vergessen Sie schließlich nicht, den Tensor, der vom Transformer Encoder ausgegeben wird, zu schneiden, da unser MLP-Head nur den Klassentoken-Teil des Ausgabesatzes verarbeiten wird (#(3)).

Um zu überprüfen, ob unser ViT-Modell ordnungsgemäß funktioniert, können wir den folgenden Code verwenden. Codeblock 18 zeigt dies. Das Ergebnis ist ein Tensor der Größe 1×10, was darauf hinweist, dass unser Modell wie erwartet funktioniert. Zusätzlich können wir die detaillierte Struktur des Netzwerks mithilfe der Funktion summary() überprüfen, die am Anfang des Codes importiert wurde. Der Gesamtbetrag der Parameter beträgt ungefähr 86 Millionen, was mit der in Abbildung 3 angegebenen Zahl übereinstimmt (Codeblock 19).

Es ist wichtig zu beachten, dass die Ausgabe des Codeblocks 18 für eine bessere Klarheit der Darstellung aller Druckausgaben auskommentiert werden sollte. Der Codeblock 19 zeigt die Struktur des Netzwerks detailliert an. Es wird deutlich, dass die Gesamtanzahl der Parameter bei ungefähr 86 Millionen liegt, was erwartungsgemäß mit den Spezifikationen übereinstimmt. Die Struktur umfasst mehrere Schichten wie PatcherConv, PosEmbedding, Sequential, TransformerEncoder, MultiheadAttention und MLPHead, die alle Teil der ViT-Architektur sind.

Anleitung: Vision Transformer (ViT)

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Eine umfassende Untersuchung der induktiven Verzerrungen, die hochgradige visuelle Repräsentationen in Gehirn und Maschinen formen

7 Computer Vision Projekte für alle Levels

Quanteninspirierte Techniken reduzieren die Latenz in der Computer Vision, ohne die Genauigkeit zu beeinträchtigen

Solink® stellt Produktverbesserungen vor, die zeigen, wozu Computer Vision bestimmt ist.

Seton Hall Universität erhält den AI Education Leadership Award

Antizipatorische Gehorsamkeit weckt Bedenken hinsichtlich der Konformität bei der Nutzung generativer KI

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360