Transformers: Von NLP zu Computer Vision

Transformers: Von NLP zu Computer Vision

Die Transformer-Architektur wurde 2017 mit dem Paper “Attention is all you need” bekannt gemacht und hat seither die NLP-Forschungsgemeinschaft beeinflusst. Mit über 100.000 Zitierungen ist der Transformer mittlerweile ein Eckpfeiler der meisten NLP-Architekturen. Für einen Überblick über die bedeutenden Arbeiten der Transformer in der NLP, können Sie meinen vorherigen Beitrag hier lesen.

Computer Vision wurde bis vor kurzem hauptsächlich von CNN dominiert, wodurch die Anwendung von Transformers in diesem Bereich begrenzt blieb. In diesem Artikel werden die Herausforderungen bei der Anwendung von Transformers auf Computer Vision diskutiert und wie Forscher im Bereich CV diese angepasst haben.

Die Tokenisierung von Textsequenzen wurde lange erforscht und mehrere Optimierungen wurden entwickelt, um sie zu verallgemeinern und an unbekannte Texte anzupassen. All diese Bemühungen beruhen jedoch auf der Idee, Zeichen und Begriffe als Einheiten zu betrachten.