Eine der bedeutenden Herausforderungen in der KI-Forschung besteht in der Recheninkompetenz bei der Verarbeitung visueller Tokens in Vision Transformer (ViT) und Video Vision Transformer (ViViT) Modellen. Diese Modelle verarbeiten alle Tokens mit gleicher Betonung, wodurch die inhärente Redundanz in visuellen ...