Eine der bedeutenden Herausforderungen in der KI-Forschung besteht in der Recheninkompetenz bei der Verarbeitung visueller Tokens in Vision Transformer (ViT) und Video Vision Transformer (ViViT) Modellen. Diese Modelle verarbeiten alle Tokens mit gleicher Betonung, wodurch die inhärente Redundanz in visuellen Daten übersehen wird, was zu hohen Rechenkosten führt. Die Bewältigung dieser Herausforderung ist entscheidend für den Einsatz von KI-Modellen in realen Anwendungen, in denen Rechenressourcen begrenzt sind und eine Echtzeitverarbeitung unerlässlich ist.
Aktuelle Methoden wie ViTs und Mixture of Experts (MoEs) Modelle waren effektiv bei der Verarbeitung von groß angelegten visuellen Daten, aber haben signifikante Einschränkungen. ViTs behandeln alle Tokens gleich, was zu unnötigen Berechnungen führt. MoEs verbessern die Skalierbarkeit, indem Teile des Netzes bedingt aktiviert werden, wodurch die Inferenzzeitkosten niedrig gehalten werden. Sie führen jedoch zu einem größeren Parameterfootprint und reduzieren die Rechenkosten nicht, ohne Tokens vollständig zu überspringen. Zusätzlich verwenden diese Modelle oft Experten mit einheitlichen Rechenkapazitäten, was ihre Fähigkeit, Ressourcen basierend auf der Bedeutung der Tokens dynamisch zuzuweisen, einschränkt.
Ein Team von Forschern von Google DeepMind und der University of Washington schlägt das Mixture of Nested Experts (MoNE) Framework vor, das eine verschachtelte Struktur von Experten nutzt, um die Ineffizienzen bestehender Methoden zu überwinden. MoNE teilt Tokens dynamisch verschiedenen Experten zu, basierend auf ihrer Bedeutung. Dies ermöglicht es redundante Tokens durch kleinere, kostengünstigere Modelle zu verarbeiten, während wichtigere Tokens zu größeren, detaillierteren Modellen geleitet werden. Die Neuheit besteht darin, eine verschachtelte Architektur zu nutzen, die die gleiche Parameteranzahl wie die Basismodelle beibehält, aber eine zweifache Reduzierung des Inferenzzeit-Compute erreicht. Diese adaptive Verarbeitung verbessert nicht nur die Effizienz, sondern behält auch die Leistung bei verschiedenen Rechenbudgets bei.
MoNE integriert eine verschachtelte Architektur in Vision Transformer, in der Experten mit unterschiedlichen Rechenkapazitäten hierarchisch angeordnet sind. Jedes Token wird dynamisch mit dem Expert Preferred Routing (EPR) Algorithmus an einen geeigneten Experten geleitet. Das Modell verarbeitet Tokens durch teilweise Ein- und Ausprojektionen in den Self-Attention (SA) und MLP-Schichten, was eine effiziente Berechnung ermöglicht. Das Framework wird auf Datensätzen wie ImageNet-21K, Kinetics400 und Something-Something-v2 validiert. Die Routing-Entscheidungen basieren auf der Bedeutung der Tokens, die durch die Wahrscheinlichkeitsverteilung des Router-Netzwerks bestimmt wird. Die Wirksamkeit von MoNE wird durch rigorose Experimente gezeigt, die eine starke Leistung bei verschiedenen Inferenzzeit-Berechnungsbudgets demonstrieren.
Die vorgeschlagene Methode erzielt signifikante Verbesserungen in der Rechenleistung und Leistung auf verschiedenen Datensätzen. Auf dem ImageNet-21K Datensatz erreicht MoNE eine Genauigkeit von 87,5%, was eine signifikante Verbesserung gegenüber den Basismodellen darstellt. Bei Video-Klassifizierungsaufgaben wie denen mit den Datensätzen Kinetics400 und Something-Something-v2 zeigt MoNE eine Reduzierung der Rechenkosten um das Zwei- bis Dreifache bei Erhaltung oder Übertreffen der Genauigkeit traditioneller Methoden. Die adaptiven Verarbeitungsfähigkeiten von MoNE ermöglichen es, robuste Leistung auch unter begrenzten Rechenbudgets aufrechtzuerhalten und zeigen damit seine Wirksamkeit bei der Verarbeitung von Bild- und Videodaten.
Zusammenfassend bietet das Mixture of Nested Experts (MoNE) Framework einen signifikanten Fortschritt bei der effizienten Verarbeitung von visuellen Tokens. Durch die dynamische Zuweisung von Rechenressourcen basierend auf der Bedeutung der tokens überwindet MoNE die Einschränkungen bestehender ViT und MoE Modelle und erzielt erhebliche Kosteneinsparungen bei der Rechenleistung, ohne die Leistung zu beeinträchtigen. Diese Innovation birgt großes Potenzial für die Verbesserung realer Anwendungen von KI, indem leistungsstarke Modelle zugänglicher und praktischer gemacht werden. Die Beiträge werden durch rigorose Experimente validiert, die die Anpassungsfähigkeit und Robustheit von MoNE auf verschiedenen Datensätzen und Rechenbudgets zeigen.
Hinterlasse eine Antwort