Revolutionäre Tiefe Modellfusion: Einführung des Sparse Mixtur aus niedrig-rangigen Experten (SMILE) für skalierbares Modell-Upscaling

Revolutionäre Tiefe Modellfusion: Einführung des Sparse Mixtur aus niedrig-rangigen Experten (SMILE) für skalierbares Modell-Upscaling

Das Training großer Deep-Learning-Modelle auf breiten Datensätzen wird aufgrund der exponentiell steigenden Modellgrößen und Datensatzgrößen im Deep Learning immer ressourcen- und umweltintensiver. Eine potenziell bahnbrechende Herangehensweise sind die Techniken zur Fusion von Deep-Modellen, die die Erkenntnisse mehrerer Modelle kombinieren, ohne ein umfangreiches erneutes Training zu erfordern. Durch die Vereinigung der Stärken zahlreicher Modelle auf diese Weise werden die Rechenkosten gesenkt und robustere und vielseitigere Modelle erzeugt.

Die Model-Ensemble-, Verschmelzungs- und Mischverfahren sind die Hauptgruppen, in die die Model-Fusionsansätze fallen. Techniken zur Modell-Ensemble kombinieren die Vorhersagen mehrerer Modelle, um die Leistung zu verbessern, während Modell-Verschmelzungsansätze die Parameter unterschiedlicher Modelle kombinieren, in der Regel durch Ausrichtung oder Gewichtung. Mit Modell-Mischmethoden können zahlreiche Modelle durch Tiefenkombination oder Schaltmechanismen integriert werden. Forscher haben die Parameterverschmelzung als ein Optimierungsproblem neu interpretiert, und sie entwickelten die Methode “Zero-shot Sparse MIxture of Low-rank Experts (SMILE)”, die es ermöglicht, vereinigte Modelle sofort in neuen Kontexten oder Jobs einzusetzen und damit erheblich die für die Modellentwicklung erforderliche Zeit und Ressourcen reduziert.

Die Forscher fanden heraus, dass beim Anpassen an neue Aufgaben das Feintuning hauptsächlich weniger signifikante oder bisher ungenutzte Dimensionen des Parameterbereichs verwendet, um Vorkonfigurationsgewichte zu bewahren. Die effektive Durchführung der Routine-Aktivitäten hängt mit bestimmten entscheidenden Entdeckungen im Subraumanalyse zusammen. Die Systemleistung variiert abhängig von der spezifischen Optimierungsfunktion, die auszersucht wird.