Überall offene Sparse-Autoencoder: Die ehrgeizige Vision von DeepMind’s Gemma Scope

Überall offene Sparse-Autoencoder: Die ehrgeizige Vision von DeepMind’s Gemma Scope

Sparse Autoencoder (SAE) sind eine unüberwachte Lernmethode, die entwickelt wurde, um die latente Repräsentation eines neuronalen Netzwerks in spärliche, scheinbar interpretierbare Merkmale zu zerlegen. Obwohl diese Modelle aufgrund ihres Potenzials großes Interesse geweckt haben, wurden ihre Forschungsanwendungen aufgrund der hohen Kosten für das Training eines vollständigen Satzes von SAEs hauptsächlich auf die Industrie beschränkt. In einem neuen Papier “Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2” stellt ein Forschungsteam von Google DeepMind Gemma Scope vor, eine umfassende Suite von JumpReLU SAEs. Diese Suite wurde auf allen Schichten und Unterlagen der Modelle Gemma 2 2B und 9B sowie ausgewählten Schichten der Base-Modelle Gemma 2 27B trainiert.

Die Schaffung von Gemma Scope war eine beachtliche ingenieurtechnische Aufgabe. Die Hauptveröffentlichung umfasst mehr als 400 Sparse Autoencoder, die zusammen mehr als 30 Millionen gelernte Merkmale enthalten, die jeweils auf 4-16 Milliarden Tokens Text trainiert wurden. Das Projekt verbrauchte über 20% der für das Training von GPT-3 erforderlichen Rechenressourcen, bei dem etwa 20 Pebibytes (PiB) an Aktivierungen auf die Festplatte gespeichert wurden und Hunderte von Milliarden von Parametern für Sparse Autoencoder produzierten.

Die Forscher haben diese SAEs auf den Aktivierungen von Gemma 2-Modellen trainiert, wobei Textdaten aus der gleichen Verteilung wie die Pretraining-Daten für Gemma 1 verwendet wurden, mit Ausnahme einer Suite von SAEs, die auf einem speziell angepassten (IT) Modell trainiert wurden. Um Konsistenz über Schichten und Standorte hinweg sicherzustellen, wurden Aktivierungsvektoren durch einen festen Skalar normalisiert, um die Einheits-Mean-Squared-Norm zu erhalten. Diese Normalisierung trägt dazu bei, Hyperparameter zwischen Schichten zuverlässig zu übertragen, da sich die rohen Aktivierungsnormen erheblich unterscheiden können und die Skala der Rekonstruktionsverluste beeinflussen.

Neben der Veröffentlichung der SAE-Gewichte hat das Team auch Leistungsmetriken für jeden SAE basierend auf Standard-Benchmarks bereitgestellt. Sie hoffen, dass durch die öffentliche Bereitstellung dieser Ressourcen anspruchsvollere Forschung in den Bereichen Sicherheit und Interpretierbarkeit innerhalb der Gemeinschaft ermöglicht wird. Eine interaktive Demo finden Sie unter https://neuronpedia.org/gemma-scope. Das Papier “Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2” ist auf arXiv verfügbar.