Feinabstimmung von Protein-Sprachmodellen verbessert Vorhersagen über verschiedene Aufgaben – Nature Communications

Feinabstimmung von Protein-Sprachmodellen verbessert Vorhersagen über verschiedene Aufgaben – Nature Communications

Die Studie befasst sich mit der Feinabstimmung von Protein-Sprachmodellen (pLMs) für verschiedene Vorhersageaufgaben. Sie trainierten 615 individuelle Vorhersagemethoden, die in acht Modellen auf acht verschiedenen Datensätzen basierten. Diese Methoden wurden entweder durch Feinabstimmung oder die Verwendung eingefrorener Einbettungen aus vorab trainierten pLMs erstellt. Die Leistung der Modelle wurde anhand von Validierungssätzen bewertet, wobei die Feinabstimmung numerisch die Leistung fast aller Kombinationen verbesserte.

Für die meisten pLMs und Aufgaben verbesserte die Feinabstimmung die Leistung signifikant, wobei Ausnahmen bei bestimmten Modellen und Gesamtaufgaben bestanden. Durch die Verwendung unterschiedlicher Leistungsmessungen wie Spearman-Rangkorrelation und Genauigkeit pro Residuum konnten Verbesserungen durch Feinabstimmung nachgewiesen werden. Die Studie legt nahe, dass die Feinabstimmung von pLMs bei der Vorhersage von Proteindaten vorteilhaft ist.

Die Studie befasste sich auch mit der Effizienz von Parameteroptimierungsmethoden für das Feintuning von pLMs. LoRA war die beste Methode für die Vorhersage der subzellulären Lokalisierung und übertraf andere PEFT-Methoden in Bezug auf Leistung. Insgesamt verbesserten alle Feinabstimmungsmethoden im Durchschnitt die Vorhersageleistung über vorab trainierten Einbettungen.

Die Studie empfiehlt die Verwendung von gemischter Präzisionstraining und das Ausprobieren verschiedener PEFT-Methoden für spezifische Anwendungsfälle. LoRA Feinabstimmung wurde als effizienteste Methode für größere pLMs empfohlen und könnte als Standardverfahren verwendet werden. Die Studie betont die Bedeutung von Datensatzoptimierung, Hyperparameteranpassung und Modellauswahl für erfolgreiche Feinabstimmung von pLMs.