Sprachmodelle für biologische Forschung: eine Einführung – Nature Methods

Sprachmodelle für biologische Forschung: eine Einführung – Nature Methods

In dem Artikel “Large language models in medicine” wird die Verwendung von großen Sprachmodellen in der Medizin diskutiert. Unterschiedliche Modelle wie GPT-4, ESM-2, und Geneformer werden vorgestellt, die eine Evolutionsskala-Prädiktion von Proteinstrukturen, Transferlernen in der Netzwerkbioinformatik und Vorhersagen in der Einzelzellbiologie ermöglichen. Diese Modelle basieren auf der Transformer-Architektur, die in vielen Bereichen Anwendung findet.

Die Studie “Learning multimodal graph-to-graph translation for molecule optimization” beschäftigt sich mit der Entwicklung von Modellen zur Moleküloptimierung. Das Unternehmen Anthropic stellt die Claude 3 Modelle im Jahr 2024 vor, während BioBERT als biomedizinisches Sprachmodell für Text Mining dient. Weitere Arbeiten untersuchen Experten-Levels bei medizinischen Fragestellungen, den Einsatz großer Sprachmodelle in der Programmierung und die Verbesserung chemischer Sprachmodelle.

Andere Forschungen in diesem Bereich befassen sich mit der Vorhersage von Krankheitsvarianten mithilfe von Protein-Sprachmodellen, der Gestaltung von Proteinen mit Sprachmodellen, sowie der Anwendung von generativen Modellen für Proteinstrukturen und Sequenzen. Des Weiteren werden Modelle für präzise multiple Sequenzalignment und Stabilitätsvorhersagen entwickelt sowie Cross-Protein-Transferlernen zur Verbesserung der Krankheitsvariantenvorhersage angewendet.

Die Arbeit “Highly accurate protein structure prediction with AlphaFold” und “scGPT: toward building a foundation model for single-cell multi-omics using generative AI” zeigen ebenfalls Fortschritte in der Proteinstrukturvorhersage und der Einzelzellbiologie. Darüber hinaus werden Modelle für die Pathologiebildanalyse und die Entwicklung von allgemeinen biomedizinischen KI-Modellen untersucht. Die Verwendung von ChatGPT zur Entwicklung von GenePT, das als einfaches aber effektives Basismodell für Gene und Zellen dient, wird auch erwähnt.