Das PTMGPT2 implementiert einen ansatzbasierten Ansatz für die Vorhersage von PTMs. Es wird ein End-to-End-Deep-Learning-Framework vorgestellt, das in Abbildung 1 dargestellt ist und ein GPT als Grundmodell verwendet. Zentral für diesen Ansatz ist das promptbasierte Feintuning des PROTGPT2-Modells auf unüberwachte Weise. Dies wird erreicht, indem informative Hinweise während des Trainings verwendet werden, die es dem Modell ermöglichen, genaue Sequenzetiketten zu generieren. Der Entwurf dieser Hinweise ist ein wesentlicher Aspekt der Architektur, da sie dem vortrainierten Modell wesentliche instruktive Eingaben bieten, die seinen Lernprozess lenken. Eine bemerkenswerte Konsequenz dieses Ansatzes ist, dass unser Modell über die Annotierung einzelner Aminosäurereste hinausgeht. Stattdessen konzentriert es sich auf die Annotation von proteinerhaltenden Sequenzmotiven variabler Länge. Diese Strategie ist entscheidend, da sie die Erhaltung evolutionärer biologischer Funktionalitäten sicherstellt und eine nuanciertere und biologisch relevante Interpretation von Proteinsequenzen ermöglicht.
In dem PTMGPT2-Framework nutzen wir eine Prompt-Struktur, die vier Haupttokens umfasst. Der erste, bezeichnet als das ‘SEQUENCE:’-Token, stellt die spezifische Proteinsubsequenz von Interesse dar. Das zweite, bekannt als das ‘LABEL:’-Token, zeigt an, ob die Subsequenz modifiziert (‘POSITIVE’) oder unverändert (‘NEGATIVE’) ist. Dieses durch Tokens gesteuerte Prompt-Design bildet die Grundlage für den Feintuning-Prozess des PTMGPT2-Modells, um ihm während der Inferenz ermöglichen, genau Etiketten zu generieren. Ein wesentlicher Aspekt dieses Modells liegt in seiner architektonischen Grundlage, die auf GPT-215 basiert. Diese Architektur zeichnet sich durch die ausschließliche Verwendung von Decoder-Schichten aus, wobei PTMGPT2 insgesamt 36 solcher Schichten nutzt, wie im vortrainierten Modell. Jede dieser Schichten besteht aus maskierten Selbst-Aufmerksamkeitsmechanismen, die sicherstellen, dass während der Trainingsphase die Proteinsequenz und die benutzerdefinierten Tokens nur von ihren vorangehenden Tokens im Prompt beeinflusst werden können. Dies ist wesentlich, um die auto-regressive Eigenschaft des Modells aufrechtzuerhalten.
Ein wesentlicher Unterschied in unserem Ansatz liegt in der Methodik, die wir beim Prompt-basierten Feintuning während der Trainings- und Inferenzphasen von PTMGPT2 angewendet haben. Während der Trainingsphase ist PTMGPT2 in einen unüberwachten Lernprozess involviert. Dieser Ansatz beinhaltet, dass das Modell mit Eingabeprompten gefüttert wird und darauf trainiert wird, dasselbe Prompt auszugeben, um das Erlernen von Token-Beziehungen und Kontext innerhalb der Prompts selbst zu erleichtern. Dieser Prozess ermöglicht es dem Modell, basierend auf den während des Trainings gelernten Mustern das nächste Token zu generieren. Der Ansatz ändert sich während der Inferenzphase, wo die Prompts durch Entfernen der ‘POSITIVE’- und ‘NEGATIVE’-Tokens modifiziert werden, was diese Prompts effektiv in eine Lückentextübung für das Modell verwandelt. Diese strategische Maskierung löst aus, dass PTMGPT2 die Etiketten unabhängig generiert, basierend auf den während der Trainingsphase gelernten Mustern und Assoziationen. Ein wesentlicher Aspekt unserer Prompt-Struktur ist die konsequente Einbeziehung der ‘startoftext > ’ und ‘endoftext > ’-Tokens. Diese Tokens sind integraler Bestandteil unserer Prompts und signalisieren den Anfang und das Ende des Prompts, was dem Modell dabei hilft, die Eingabe effektiver zu kontextualisieren. Diese Wechselwirkung von Trainingsmethoden und strategischer Prompt-Strukturierung ermöglicht es PTMGPT2, hohe Vorhersagegenauigkeit und Effizienz zu erreichen. Ein solcher Ansatz setzt PTMGPT2 als fortgeschrittenes Werkzeug für die Proteinsequenzanalyse, insbesondere bei der Vorhersage von PTMs, deutlich von anderen Werkzeugen ab.
Hinterlasse eine Antwort