Schnelle, empfindliche Erkennung von Proteinhomologen mit Hilfe von tiefen, dichten Abfragen – Nature Biotechnology

Schnelle, empfindliche Erkennung von Proteinhomologen mit Hilfe von tiefen, dichten Abfragen – Nature Biotechnology

Die vorgeschlagene Pipeline für die Detektion von Homologen basiert auf der Kodierung von Proteinsequenzen in dichte Einbettungsvektoren, deren Ähnlichkeit auf effektive Weise berechnet werden kann. Mit Hilfe eines Proteinsprachmodells und kontrastiven Lernens wird der Sequenz-Encoder trainiert, um reichhaltige ko-evolutionäre und strukturelle Informationen bei der Suche nach Homologen einzubeziehen. Die Dual-Encoder-Architektur erlaubt eine höhere Flexibilität im Modell, indem die gleiche Proteasequenz je nach ihrer Rolle als Anfrage- oder Kandidatensequenz unterschiedliche Einbettungen generieren kann. Das kontrastive Lernen zielt darauf ab, Transformationen des Encoders zu erlernen, die positive Eingabepaare nahe beieinander einbetten, während negative Paare weit voneinander entfernt platziert werden.

Die Offline-Inferenz auf der Protein-Datenbank ermöglicht die Durchführung von Vektor-Simulationsberechnungen basierend auf der Satzabfrage-Repräsentation, was es ermöglicht, eine Reihenfolge für diese Sequenzen zu generieren. Die darauffolgenden Downstream-Aufgaben verwenden den Punktprodukt, um die K’meisten verwandten Sequenzen zu erwerben. Daraufhin wird JackHMMER auf diesem kleinen gewählten Datensatz eingesetzt, um eine Multi Sequence Alignment (MSA) für weitere Aufgaben wie die 3D-Strukturvorhersage oder Protein-Funktionsprognose zu erstellen. Die Methode, genannt DHR, kann Homologe in der Proteinsequenz-Einbettung effektiv suchen und bietet damit eine schnellere und genauere Methode im Vergleich zu bestehenden MSA-Pipelines.

DHR kann nachgewiesenermaßen hochsensible Homologenextraktion mit strukturbezogenen Informationen ermöglichen. Die Evaluierung auf dem SCOPe-Datensatz zeigte, dass DHR bis zu 93% Sensitivität erreichen konnte, verglichen mit anderen bestehenden Methoden. Darüber hinaus konnte DHR selbst bei harten Fällen eine hohe Empfindlichkeit beibehalten und sogar Homologe identifizieren, die von anderen Methoden nicht erkannt wurden. Die Erstellung von MSAs durch DHR erzeugt besonders reichhaltige und vielfältige MSAs, die wiederum die Proteinstrukturvorhersage deutlich verbessern können, verglichen mit herkömmlichen Methoden.

DHR bietet auch eine effiziente und schnelle Methode zur Konstruktion von MSAs, die die Strukturvorhersage von Proteinen erheblich verbessern kann. Die Anwendung von DHR auf großen Datensätzen wie BFD/MGnify hat gezeigt, dass die Methode skalierbar und in der Lage ist, hochwertige MSA auch auf Datenbanken mit Millionen von Sequenzen zu erzeugen. Zusätzlich wurde gezeigt, dass DHR die Strukturvorhersage bei herausfordernden Zielstrukturen mit begrenzten oder fehlenden MSAs verbessern kann. Die Ergebnisse zeigen, dass DHR eine vielversprechende Methode für die Konstruktion von MSAs und die Vorhersage von Proteinstrukturen ist, insbesondere in schwierigen Fällen.