Multi-modales Deep Learning ermöglicht effiziente und genaue Annotation enzymatischer Aktivstellen – Nature Communications

Multi-modales Deep Learning ermöglicht effiziente und genaue Annotation enzymatischer Aktivstellen – Nature Communications

In vorherigen Studien zur Identifizierung von Enzymaktivstellen wurde die Vorhersageaufgabe in der Regel als (1) Klassifizierung von Aminosäurereste-Token in der Aminosäuresequenz eines Enzyms, oder (2) als Klassifizierung von Graphknoten in einem gegebenen Enzymgraphen definiert. Diese Studien betonten hauptsächlich die Sequenz- oder Strukturinformationen des Enzyms, während die Berücksichtigung von Reaktionsinformationen unzureichend war. In dieser Arbeit liegt der Fokus darauf, die Aufgabe der Identifizierung der aktiven Stellen in einer Enzymreaktion zu verbessern, indem die entsprechenden enzymatischen Reaktionen einbezogen werden. Der entwickelte EasIFA-Rahmen umfasst eine Graphrepräsentation des Enzyms und der Reaktion, wobei ein Modell trainiert wird, um den Featurespace des Enzyms und der Reaktion auf eine binäre Wahrscheinlichkeitsvektoren oder eine Multi-Label-Matrix abzubilden.

Die EasIFA-Architektur umfasst zwei Zweige, die die strukturellen Merkmale des Enzyms und der Reaktion separat darstellen. Der Enzymzweig der EasIFA-Struktur wird in drei Stadien unterteilt, wobei ESM-2-23 verwendet wird, um die Aminosäurereste-Sequenz in eine Proteinsprachrepräsentation umzuwandeln. Diese Proteinrepräsentation dient als Knotenmerkmal im Graphen des Enzyms und wird dann in GearNet eingespeist. Dies ermöglicht eine effiziente Aktualisierung der Knotenmerkmale durch einen Nachrichtenaustauschmechanismus. Der Reaktionszweig des EasIFA-Modells wird unter Verwendung der Atomabstandsbewussten globalen Aufmerksamkeit erstellt, um die Merkmale der Produktmoleküle mit denen der Substratmoleküle zu fusionieren. Die EasIFA-Enzym-Reaktions-Interaktionsnetzwerk wird verwendet, um die Informationen der Substratmoleküle im Enzymgraphen in Bezug auf die Reaktion zu integrieren.

Um die Qualität der aktiven Stellen-Anmerkung zu verbessern, haben EasIFA-ESM und EasIFA-SaProt-Verfahren vorgestellt, die in einer Vergleichsstudie mit BLASTp, AEGAN und Schrodinger-SiteMap auf der SwissProt E-RXN ASA-Datensatz getestet wurden. Die Experimente zeigen, dass EasIFA-ESM und EasIFA-SaProt basierten Modelle eine höhere Genauigkeit bei der Identifizierung der aktiven Stellen einer Enzymkatalyse aufweisen, insbesondere im Vergleich zu den Basismethoden.

Zusätzlich führten wir eine Wissensbasis-Transferexperiment durch, bei dem die Modelle auf dem SwissProt E-RXN ASA-Datensatz trainiert wurden und dann auf dem MCSA E-RXN CSA Datensatz angewendet wurden. EasIFA-SaProt-Modell erzielte die höchste Präzision und höchsten Bewertungsmetriken im Vergleich zu EasIFA-ESM und BLASTp.

In einer weiteren Untersuchung wurden EasIFA-Modelle in der Lage gezeigt, katalytische Aktivitätsstellen in künstlich gestalteten Enzymen zu identifizieren. Die Ergebnisse deuten darauf hin, dass EasIFA überlegene Fähigkeiten bei der Vorhersage der katalytischen Aktivitäten von künstlichen Enzymstrukturen aufweist, während traditionelle Methoden wie BLASTp und AEGAN damit zu kämpfen haben. Dies deutet darauf hin, dass EasIFA ein vielversprechendes Werkzeug für das Design von Enzymen in der Zukunft sein könnte.