Geometrisches Deep Learning der Protein-DNA-Bindungsspezifität – Nature Methods

Geometrisches Deep Learning der Protein-DNA-Bindungsspezifität – Nature Methods

Das DeepPBS-Rahmenwerk wird in Abbildung 1 dargestellt. Die Eingabe für DeepPBS (Abbildung 1a) besteht aus einer Protein-DNA-Komplexstruktur, bei der ein oder mehrere Protein-Ketten an einer DNA-Doppelhelix gebunden sind. Mögliche Quellen für solche Strukturen sind experimentelle Daten, molekulare Simulationsschnappschüsse oder entworfene Komplexe. DeepPBS verarbeitet die Struktur als bipartiten Graphen mit unterschiedlichen räumlichen Graphenrepräsentationen für Protein- und DNA-Komponenten. Der Proteingraph ist ein Graph basierend auf Atomen, mit schweren Atomen als Knoten. Verschiedene Merkmale werden auf diesen Knoten berechnet. Die DNA wird als symmetrisierte Helix dargestellt, was jegliche Sequenzidentität entfernt, während die Form der Doppelhelix erhalten bleibt. Optional kann DNA-Sequenzinformation als Merkmal auf den symmetrisierten Helix-Punkten erneut eingeführt werden.

DeepPBS führt eine Reihe von räumlichen Graphenfaltungen auf dem Proteingraphen durch, um atomare Nachbarschaftsinformationen zu aggregieren. Der nächste wesentliche Bestandteil von DeepPBS besteht aus einer Reihe von bipartiten geometrischen Faltungen, die vom Proteingraphen auf den symmetrisierten Helix angewendet werden. Bestimmte chemische Wechselwirkungen hängen sowohl von Lage als auch von Orientierung ab. DeepPBS lernt, wie die geometrische Orientierung der symmetrisierten Helix-Punkte mit den Orientierungen und der Chemie benachbarter Proteinreste verbunden ist. Vier verschiedene bipartite Faltungen werden für die symmetrisierten Helix-Punkte verwendet, die dem Major-Groove, dem Minor-Groove sowie den Phosphat- und Zuckerkomponenten entsprechen. Major- und Minor-Groove-Faltungen werden als “Groove Readout” bezeichnet. Phosphat- und Zuckerfaltungen, kombiniert mit DNA-Forminformationen, bilden das “Shape Readout”. Die Flachheit der aggregierten Merkmale an der dreidimensionalen symmetrisierten Helix ermöglicht eine Vorhersage der Bindungsspezifität auf der Ebene der Basenpaare.

Da kein vorhandener standardisierter Datensatz für die Vorhersage der Bindungsspezifität über Proteinfamilien aus Protein-DNA-Komplexstrukturdaten vorlag, war es notwendig, einen Datensatz für Validierung und Benchmarking zu erstellen. Die Leistung von DeepPBS für experimentell bestimmte Strukturen wurde mit einem Benchmark-Set bewertet. DeepPBS wurde auf verschiedenen Protein-Familien angewendet und zeigte eine vernünftige Generalisierbarkeit über die Familien hinweg. Die Performance von DeepPBS für verschiedene Protein-Familien gibt Einblicke in die Funktionsweise des Modells und seine Anpassungsfähigkeit an spezifische Bindungsmechanismen.

DeepPBS ermöglicht es, wichtige Proteintorschichten an der Protein-DNA-Schnittstelle zu bewerten und die Auswirkungen von gestörten Interaktionen auf die Vorhersage der Bindungsspezifität zu quantifizieren. Die Residuen-Spezifität wurde anhand des Transkriptionsfaktors p53 analysiert, um die Bedeutung einzelner Aminosäuren bei der Bindungsspezifität zu verstehen. Die Bedeutung von Proteinresiduen wurde mit experimentellen Mutagenesedaten verglichen, wobei eine Korrelation zwischen den berechneten Werten und den experimentellen ΔΔG-Werten festgestellt wurde. Diese Ergebnisse bestätigen die Zuverlässigkeit von DeepPBS bei der Vorhersage der Bedeutung von Proteinresiduen für die Bindungsspezifität von Protein-DNA-Komplexen.