Vorhersage von Glykopeptid-Fragmentmasse-Spektren durch Deep Learning – Nature Communications

Vorhersage von Glykopeptid-Fragmentmasse-Spektren durch Deep Learning – Nature Communications

Das Modell DeepGlyco erbt die LSTM-basierten Modellarchitekturen für die Vorhersage von Peptidseigenschaften und wird um zusätzliche Module erweitert, um Glycan-Fragmentintensitäten vorherzusagen. Ein Glycopeptid-Eingang wird in Peptid- und Glycan-Bestandteile aufgeteilt, bevor er dem Modell zugeführt wird. Die Peptidkomponente umfasst die Aminosäuresequenz und Modifikationen, die durch One-Hot-Indikatoren und Elementzusammensetzungen dargestellt werden und dann von einem linearen LSTM-Netzwerk ähnlich den Modellen für Peptid-MS/MS-Vorhersagen verarbeitet werden. Die Glycan-Komponente ist ein Baum mit One-Hot-codierten Monosacchariden als Knoten und ihren Verbindungen als Kanten. Ein Baum-LSTM-Netzwerk durchläuft den Glycan-Baum in aufsteigender Richtung. Die Informationen von Peptid und Glycan werden dann durch Fusion der Merkmale, die vom linearen LSTM und dem Baum-LSTM extrahiert wurden, ausgetauscht. Der Ladungszustand des Vorläufers wird auch den Peptid- und Glycan-Merkmalen hinzugefügt. Die Peptidmerkmale werden von einem weiteren linearen LSTM-Netzwerk verarbeitet, um die relativen Intensitäten der Peptid b/y-Fragmente vorherzusagen. Schließlich werden die Peptid- und Glycan-Fragmentionen durch das Verhältnis zusammengeführt, um das Ausgabeglykopeptidspektrum zu bilden. Das Modell enthält insgesamt etwa 7 Millionen Parameter, wobei etwa 5 Millionen für den Peptidteil und 2 Millionen für den Glycanteil verwendet werden.
Für komplexe und hybride Typ-Glycane wurde speziell ein Spektrumvorhersagemodell entwickelt, das mit Fragmentionen aus den Glycan-Zweigen am nicht reduzierenden Ende integriert ist. Die Intensitäten der B-Ionen wurden mittels der Merkmalsaggregation der entsprechenden Branchen-Cleavages vorhergesagt und dann dem Ausgabeglykopeptidspektrum hinzugefügt. Die Performance des Modells wurde anhand verschiedener MS/MS-Spektren von Glycopeptiden verschiedener Organismen getestet und es wurden sehr hohe Ähnlichkeiten erzielt. Die Ergebnisse zeigten, dass das Modell nicht stark überangepasst war und eine hohe prädiktive Genauigkeit aufwies. Durch die Feinabstimmung der vortrainierten Modelle auf Datensätzen mit anderen CE-Einstellungen konnte die Genauigkeit der Peptidpartie verbessert werden. Das Modell wurde auch erfolgreich auf Querspektrumanalysen von verschiedenen Organismen getestet und zeigte vielversprechende Ergebnisse.
Das Vorhersagemodell wurde auch auf die Erstellung von spektralen Bibliotheken für DIA-Datenanalysen angewendet. Es wurde gezeigt, dass die Vorhersage von Peptid-Spektralbibliotheken mit hoher Korrelation zwischen vorhergesagten und tatsächlichen iRT-Werten für die Glykopeptide möglich ist. Die Verwendung von vorhergesagten Spektren führte zu einer guten Datenfülle bei der DIA-Analyse von Glykopeptiden, mit ähnlichen oder besseren Ergebnissen im Vergleich zur Verwendung von experimentellen Bibliotheken. Die Korrelation der quantitativen Ergebnisse und die Bewältigung von Entführungen von Peptiden in den vorhergesagten Spektrallibrarys zeigten vielversprechende Ergebnisse für die Verwendung von vorhergesagten Spektren in DIA-Analysen. Die vorhergesagten Spektralbibliotheken sind daher eine vielversprechende Alternative zu experimentellen Bibliotheken für die Analyse von Glykopeptiden.