Prognose von Arzneimittelzielen durch tiefes Lernen funktionaler Repräsentationen von Gensignaturen – Nature Communications

Prognose von Arzneimittelzielen durch tiefes Lernen funktionaler Repräsentationen von Gensignaturen – Nature Communications

Das DatasetspQSAR-Verbindungsaktivitätsmatrix ist das interne in-silico-Aktivitätsdatenset von Novartis für 5,5 Millionen Verbindungen über ~12.000 Assays. Für diese Studie wurden nur Assays mit einer Vorhersagequalität über dem Standarderfolgsschwellenwert, \({r}_{{ext}}^{2}\) ≥ 0,3, beibehalten, und die vorhergesagten Z-Scores wurden zur Darstellung der Verbindungsaktivitäten verwendet. Unter allen Perturbagenen und Referenzverbindungen haben 1601 pQSAR-Aktivitätsprofile in Bezug auf 4420 Assays, die auf 1003 eindeutige Genziele abgebildet sind. Das Promoter Signature Profiling (PSP)-Datenset besteht aus 18 GR50-Aktivitätsdatenprofilen, die über 41 originale Reportergen-Assays aggregiert wurden. Unter allen Perturbagenen und Referenzverbindungen haben 93 PSP-Profile mit mindestens einem GR50-Wert größer als 0,3, und 321 haben NCI60-Profile.

Die öffentlichen Datensätze, die in dieser Studie verwendet wurden, sind in den Datenverfügbarkeiten beschrieben. Das L1000 Connectivity Map Datenset enthält sowohl die Originalgenexpressionsdaten für die landmark Genes als auch extrapolierte Daten für das gesamte Transkriptom mit 10.174 Genen. 238.522 humane RNA-Seq-Proben wurden von der ARCHS432-Datenbank bis Dezember 2020 gesammelt. Die Genzählungen für jede Probe wurden von ARCHS4 gegen das menschliche Referenzgenom GRCh38 unter Verwendung von Kallisto quantifiziert. Die Daten wurden einer Log2-Transformation und einer Quantilnormalisierung unterzogen und dann Z-Score-normalisiert.

Die Einbettungen einzelner Gene kodieren funktionale Informationen. Für jedes Gen wurden zwei d-dimensionale Vektorrepräsentationen (Einbettungen) erstellt, eine für GO- und eine für RNA-Seq-Informationen. In den Einbettungsräumen sind funktional ähnliche Gene eng beieinander eingebettet. Die gleichen Algorithmen wurden verwendet, um beide Einbettungen zu lernen. Insbesondere wurde gene u eine Reihe von Nachbargenen entnommen, die häufig in denselben GO-Prozessen (oder RNA-Seq-Proben) mit u auftreten, und es wurde das Gen u ermutigt, ähnliche Einbettungen mit seinen Nachbargenen zu haben.

Für die GO-Graphen wurde jedem Hyperedge e ein Gewicht entsprechend dem Informationsgehalt des entsprechenden GO-Terms zugewiesen, wobei spezifischere Terme höhere Gewichte erhielten. Die Zufallszuteilung in einem Hypergraphen kann wie folgt interpretiert werden: Geben Sie den aktuellen Knoten u in V (alle Gene) an, wählen Sie zuerst ein Hyperedge e über alle an u anliegenden Hyperedges mit einer Wahrscheinlichkeit proportional zu w(e) aus, und wählen Sie dann zufällig einen Knoten v in e einheitlich aus.

Ein Siamesisches neuronales Netzwerk-Modell wurde für die Vorhersage von Compound-Targetgen-Paaren entwickelt. Diese binären Klassifizierung berücksichtigt sowohl die chemischen Signaturen der Verbindungen als auch die Gen-Signaturen der shRNA/cDNA, um die Wahrscheinlichkeit eines Co-Targetings zu schätzen. Die Siamesische-Struktur führt zu einer effizienten gemeinsamen Auswertung der zwei Eingaben, um die Wahrscheinlichkeit des Co-Targetings zu berechnen. Es wurden auch Balanced-Training-Strategien angewendet, um ein Modell zu erhalten, das nicht auf bekannte Ziele verzerrt ist.