Vorhersage von Typ-2-Diabetes durch die Integration von maschinellem Lernen mehrerer Omics aus menschlichen Pankreas-Inseln – Scientific Reports

Vorhersage von Typ-2-Diabetes durch die Integration von maschinellem Lernen mehrerer Omics aus menschlichen Pankreas-Inseln – Scientific Reports

Zunächst beschreiben wir das Konzept der multiOmics-Analysen, einschließlich der Omics-Integration, und untersuchen den maschinellen Lernansatz zur Integration mehrerer Quellen molekularer/biologischer Informationen, in unserem Fall RNA-seq, DNA-Methylierung, Genotyp (SNP) und phänotypische Daten. Wir stellen verschiedene maschinelle Lernmethoden für multiOmics-Analysen vor sowie deren Vor- und Nachteile. Anschließend beschreiben und wenden wir unser ausgewähltes Modell an sowie den Weg, wie wir den Erfolg der Datenintegration validieren.

Bei der Omics-Integration mithilfe von Maschinellem Lernen verstehen wir die Fähigkeit des Modells, neues biologisches Wissen zu generieren, das in jeder einzelnen Omic-Ebene nicht zugänglich ist. Dies wird schematisch in einem hypothetischen Beispiel in Abbildung 1a dargestellt, wo die Datenpunkte zu drei verschiedenen Klassen gehören. Die Achsen des Diagramms repräsentieren latente Variablen für zwei Omics.

Es gibt mehrere mögliche Maschinelle Lernmethoden für die Omics-Integration zur Auswahl, z.B. das lineare Partial Least Squares (PLS) über den DIABLO-Algorithmus oder O2PLS sowie die nicht-linearen Bayes’schen Netzwerke, Random Forest und Deep Neural Network-Modelle. Generell hängt die Wahl des integrativen Modells von zwei Faktoren ab: der Datenmenge und der Verfügbarkeit von Interessensphänotypen. In dieser Studie priorisierten wir eine überwachte lineare Methode (PLS), da wir eine begrenzte Anzahl von Proben und T2D als klaren Phänotyp von Interesse haben.

Unser gewähltes Modell zur multiOmics-Integration war DIABLO, implementiert im mixOmics R Bioconductor-Paket. Der Analyseworkflow wurde auf den Datensatz von humanen Pankreasinseln angewandt, um die Prädiktionskapazität für T2D zu optimieren, was zu vielversprechenden Ergebnissen führte. Durch verschiedene Evaluationstechniken wie Kreuzvalidierung und ROC-Kurven konnte die hohe Vorhersagegenauigkeit des DIABLO-Modells bestätigt werden.

Abschließend wurde durch biologische Interpretation der integrativen multiOmics-Analyse in humanen Pankreasinseln eine Vielzahl von Biomarker-Assoziationen mit T2D entdeckt. Die Beiträge einzelner Omics sowie klinischer Phänotypen wurden visualisiert, um die Wechselwirkungen zwischen den verschiedenen biologischen Informationen in der T2D-Pathologie zu verstehen.