DeepReg: Ein tiefes Lernhybridmodell zur Vorhersage von Transkriptionsfaktoren in eukaryotischen und prokaryotischen Genomen – Scientific Reports

DeepReg: Ein tiefes Lernhybridmodell zur Vorhersage von Transkriptionsfaktoren in eukaryotischen und prokaryotischen Genomen – Scientific Reports

Um einen Datensatz von Transkriptionsfaktoren (TFs) zu konstruieren, wurden Informationen aus der UniProtKB (Reviewed SwissProt) (März 2022) abgerufen. Es wurden 36 Gene Ontology (GO)-Begriffe identifiziert, die mit TFs in Kategorien wie “spezifische DNA-Bindungsstellen in transkriptionellen Regulationsbereichen”, “positive Regulation der DNA-Bindung, Initiierung”, “negative Regulation der DNA-Bindung, Initiierung” und “DNA-bindende Transkriptionsfaktoraktivität” gruppiert waren. Von den insgesamt 22.100 identifizierten Proteinsequenzen als TFs und 527.146 Nicht-TF-Sequenzen wurden zur Analyse 18.415 TF- und 92.085 Nicht-TF-Sequenzen zufällig ausgewählt. Um ein Verhältnis von 5:1 zwischen negativen und positiven Proben zu berücksichtigen, wurden die Sequenzen ausgewählt.

Zur Verwendung von Deep-Learning-Techniken für die Vorhersage von Transkriptionsfaktoren wurden zwei spezifische Architekturen verwendet: ein Convolutional Neural Network (CNN) zur Extraktion von Merkmalen und ein bidirektionales Long-Short-Term Memory (BiLSTM) zur Vorhersage von Sequenzen. Diese Architekturen wurden mit einem tradtionellen Verlustfunktionsalgorithmus für die binäre Kreuzentropie-Klassifikation kombiniert, um die Leistung zu bewerten. Für das Training des Modells wurde ein Maximum von 80 Epochen festgelegt und verschiedene Hyperparameter, wie Batch-Größe, Dropout-Raten und anfängliche Lernraten, wurden optimiert, um Überanpassung zu vermeiden.

Um Überanpassung zu vermeiden, wurden Techniken wie Early Stopping und ein Learning Rate Scheduler verwendet. Zusätzlich wurde eine Hybridregularisierungstechnik zwischen L1 (Lasso) und L2 (Ridge) namens ElasticNet sowie die Dropout-Technik eingesetzt. Der entwickelte DeepReg-Algorithmus berücksichtigte die originalen Modelle von DeepTFactor und fügte zusätzlich ein CNN und ein LSTM-Netzwerk hinzu, um die Leistung zu verbessern. Tokenisierung, Padding und One-Hot-Encoding wurden auf den Proteinsequenzen angewendet, um die Daten für das Deep-Learning-Modell interpretierbar zu machen und die Leistung zu optimieren.