Optimierte Modellarchitekturen für Deep Learning mit genomischen Daten – Communications Biology

Optimierte Modellarchitekturen für Deep Learning mit genomischen Daten – Communications Biology

Die Hyperparameter-Suche für das Optimieren des Modelldesigns wird durch den Hyperparameter-Raum definiert, welcher in Tabelle 1 aufgelistet ist. Das Modell, das von GenomeNet-Architect konstruiert wird, besteht aus einer Abfolge von Faltungsschichten, die in Blöcke unterteilt sind. Die Anzahl der Blöcke und Schichten in jedem Block wird durch die Hyperparameter ncb und nc festgelegt. Die Anzahl der Faltungsschichten wird als direkter Wert von ncb gesetzt, es sei denn, nc ist kleiner. Die Anzahl der Schichten in einem Block wird durch ein bestimmtes Verhältnis zu nc berechnet. Die Gesamtzahl der Faltungsschichten wird dann berechnet, wobei f0 und fend die Anzahl der Filter für die ersten und letzten Schichten festlegen, und die Anzahl der Filter in den Zwischenschichten exponentiell interpoliert wird.

Die Kernelgröße der Faltungsschichten, die Verwendung von dilatierten Faltungen und das Max-Pooling nach den Faltungsschichten werden ebenfalls im Detail beschrieben. GenomeNet-Architect nutzt den mlrMBO-Algorithmus mit einem Gauss-Prozess Modell für die Hyperparametertoptimierung. Es werden verschiedene Konfigurationen vorgeschlagen, die dann auf Validierungsdatensätzen bewertet werden. Die trainierten Modelle werden anhand ihrer Konvergenz evaluiert und schließlich auf Testdaten getestet. Während des Optimierungsprozesses werden verschiedene Evaluationskriterien verwendet, um die Modelle zu bewerten und zu vergleichen.

Für die virale Klassifikationsaufgabe werden die Trainings- und Validierungsdatensätze aus zufällig ausgewählten FASTA-Genomdateien erstellt und für das Training verwendet. Die Testdaten werden nicht zufällig generiert, sondern durch sequenzielles Extrahieren aus den Dateien. Für die Pathogenitätsdetektion werden ähnliche Verfahren angewendet. Die Leistung der Modelle wird auf Validierungs- und Testdaten bewertet, wobei verschiedene Maßnahmen zur Beurteilung der Performance herangezogen werden.

Die Datasets für die virale Klassifikationsaufgabe stammen aus umfangreichen genomischen Datenbanken und wurden entsprechend gefiltert und aufgeteilt. Die Klassifikationsleistung der Modelle wird auf bisher unbekannten Daten geschätzt, um ihre Generalisierungsfähigkeit zu bewerten. Für die Pathogenitätsklassifikationsaufgabe werden spezifische Datensätze von Zenodo heruntergeladen und entsprechend für Training, Validierung und Test aufgeteilt. Verschiedene Metriken werden verwendet, um die Performance der Modelle zu bewerten und zu vergleichen.