Eine kürzlich durchgeführte Studie hebt signifikante Unterschiede zwischen den vorhandenen circRNA-Datenbanken hervor. Um unser Verständnis der exonischen circRNA-Biogenese zu verbessern, wurde ein Datensatz von BS- und LS-Exon-Paaren manuell kuratiert. Für die Konstruktion des BS-Exon-Paares-Datensatzes wurden Daten aus den fünf größten circRNA-Datenbanken integriert. Die circRNAs wurden als exonisch betrachtet, wenn ihre ersten und zweiten Splicing-Stellen eine bestimmte Entfernung von den Exon-Grenzen hatten. Das längste Transkript eines Gens wurde verwendet, um jedes BS-Exon-Paar zu annotieren.
Um sicherzustellen, dass LS-Exon-Paare nur in LS beteiligt sind, wurden keine Exon-Paare zufällig ausgewählt, sondern LS-Daten aus dem RJunBase verwendet. Für jedes gemeinsame Transkript wurden eindeutige LS- und BS-Exon-Paare identifiziert. Redundante Exon-Paare wurden von beiden Datensätzen entfernt. Zusätzlich wurden nur Exon-Paare mit mindestens 200 bp Abstand zwischen ihnen beibehalten. Ein ausgewogener Vertreter von LS- und BS-Klassen wurde sichergestellt, indem für jedes Transkript eine gleiche Anzahl von Exon-Paaren beider Arten ausgewählt wurde.
Zwei verschiedene Arten von Modellen wurden erstellt, um sowohl Informationen aus den Verbindungssequenzen der Splicing-Stellen als auch den RNA-Sekundärstrukturdten (z.B. RCM) für die Klassifizierung von BS- und LS-Exon-Paaren zu nutzen. Die optimalen Basismodelle und RCM-Modelle wurden integriert, um die Leistung weiter zu verbessern. Außerdem wurden Motive aus den retrainierten optimalen Basismodellen extrahiert und RCM-Modelle erstellt, um die verteilte Information der RCM-kmer-Paare zu nutzen.
Schließlich wurden die Modelle auf einem separaten Testdatensatz evaluiert, um die Vorhersagegenauigkeit und andere Leistungsindikatoren zu berechnen. Die Modelle basieren auf verschiedenen Metriken wie Genauigkeit, Spezifität, Rückruf, Präzision, FPR, FNR, MCC und F1-Score. AUROC und AUPRC wurden ebenfalls zur Leistungsvergleich verwendet.
Hinterlasse eine Antwort