In dieser Studie haben wir uns zum Ziel gesetzt, ein Deep-Learning-Framework bereitzustellen, um diagnostische Aufgaben bei Pilzkeratitis wie menschliche Experten durchzuführen. Unser Framework ist also nicht nur darauf ausgelegt, FK-Infektionen in einem einzigen Bild zu erkennen, sondern kann auch diagnostische Entscheidungen treffen, indem es die Merkmale mehrerer Bilder für einen Patienten kombiniert. Die Datenvorbereitung umfasst IVCM-Bilder, die von 2013 bis 2021 gesammelt wurden und 96.632 IVCM-Bilder von 377 Patienten enthalten. Die Bilder wurden in JPEG- oder BMP-Format mit einer Auflösung von \(384 \times 384\) Pixeln gespeichert und von zwei erfahrenen Augenärzten identifiziert und beschriftet. Aufgrund der Anforderungen in verschiedenen Phasen haben wir unsere gesammelten Bilder in zwei verschiedene Datensätze aufgeteilt, FK-IMG und FK-SEQ, um das Training und die Bewertung sowohl auf Bild- als auch auf Sequenzebene zu unterstützen.
Unser Framework enthält zwei Phasen, die darauf abzielen, Merkmale zu extrahieren und diagnostische Entscheidungen zu treffen. In Phase 1 trainieren wir ein Bild-Level Deep-Neural-Network, um Merkmale aus einem einzelnen IVCM-Bild zu extrahieren. In Phase 2 kombinieren wir alle gelernten Merkmale aus einer Reihe von IVCM-Bildern desselben Patienten. Dies geschieht mittels eines Multi-Instanz-Netzwerks, das eine Sequenz benachbarter Bilder als Eingabe nimmt. Die Patientenebene der Diagnose-Pipeline basiert auf den Ergebnissen der beiden Netzwerke in den beiden Stufen. Die Eingabe des Netzwerks ist das Bild \({\mathscr {X}}_i\), das anschließend von dem vortrainierten SwinTransformer-Netzwerk verarbeitet wird, um das Bildmerkmal \(v_i\) zu extrahieren. In Phase 2 wird das Transformer-basierte Netzwerk verwendet, um die Beziehungen zwischen den Bildmerkmalen zu lernen.
Die Ausbildung der Bildextraktions- und Diagnose-Netzwerke in zwei Phasen wird als binäres Klassifikationsproblem betrachtet, und die Netzwerke werden mit der Kreuzentropieverlustfunktion optimiert. Unsere Netzwerke sind sowohl auf Bild- als auch auf Bildsequenzebene trainiert. Bei der Patientenebene werden die Bilder jedes Patienten zuerst vom ersten Stufen-Netzwerk verarbeitet. Die vorhergesagten positiven Bilder werden dann mit ihren benachbarten Bildern ausgewählt, um eine Reihe von Bildsequenzen zu generieren, die vom Stufen-2-Netzwerk verarbeitet werden. Wir verwenden einen Schwellenwert \(\sigma\) für die automatische Diagnose. Die Netzwerke werden trainiert indem sie Datensätze mit ungleichgewichtigen Daten in beiden Kategorien ausgleichen. Die Netzwerkarchitektur, das Training und der Testprozess basieren auf Python (Version 3.6.9) und PyTorch. Die Leistung des Deep-Learning-Frameworks wird anhand von Sensitivität, Spezifität und AUC-Score bewertet.
Hinterlasse eine Antwort