Früherkennung von Magenkrebs und Läsionssegmentierung basierend auf Deep Learning und Gastrokopie-Bildern – Wissenschaftliche Berichte

Früherkennung von Magenkrebs und Läsionssegmentierung basierend auf Deep Learning und Gastrokopie-Bildern – Wissenschaftliche Berichte

Der MR-CNN ist ein einfaches und effizientes Instanz-Segmentierungsnetzwerk, das von Kaiming He et al. vorgeschlagen wurde. Es basiert auf Faster R-CNN und verfügt über einen neuen Segmentierungszweig, um Objekterkennung und Instanzsegmentierung zu erreichen. Die Struktur des MR-CNN kann in drei Teile unterteilt werden: eine Faltungsrückgrat zur Feature-Extraktion des Eingabebildes, ein Regionsvorschlagsnetzwerk (RPN) zur Generierung interessanter Regionen und ein Netzwerk-Kopf mit drei Zweigen für Klassifizierung, Bounding-Box-Regression und Segmentierungsmaske.

In diesem Papier wurde das Faltungsrückgrat-Netzwerk des MR-CNN verbessert, um die Fähigkeit zur EGC-Feature-Extraktion in gastrokopischen Bildern zu verbessern. Dieser verbesserte Ansatz umfasst einen Bi-direktionalen Feature-Extraktions- und Fusion-Modul sowie einen Reinigungsmodul für Feature-Kanäle und Raum. Um die Interaktion der beiden Module zu überprüfen, wurde ein weiteres Modell gebildet, das nur das “Bi-direktionale Feature-Extraktions- und Fusion-Modul” enthält, das IBMR-CNN genannt wird.

Für die Verbesserung der EGC-Erkennung in gastrokopischen Bildern wurde die FPN-Struktur weiter optimiert. Ein untere Feature-Fusionspfad wurde hinzugefügt, um die räumlichen Informationen von niedrigstufigen Merkmalen besser in die semantischen Informationen von hochstufigen Merkmalen zu fusionieren. Ein Reinigungsmodul für Feature-Kanäle und Raum wurde eingeführt, um eine Aufmerksamkeitsmechanismus zu verwenden, der die wichtigen Merkmale hervorhebt und unnötige unterdrückt, um wertvolle Informationen effizient zu erhalten.

Um die Leistung der Modelle quantitativ zu bewerten, wurden verschiedene Bewertungsmetriken und statistische Daten festgelegt. Zwei Datensätze wurden für Experimente vorbereitet: ein selbst erstellter EGC-Datensatz und ein öffentlicher Polypendatensatz. Die Modelle wurden auf beiden Datensätzen trainiert und getestet, um ihre Performance zu vergleichen. Der Einsatz des Kvasir-SEG-Datensatzes für die Segmentierung unterstreicht die Generalisierungsleistung der Modelle.

Die verbesserten Modelle MR-CNN, IMR-CNN und IBMR-CNN wurden auf den Datensätzen trainiert und getestet, um ihre Fähigkeit zur Detektion von EGC und Segmentierung von Läsionen zu demonstrieren. Migration-Learning wurde verwendet und mehrere Metriken wie Präzision, Recall, Spezifität und F1-Score wurden zur Auswahl der optimalen Gewichte herangezogen. Durch eine Fünffach-Kreuzvalidierungsmethode wurde die Robustheit und Zuverlässigkeit der Modelle auf dem selbst erstellten EGC-Datensatz überprüft. Das Ziel war es, die Leistung und die Überlegenheit der Modelle objektiv zu belegen.