WiTUnet: Eine U-förmige Architektur, die CNN und Transformer integriert, um die Merkmalsausrichtung und lokale Informationsfusion zu verbessern – Wissenschaftliche Berichte

WiTUnet: Eine U-förmige Architektur, die CNN und Transformer integriert, um die Merkmalsausrichtung und lokale Informationsfusion zu verbessern – Wissenschaftliche Berichte

Detaillierte Experimente zur Bilddatenverarbeitung in der CT-Diagnostik: Datensätze, Trainingsansätze und Ergebnisse der Methodenvergleichsanalysen

Experimentelle Details zur Bildentstörung in der Niedrigdosis-Computertomographie (LDCT)

In der medizinischen Bildgebung spielt die Computertomographie (CT) eine entscheidende Rolle, insbesondere bei der Diagnostik und Behandlung von Erkrankungen. Die Niedrigdosis-Computertomographie (LDCT) bietet Vorteile hinsichtlich der Strahlenexposition, bringt jedoch Herausforderungen in Bezug auf Bildqualität und Rauschunterdrückung mit sich. In diesem Blogbeitrag befassen wir uns mit den detailspezifischen Experimenten zur Bildentstörung, die auf den Ergebnissen der 2016 NIH-AAPM-Mayo Clinic LDCT Grand Challenge basieren.

Datensätze

Für unser Experiment haben wir den öffentlich zugänglichen Datensatz der 2016 NIH-AAPM-Mayo Clinic LDCT Grand Challenge verwendet, der sowohl für das Training als auch für das Testen unseres Modells dient. Der Datensatz besteht aus Bildpaaren, die sowohl in voller Dosis (120 kV und 200 mAs) als auch in Vierteldosis (simulierte Daten bei 120 kV und 50 mAs) aufgenommen wurden. In diesem Datensatz sind CT-Scans von zehn anonymisierten Patienten enthalten. Zur Evaluierung haben wir die Daten des Patienten L506 verwendet, während die Datensätze der neun anderen Patienten für das Training genutzt wurden.

Die CT-Scans lagen im DICOM-Format vor, mit einer Pixelgröße von (512 \times 512). Um die Verarbeitung zu beschleunigen, verwendeten wir die Python-Bibliothek pydicom zur Umwandlung der Rohdaten in NumPy-Arrays, die anschließend vorverarbeitet und normalisiert wurden. Außerdem kamen Datenaugmentierungstechniken zum Einsatz, um die Leistung unseres Netzwerks weiter zu steigern.

Trainingsdetails

Der experimentelle Aufbau wurde auf Ubuntu 18.04.5 LTS mit dualen AMD EPYC 9654 CPUs durchgeführt. Das WiTUnet-Modell wurde mithilfe des weit verbreiteten und benutzerfreundlichen PyTorch-Deep-Learning-Frameworks implementiert. Zur Optimierung des Trainingsprozesses verwendeten wir den AdamW-Optimizer. Die Lernrate wurde auf (5 \times 10^{-4}) gesetzt. Unser Netzwerk durchlief insgesamt 200 Epochen, um die Merkmale des Datensatzes gründlich zu erlernen.

Die Berechnungen wurden auf einer Nvidia RTX 4090 24G GPU durchgeführt, wodurch wir die Trainingsgeschwindigkeit erheblich steigern konnten. Durch die parallele Verarbeitung von GPUs konnten wir schneller experimentieren und Modelle anpassen.

Ergebnisse

Zur Bewertung der Leistungsfähigkeit verschiedener Denoising-Ansätze haben wir drei Metriken eingesetzt: Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM) und Root Mean Square Error (RMSE). Diese Metriken ermöglichen uns, die Qualität der entstörten LDCT-Bilder zu vergleichen.

Peak Signal-to-Noise Ratio (PSNR)

PSNR misst das Verhältnis zwischen dem maximalen Signalwert und dem Rauschpegel eines Bildes. Ein höherer PSNR-Wert deutet auf eine bessere Bildqualität hin.

Structural Similarity Index (SSIM)

SSIM bewertet die Ähnlichkeit zwischen zwei Bildern basierend auf Helligkeit, Kontrast und struktureller Ähnlichkeit. Werte zwischen 0 und 1 zeigen die Bildqualität an, wobei höhere Werte eine größere Ähnlichkeit zwischen den Bildern signalisieren.

Root Mean Square Error (RMSE)

RMSE ist eine Maßzahl, die die Unterschiede zwischen den Pixelwerten zweier Bilder quantifiziert. Ein niedrigerer RMSE-Wert zeigt eine höhere Ähnlichkeit zwischen den Bildern an.

Vergleichende Methoden

Für unsere vergleichende Analyse wählten wir verschiedene hoch angesehene Ansätze zur Bildentstörung aus, darunter DnCNN, REDCNN, ADNet, NBNet und CTformer, um die Effizienz unseres WiTUnet-Modells zu bewerten.

Die Ergebnisse zeigten, dass alle verglichenen Methoden bemerkenswerte Fähigkeiten zur Rauschunterdrückung aufwiesen. Das WiTUnet-Modell erzielte dabei besonders herausragende Ergebnisse bei der Bewahrung feiner Strukturen und der Reduzierung von Rekonstruktionsfehlern.

Modell-Effizienz

Ein wichtiger Aspekt unserer Forschung war die Effizienz des WiTUnet-Modells im Vergleich zu anderen Methoden. Unsere Evaluierung ergab, dass WiTUnet trotz einer vergleichbaren Anzahl von Parametern und FLOPs eine geringere Inferenzzeit aufwies, was auf eine verbesserte Rechenleistung hinweist.

Ablationsstudie

Um die Wirksamkeit der von uns entwickelten Module (LiPe und Nested Dense Block) zu validieren, führte eine Ablationsstudie zur Analyse der Modellleistung durch. Die Ergebnisse zeigten, dass die Kombination beider Module die Bildqualität signifikant verbesserte.

Hyperparameter-Einstellungen

Durch Variationen des Hyperparameters C, der die Anzahl der Merkmalskanäle im Netzwerk definiert, wurde festgestellt, dass die beste Leistung des WiTUnet-Modells bei C=32 erreicht wurde.

Fazit

Zusammenfassend lässt sich sagen, dass unser WiTUnet-Modell vielversprechende Ergebnisse in der Rauschunterdrückung von LDCT-Bildern liefert und sowohl die Bildqualität als auch die Effizienz verbessert. Diese Ergebnisse könnten bedeutende Implikationen für die klinische Praxis haben, indem sie die Sicherheit und Genauigkeit von CT-Scans erhöhen.

Wir laden Sie ein, unser Forschungsprojekt weiter zu verfolgen und sich über zukünftige Entwicklungen und Anwendungen unseres Modells zu informieren. Ihr Feedback ist uns willkommen!