Eine Analyse der erkennbaren Abnormalitäten von roten Blutkörperchen unter föderierten Bedingungen unter Nutzung von XAI-integriertem Deep Learning

Eine Analyse der erkennbaren Abnormalitäten von roten Blutkörperchen unter föderierten Bedingungen unter Nutzung von XAI-integriertem Deep Learning

Evaluation der Leistungsfähigkeit von Deep-Learning-Modellen zur Identifikation von Anomalien in roten Blutkörperchen: Ergebnisse, Methoden und Vergleich mit aktuellen Standards

Leistungsbewertung von Deep-Learning-Modellen zur Identifizierung von RBC-Abnormalitäten

In unserem neuesten Projekt zur Implementierung von Deep-Learning (DL)-Modellen zur Identifizierung von Anomalien in roten Blutkörperchen (RBC) haben wir bedeutende Fortschritte erzielt. Wir haben verschiedene Architekturmodelle untersucht, darunter VGG16, Inception v3 und ResNet50, um ihre Effektivität in der Klassifizierung von RBC-Abnormalitäten zu bewerten. In diesem Blogbeitrag stellen wir die Schlüsselergebnisse und Bewertungen unserer Modelle vor und vergleichen diese mit den aktuellen Standards der Technik.

Methodik und Modellbewertung

Im Rahmen unserer Studie führten wir Trainingsläufe von insgesamt 50 Epochen durch und verwendeten den Adam-Optimierer bei einer Lernrate von 0,00001. Wir konzentrierten uns darauf, sowohl die Testgenauigkeit zu maximieren als auch die Modellverluste zu minimieren. Unsere Bewertungsmethoden umfassten präzise Metriken wie Präzision, Recall, F1-Score, Konfusionsmatrix, AUC-Score, ROC-Kurve, Genauigkeit und Verlustfunktion.

Die wichtigsten Metriken wurden wie folgt definiert:

  • Genauigkeit (Accuracy): ( \frac{TP + TN}{TP + TN + FP + FN} )
  • Präzision (Precision): ( \frac{TP}{TP + FP} )
  • Recall: ( \frac{TP}{TP + FN} )
  • F1-Score: ( \frac{2 \times TP}{2 \times TP + FP + FN} )
  • Spezifität (Specificity): ( \frac{TN}{TN + FP} )

Ergebnisse der Modelle

Die grafischen Darstellungen (siehe Abb. 8-10) zeigen, dass alle Modelle bei ungefähr 20 Epochen ihre maximale Trainingsgenauigkeit erreichten. VGG16 erzielte die höchste Gesamtgenauigkeit von 96 %, gefolgt von Inception v3 und ResNet50. Besonders interessant war der Beobachtungsabgleich in der Konfusionsmatrix, wo eine häufige Unfähigkeit zur Klassifizierung hypochromer RBCs festgestellt wurde. Dies spiegelt sich auch in den niedrigen Werten für Präzision, Recall und F1-Score für diese Klasse wider.

Die ROC-Kurven und AUC-Werte (siehe Abb. 13) unterstrichen, dass während die Modelle für die Mehrheit der Klassen akzeptable AUC-Werte erzielten, die hypochrome Klasse die niedrigsten Werte aufwies.

Einführung in das Federated Learning

Nach Abschluss des Trainings wählten wir das VGG16-Modell als globales Modell aus und führten Schulungen in einer Federated Learning (FL)-Umgebung durch. Hierbei wurde der Datensatz in fünf Segmente unterteilt, die jeweils einen einzelnen Client repräsentieren. Die Simulation lief für 50 Kommunikationsrunden, wobei jede Runde eine Epoch im Datensatz jedes Clients darstellt.

Vanilla Averaging

Bei der Verwendung von Vanilla Averaging zeigten sich sowohl die Genauigkeits- als auch die Verlustkurven (siehe Abb. 15) eines gesunden Anstiegs, wobei die Genauigkeit bis zur 15. Kommunikationsrunde rasch anstieg und dann allmählich stagnierte. Überrascht stellten wir fest, dass der FL-Global-Modell auch hypochrome RBCs klassifizieren konnte, was die zentral trainierten Modelle nicht vermochten.

Weighted Averaging

Durch die Einführung von Weighted Averaging (siehe Abb. 18) erreichten wir eine Genauigkeit von 95 %. Der Verlust reduzierte sich gleichmäßiger, was auf ein stabileres Lernverhalten hindeutet. Diese Methode erweist sich als effektiver im Umgang mit Modellen von variabler Qualität, insbesondere bei Clients mit schlechten Daten oder feindlichen Absichten.

Vergleich mit der Literatur

Insgesamt erreichte das VGG16-Modell im FL-Umfeld eine Genauigkeit von 94 %, was nur 2 % unter dem Ergebnis des zentral trainierten Modells liegt. Diese Ergebnisse zeigen, dass FL eine hervorragende Möglichkeit zur Wahrung der Datenschutzbestimmungen bei gleichzeitig hoher Genauigkeit bietet.

Fazit

Diese Studie hat die Wirksamkeit von Federated Learning zur Klassifizierung von RBC-Bilddaten auf eindrucksvolle Weise bestätigt – 94 % Genauigkeit mit adäquater Sensitivität für die Mehrheit der Klassen ist ein bedeutendes Ergebnis. Während die Kommunikationslast ein gewisses Problem darstellt, ist die Verarbeitungsgeschwindigkeit während der Inferenz hoch.

Zukünftige Arbeiten sollten sich darauf konzentrieren, die Robustheit der Modelle gegen Angriffe zu erhöhen und Wege zu finden, die Effizienz der Kommunikation zu verbessern, insbesondere in federierten Umgebungen. Die Erkenntnisse aus der Ablationsstudie verdeutlichen zudem die Notwendigkeit, die Modellarchitektur zu optimieren, um die Balance zwischen Leistung und Komplexität zu wahren.

Insgesamt zeigt unsere Untersuchung, dass das VGG16-Modell am besten für die Erkennung von RBC-Anomalien im Rahmen von FL geeignet ist.