Neuartiges Rahmenwerk kann Entwicklern helfen, die Eignung von Daten für medizinisches maschinelles Lernen zu bewerten

Neuartiges Rahmenwerk kann Entwicklern helfen, die Eignung von Daten für medizinisches maschinelles Lernen zu bewerten

Ein kürzlich in Nature veröffentlichter Artikel schlägt einen neuen Ansatz zur Bewertung der Datenqualität für künstliche Intelligenz im Gesundheitswesen vor. Es gibt bereits mehrere Dokumentationsbemühungen und Rahmenwerke, um KI-Modelle zu bewerten, wie FactSheets, Model-Karten und Dataset Nutrition Labels. Die Autoren schreiben jedoch, dass keines umfassend den Inhalt von Datensätzen und deren Eignung für den Einsatz in ML bewertet. Die deutschen Forscher Daniel Schwabe, Katinka Becker, Martin Seyferth, Andreas Klaß und Tobias Schaeffter suchten nach Merkmalen, um die Datenqualität für vertrauenswürdige KI in der Medizin zu bewerten.

Die Forscher entwickelten das METRIC-Framework, ein spezialisiertes Datenqualitäts-Framework für medizinische Trainingsdaten. Es besteht aus fünf Kategorien und 15 Unterdimensionen, durch die Forscher und Gesundheitseinrichtungen die Eignung ihrer Daten für die jeweilige Aufgabe bewerten können. Die Kategorien umfassen Messprozess, Aktualität, Repräsentativität, Informativität und Konsistenz, um die Angemessenheit eines Datensatzes in Bezug auf einen spezifischen Anwendungsfall zu bewerten.

Die Autoren stellen fest, dass Entwickler sich mit den Aspekten des Frameworks vertraut machen sollen und beginnen sollten, sie zur Bewertung ihrer Daten zu verwenden. Es muss noch mehr Arbeit geleistet werden, um quantitative und qualitative Maßnahmen für jede Dimension festzulegen. Die Forscher führten eine Literaturrecherche durch und fanden 120 Arbeiten, die ihren Kriterien entsprachen. Sie destillierten die Begriffe auf 15 Überlegungen oder “Dimensionen”, die Gesundheitseinrichtungen verwenden sollten, um die Qualität ihrer Daten zu bestimmen.

Die erste der fünf Kategorien, der Messprozess, bewertet die Unsicherheit bei der Datensammlung. Es berücksichtigt fehlende Daten, Gerätefehler, menschliche Fehler und ungenaues Labeln. Die Timeliness bezieht sich darauf, wann die Daten gesammelt und aktualisiert wurden und ob sie mit aktuellen Standards wie Anzeichen für Diagnosen und aktuellen medizinischen Kodierungspraktiken übereinstimmen. Die Repräsentativität, der dritte Aspekt, bezieht sich darauf, inwieweit die Daten die Zielbevölkerung repräsentieren.

Die Informativität des Datensatzes beurteilt, ob die Daten klare Informationen liefern. Faktoren, die die Informativität beeinflussen, sind die Verständlichkeit der Daten, die Reduzierung von Duplikaten oder redundanten Datensätzen und ob die Muster fehlender Werte zusätzliche Informationen liefern. Die letzte Kategorie im METRIC-Framework ist die Konsistenz. Das Framework betrachtet regelbasierte Konsistenz, logische Konsistenz und Verteilungskonsistenz der Daten. Es wird betont, dass die Bewertung der Datenqualität aufgrund ihrer Bedeutung in der medizinischen KI immer wichtiger wird.