Rahmenwerk zur Erkennung von KI-Halluzinationen im Gesundheitswesen

Rahmenwerk zur Erkennung von KI-Halluzinationen im Gesundheitswesen

Forscher der University of Massachusetts Amherst und des Healthcare-KI-Unternehmens Mendel haben einen Rahmen für die Erkennung von Halluzinationen in KI-generierten medizinischen Zusammenfassungen veröffentlicht.

Die Einbindung von KI in die Gesundheitsbranche erregt weiterhin Aufmerksamkeit, da Interessengruppen Wege zur Verbesserung der Genauigkeit, Sicherheit und Effizienz dieser Tools suchen. Technologien wie generative KI, einschließlich großer Sprachmodelle, haben das Potenzial gezeigt, die Pflegedokumentation zu optimieren und medizinische Zusammenfassungen zu generieren. Befürworter der KI-Integration im Gesundheitswesen betonen, dass solche Anwendungsbeispiele das Potenzial der Tools verdeutlichen, administrative Belastungen für die Kliniker zu reduzieren.

Ein Hindernis für die KI-Adoption im Gesundheitswesen ist das Phänomen der KI-Halluzination, bei dem ein Modell falsche oder irreführende Informationen generiert. Um diese Risiken zu mindern, entwickelte das Forschungsteam einen Halluzinations-Erkennungsrahmen, der auf LLMs angewendet werden kann, die mit der Generierung von medizinischen Zusammenfassungen beauftragt sind.

Die Forscher testeten die Fähigkeit des Rahmens, Halluzinationen systematisch zu identifizieren und zu kategorisieren, an einer Gruppe von 100 medizinischen Zusammenfassungen, die von GPT-4o und Llama 3 generiert wurden. Die Analyse ergab, dass Halluzinationen in beiden Modellen in fünf Kategorien von inkonsistenten medizinischen Ereignissen vorhanden waren.

GPT-4o generierte im Allgemeinen längere Zusammenfassungen mit durchschnittlich über 500 Wörtern und machte Aussagen mit zweistufigem Denken, was zu medizinischen Ereignisinkonsistenzen führte. Llama-3 hingegen produzierte kürzere Zusammenfassungen mit weniger Schlussfolgerungen, was zu einer Abnahme der Qualität im Vergleich zu GPT-4o führte.

Die Forscher betonten, dass zukünftige Forschungsbemühungen darauf abzielen sollten, automatische Halluzinations-Erkennungssysteme zu verbessern, um die Kosten für menschliche Annotation zu reduzieren und treue Halluzinationen in KI-Modellen im Gesundheitswesen zu vermeiden.