Generative KI kann klinische Notizen noch nicht zuverlässig lesen

Generative KI kann klinische Notizen noch nicht zuverlässig lesen

Am 19. August 2024 wurde an der Columbia University Mailman School of Public Health untersucht, ob Large Language Models (LLM) wie ChatGPT-4 klinische Notizen in medizinischen Unterlagen automatisch lesen können, um relevante Informationen zur Unterstützung der Patientenversorgung oder der Forschung effizient zu extrahieren. Es stellte sich jedoch heraus, dass LLM dies noch nicht zuverlässig können. In einer Studie mit 54.569 Notaufnahmebesuchen von Patienten, die beim Fahrrad-, Scooter- oder anderen Micromobilitätsfahrzeugfahren verletzt wurden, hatte das KI-Modell LLM Schwierigkeiten, die Helmtragestatus aus den klinischen Notizen zu extrahieren. Dieses Problem trat insbesondere auf, wenn Phrasen verneint wurden, wie z.B. “w/o helmet” oder “helmunbekleidet”.

Derzeit werden in elektronischen medizinischen Unterlagen große Mengen an relevanten Daten in Form von geschriebenen klinischen Notizen gespeichert, die als unstrukturierte Daten gelten. Effiziente Methoden, um Informationen aus diesen Notizen zu extrahieren, wären äußerst nützlich für die Forschung. Bisher konnten Informationen aus klinischen Notizen mithilfe einfacher Textsuchansätze oder durch komplexere künstliche Intelligenz (KI)-basierte Ansätze wie Natural Language Processing extrahiert werden. Die Hoffnung war, dass neue LLM wie ChatGPT-4 Informationen schneller und zuverlässiger extrahieren könnten, was sich jedoch als schwierig erwies.

Die Forscher analysierten mithilfe von öffentlich verfügbaren Daten aus den Jahren 2019 bis 2022 die Notaufzeichnungen von Patienten, die bei Unfällen mit E-Bikes, Fahrrädern, Hoverboards und Elektrorollern verletzt wurden. Dabei stellten sie fest, dass ChatGPT-4 Schwierigkeiten hatte, zuverlässige Daten aus den klinischen Notizen zu extrahieren. Obwohl das Modell genaue Daten extrahieren konnte, wenn detaillierte Vorgaben gemacht wurden, konnte es diese Arbeit nicht zuverlässig reproduzieren.

Die Studie wurde von verschiedenen Organisationen wie dem National Institute of Health and Human Development und dem Centers for Disease Control and Prevention unterstützt. Insgesamt zeigt die Forschung, dass obwohl LLM wie ChatGPT-4 Potenzial haben, Informationen aus klinischen Notizen zu extrahieren, ihre Zuverlässigkeit und Fähigkeit zur Reproduzierbarkeit noch verbessert werden müssen.