OpenAIs Transkriptionswerkzeug halluziniert. Krankenhäuser verwenden es dennoch

OpenAIs Transkriptionswerkzeug halluziniert. Krankenhäuser verwenden es dennoch

Gefährliche Fehltranskriptionen: OpenAI’s Whisper Tool schafft Fiktionen in Medizin und Wirtschaft

Die Risiken von OpenAI’s Whisper: Ein Blick auf die Probleme der Sprachtranskription

Am Samstag veröffentlichte die Associated Press (AP) eine aufschlussreiche Untersuchung, die die Gefahren von OpenAI’s Whisper-Transkriptionstool in den Bereichen Medizin und Wirtschaft aufdeckte. Trotz der Warnungen vor unsachgemäßer Nutzung, zeigt sich, dass Whisper in diesen sensiblen Bereichen häufig falsche Texte generiert. Dieser unerwünschte Effekt ist bekannt als "Konfabulation" oder "Halluzination", ein Phänomen, das in der KI-Forschung immer wieder diskutiert wird.

Die Befunde der AP-Untersuchung

Die AP führte Interviews mit über zwölf Software-Ingenieuren, Entwicklern und Forschern durch, die offenbarten, dass Whisper in der Regel Texte erfindet, die so von den Sprechern nie gesagt wurden. Dies wirft ernsthafte Fragen zur Zuverlässigkeit des Tools auf. Bei einer Überprüfung von Protokollen öffentlicher Sitzungen stellte ein Forscher der Universität Michigan fest, dass Whisper in 80 Prozent der Fälle falsche Transkriptionen lieferte. Ein weiterer Entwickler, dessen Name im AP-Bericht anonym bleibt, kannte erfundene Inhalte in fast allen 26.000 seiner getesteten Transkriptionen.

Die Gefahren im Gesundheitswesen

Besonders alarmierend sind die Risiken, die Whisper im Gesundheitswesen birgt. Trotz der klaren Warnungen von OpenAI gegen die Anwendung des Tools in sogenannten "hochriskanten Bereichen", nutzen über 30.000 medizinische Fachkräfte Whisper-basierte Tools zur Transkription von Patientenbesuchen. Vorreiter wie die Mankato Clinic in Minnesota und das Children’s Hospital Los Angeles verwenden Dienstleistungen des Medizintechnikunternehmens Nabla, das Whisper auf medizinische Terminologie abgestimmt hat.

Nabla bestätigt, dass Whisper konfabulieren kann, löscht jedoch anscheinend auch die Original-Audioaufnahmen aus "Datenschutzgründen". Diese Vorgehensweise könnte dramatische Auswirkungen haben, da Ärzte die Genauigkeit der Transkriptionen nicht mehr mit dem Originalmaterial abgleichen können. Besonders schwerwiegend könnte dies für hörgeschädigte Patienten sein, die keine Möglichkeit haben, die Richtigkeit der medizinischen Transkripte zu überprüfen.

Falsche Transkriptionen und ihre weitreichenden Folgen

Die Probleme mit Whisper beschränken sich jedoch nicht nur auf das Gesundheitswesen. Forscher von der Cornell University und der University of Virginia untersuchten Tausende von Audiodaten und entdeckten, dass Whisper sogar fiktive gewalttätige Inhalte und rassistische Kommentare in neutrale Sprache einfügte. In rund 1 Prozent der Proben wurden "völlig halluzinierte Phrasen oder Sätze" identifiziert, die in der zugrunde liegenden Audioaufnahme nicht vorhanden waren. 38 Prozent dieser Fälle beinhalteten "explizite Schäden", wie die Verbreitung von Gewalt oder falschen Assoziationen.

Ein Beispiel aus der Studie verdeutlicht dies: Während ein Sprecher von "zwei anderen Mädchen und einer Dame" sprach, fügte Whisper fiktiven Text hinzu, der spezifizierte, dass diese "schwarz waren". In einem weiteren Fall, wo die Audioaufnahme lautete: "Er, der Junge, wollte, ich bin mir nicht sicher, den Regenschirm nehmen", wurde dies als "Er nahm ein großes Stück von einem Kreuz, ein winzig kleines Stück … Ich bin mir sicher, dass er kein Terror-Messer hatte, also tötete er eine Anzahl von Menschen" transkribiert.

Das Verständnis von Whisper’s Funktionsweise

Ein Sprecher von OpenAI erklärte der AP, dass das Unternehmen die Erkenntnisse der Forscher schätzt und aktiv daran arbeitet, die Häufigkeit der Konfabulationen zu reduzieren. Die Probleme mit Whisper hängen eng mit der zugrunde liegenden Technik zusammen. Whisper basiert auf der Transformer-Architektur, die darauf ausgelegt ist, das wahrscheinlichste nächste Token (Datenstück) vorherzusagen, das nach einer gegebenen Sequenz erscheinen sollte. Im Fall von Whisper bezieht sich die Eingabe auf tokenisierte Audiodaten.

Fazit

Die Untersuchung der Associated Press wirft ernste Fragen zur Verwendung von OpenAI’s Whisper in kritischen Bereichen auf. Mit der wachsenden Akzeptanz von KI-gestützten Tools in der Medizin und anderen hochriskanten Feldern ist es von entscheidender Bedeutung, die potenziellen Risiken, die durch fehlerhafte Transkriptionen entstehen, gründlich zu verstehen und zu adressieren. Der Schutz von Patientendaten und die Wahrung der Integrität medizinischer Informationen müssen stets oberste Priorität haben, um die Sicherheit und das Wohl der Patienten zu gewährleisten.