Die Daten stammen aus der Bildherausforderung 19 des New England Journal of Medicine (NEJM), einem wöchentlichen Web-Quiz, das ein Bild, eine optionale kurze Fallbeschreibung, eine entsprechende Frage und fünf Multiple-Choice-Fragen enthält. Es wurden alle bis zum 7. Dezember 2023 veröffentlichten Bildfälle einbezogen (n = 945). Zusätzlich zur oben genannten Frage wurde auch die Anzahl der Stimmen für die verfügbaren Optionen ermittelt, um die Modelle mit der kollektiven menschlichen Intelligenz zu vergleichen.
Zwei Metriken wurden aus den Abstimmungsdaten der Teilnehmer abgeleitet: der Durchschnitt der Teilnehmer, der den durchschnittlichen Prozentsatz der Personen darstellt, die jede Frage richtig beantwortet haben, und die Mehrheitsabstimmung der Teilnehmer, die bestimmt, ob die meisten Teilnehmer die richtige Antwort auf jede Frage ausgewählt haben, und somit als Metrik des kollektiven Konsenses zur Richtigkeit der Antworten dient.
Die vorliegende Studie bewertet neun multimodale KI-Modelle: CogVLM Chat v1.1, LLaVA v1.5, LLaVA v1.6, InternVL-Chat-V1.5-Int8, OpenAI’s GPT-4 Vision Preview, Google’s Gemini 1.0 Pro Vision und Anthropics Claude 3 Family Opus, Haiku und Sonnet. Die proprietären Modelle GPT-4 Vision Preview, Gemini 1.0 Pro Vision und Claude 3 wurden über die Python-Bibliotheken der Unternehmen verwendet. Die Modellgewichte der offenen Modelle wurden von Hugging Face heruntergeladen, außer für LLaVA v1.6 und InternVL-Chat-V1.5-Int8, die zu verschiedenen Zeitpunkten im Jahr 2024 abgerufen wurden.
Eine einheitliche Fragevorlage wurde für alle neun multimodalen Modelle verwendet, um die medizinischen Fragen basierend auf Beschreibungen medizinischer Bilder zu beantworten. Die statistische Analyse wurde auf einem Apple M1 Pro macOS 14.3.1 System mit Python 3.10.12 durchgeführt, wobei verschiedene Python-Bibliotheken wie Pandas, Seaborn und Matplotlib für die Datenanalyse und Visualisierung verwendet wurden.
Während des Schreibprozesses wurden generative KI und KI-unterstützte Technologien wie Grammarly und GPT-4 zur Verbesserung der Sprache und der allgemeinen Manuskriptüberarbeitung eingesetzt. Die Autoren haben den Inhalt nach Verwendung dieser Tools überprüft und bearbeitet und übernehmen die volle Verantwortung für den Inhalt der Veröffentlichung. Weitere Informationen zur Forschungsdesign sind im Nature Portfolio Reporting Summary verfügbar.
Hinterlasse eine Antwort