Bewertung von Vertrauen und Sicherheit großer Sprachmodelle

Inmitten der rasant steigenden Popularität großer Sprachmodelle (LLMs) untersuchen Forscher am Lawrence Livermore National Laboratory genauer, wie diese künstlichen Intelligenzsysteme unter messbarer Prüfung funktionieren. LLMs sind generative KI-Werkzeuge, die auf massiven Datenmengen trainiert werden, um auf eine Anfrage eine textbasierte Antwort zu liefern. Diese Technologie hat das Potenzial, die wissenschaftliche Forschung auf vielfältige Weise zu beschleunigen, von Anwendungen in der Cybersicherheit bis hin zu autonomen Experimenten. Aber selbst wenn ein Milliarden-Parameter-Modell auf Billionen von Datenpunkten trainiert wurde, können wir uns immer noch auf seine Antwort verlassen?

Zwei von Livermore mitverfasste Arbeiten, die die Vertrauenswürdigkeit von LLMs untersuchen – wie ein Modell Daten verwendet und Entscheidungen trifft – wurden zur International Conference on Machine Learning 2024 akzeptiert, einer der weltweit führenden KI-/ML-Konferenzen. “Diese Technologie hat viel Schwung, und wir können sie besser und sicherer machen”, sagte Bhavya Kailkhura, der beide Arbeiten mitverfasst hat. Das Training auf riesigen Datenmengen ist keine Bestätigung für die Vertrauenswürdigkeit eines Modells. Zum Beispiel könnten voreingenommene oder private Informationen einen Trainingsdatensatz verunreinigen, oder ein Modell könnte fehlerhafte Informationen in der Anfrage des Benutzers nicht erkennen. Und obwohl LLMs sich erheblich verbessert haben, wenn sie skaliert wurden, können manchmal kleinere Modelle größere Modelle übertreffen. Letztendlich stehen die Forscher vor den doppelten Herausforderungen, die Vertrauenswürdigkeit zu bewerten und die Standards dafür zu definieren.

In “TrustLLM: Vertrauenswürdigkeit in großen Sprachmodellen” entwickelte Kailkhura zusammen mit Mitarbeitern von Universitäten und Forschungseinrichtungen auf der ganzen Welt einen umfassenden Bewertungsrahmen für die Vertrauenswürdigkeit. Sie untersuchten 16 gängige LLMs – darunter ChatGPT, Vicuna und Llama2 – über acht Dimensionen der Vertrauenswürdigkeit und verwendeten 30 öffentliche Datensätze als Benchmarks für eine Reihe von einfachen bis komplexen Aufgaben. Geleitet von der Lehigh University ist die Studie ein tiefgehender Einblick in das, was ein Modell vertrauenswürdig macht. Die Autoren sammelten Bewertungsmetriken aus der bereits umfangreichen wissenschaftlichen Literatur zu LLMs und überprüften mehr als 600 in den letzten fünf Jahren veröffentlichte Arbeiten. “Dies war ein groß angelegter Einsatz”, sagte Kailkhura. “Diese Probleme können Sie nicht alleine lösen.”

Bewertung von Vertrauen und Sicherheit großer Sprachmodelle

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Hochleistungsfähige maschinelles Lernen-basierte Kalibrierung kostengünstiger Stickstoffdioxid-Sensoren unter Verwendung von Umgebungsparameter-Differenzen und globaler Datenskalierung – Wissenschaftliche Berichte

Schätzungen der klimabedingten Auswirkungen auf die Sterblichkeit in Deutschland auf Basis neuronaler Netzwerke: Anwendung auf Klimasimulationen von Handlungsgeschichten – Scientific Reports

XElemNet: Ein Machine Learning-Framework, das eine Reihe von erklärbaren KI-Technologien (XAI) für tiefe neuronale Netze in der Materialwissenschaft anwendet

Integration von maschinellem Lernen und Einzelzell-Transkriptomanalyse zur Identifizierung potenzieller Biomarker und Analyse immunologischer Merkmale bei ischämischem Schlaganfall

Waterlabs AI: Bedeutungsvolle KI-Anwendung im Gesundheitswesen Revenue Cycle Management

Wie ich in weniger als 12 Monaten von Analyst zu Datenwissenschaftler wechselte

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360