Bewertung von Vertrauen und Sicherheit großer Sprachmodelle

Bewertung von Vertrauen und Sicherheit großer Sprachmodelle

Inmitten der rasant steigenden Popularität großer Sprachmodelle (LLMs) untersuchen Forscher am Lawrence Livermore National Laboratory genauer, wie diese künstlichen Intelligenzsysteme unter messbarer Prüfung funktionieren. LLMs sind generative KI-Werkzeuge, die auf massiven Datenmengen trainiert werden, um auf eine Anfrage eine textbasierte Antwort zu liefern. Diese Technologie hat das Potenzial, die wissenschaftliche Forschung auf vielfältige Weise zu beschleunigen, von Anwendungen in der Cybersicherheit bis hin zu autonomen Experimenten. Aber selbst wenn ein Milliarden-Parameter-Modell auf Billionen von Datenpunkten trainiert wurde, können wir uns immer noch auf seine Antwort verlassen?

Zwei von Livermore mitverfasste Arbeiten, die die Vertrauenswürdigkeit von LLMs untersuchen – wie ein Modell Daten verwendet und Entscheidungen trifft – wurden zur International Conference on Machine Learning 2024 akzeptiert, einer der weltweit führenden KI-/ML-Konferenzen. “Diese Technologie hat viel Schwung, und wir können sie besser und sicherer machen”, sagte Bhavya Kailkhura, der beide Arbeiten mitverfasst hat. Das Training auf riesigen Datenmengen ist keine Bestätigung für die Vertrauenswürdigkeit eines Modells. Zum Beispiel könnten voreingenommene oder private Informationen einen Trainingsdatensatz verunreinigen, oder ein Modell könnte fehlerhafte Informationen in der Anfrage des Benutzers nicht erkennen. Und obwohl LLMs sich erheblich verbessert haben, wenn sie skaliert wurden, können manchmal kleinere Modelle größere Modelle übertreffen. Letztendlich stehen die Forscher vor den doppelten Herausforderungen, die Vertrauenswürdigkeit zu bewerten und die Standards dafür zu definieren.

In “TrustLLM: Vertrauenswürdigkeit in großen Sprachmodellen” entwickelte Kailkhura zusammen mit Mitarbeitern von Universitäten und Forschungseinrichtungen auf der ganzen Welt einen umfassenden Bewertungsrahmen für die Vertrauenswürdigkeit. Sie untersuchten 16 gängige LLMs – darunter ChatGPT, Vicuna und Llama2 – über acht Dimensionen der Vertrauenswürdigkeit und verwendeten 30 öffentliche Datensätze als Benchmarks für eine Reihe von einfachen bis komplexen Aufgaben. Geleitet von der Lehigh University ist die Studie ein tiefgehender Einblick in das, was ein Modell vertrauenswürdig macht. Die Autoren sammelten Bewertungsmetriken aus der bereits umfangreichen wissenschaftlichen Literatur zu LLMs und überprüften mehr als 600 in den letzten fünf Jahren veröffentlichte Arbeiten. “Dies war ein groß angelegter Einsatz”, sagte Kailkhura. “Diese Probleme können Sie nicht alleine lösen.”