Die Sicherstellung der Sicherheit von immer leistungsfähigeren KI-Systemen ist von entscheidender Bedeutung. Die aktuelle KI-Sicherheitsforschung zielt darauf ab, aufkommende und zukünftige Risiken durch die Entwicklung von Benchmarks zu bewerten, die verschiedene Sicherheitseigenschaften wie Fairness, Zuverlässigkeit und Robustheit messen. Die Definition des Feldes ist jedoch unklar, da Benchmarks oft allgemeine KI-Fähigkeiten widerspiegeln, anstatt echte Sicherheitsverbesserungen zu bieten. Diese Unklarheit kann zu einem sogenannten “Safetywashing” führen, bei dem Fähigkeitsfortschritte als Sicherheitsfortschritt dargestellt werden, wodurch nicht sichergestellt wird, dass KI-Systeme tatsächlich sicherer sind. Die Bewältigung dieser Herausforderung ist entscheidend für die Förderung der KI-Forschung und die Sicherstellung, dass Sicherheitsmaßnahmen sowohl sinnvoll als auch effektiv sind.
Bestehende Methoden zur Sicherstellung der KI-Sicherheit beinhalten Benchmarks, die Attribute wie Fairness, Zuverlässigkeit und adversariale Robustheit bewerten. Häufige Benchmarks sind Tests zur Modellausrichtung mit menschlichen Präferenzen, Bias-Bewertungen und Kalibrierungsmetriken. Viele dieser Benchmarks sind jedoch stark mit allgemeinen KI-Fähigkeiten korreliert, was bedeutet, dass Verbesserungen in diesen Benchmarks oft aus allgemeinen Leistungssteigerungen resultieren, anstatt gezielte Sicherheitsverbesserungen zu sein.
Ein Team von Forschern aus dem Center for AI Safety, der University of Pennsylvania, UC Berkeley, der Stanford University, der Yale University und der Keio University stellt einen neuen empirischen Ansatz vor, um echten Sicherheitsfortschritt von allgemeinen Leistungsverbesserungen zu unterscheiden. Die Forscher führen eine Meta-Analyse verschiedener KI-Sicherheitsbenchmarks durch und messen ihre Korrelation mit allgemeinen Fähigkeiten über zahlreiche Modelle hinweg. Diese Analyse zeigt, dass viele Sicherheitsbenchmarks tatsächlich mit allgemeinen Fähigkeiten korreliert sind, was zu potenziellem Safetywashing führen kann. Die Innovation besteht in der empirischen Grundlage für die Entwicklung aussagekräftigerer Sicherheitsmetriken, die sich von generischen Fähigkeitsverbesserungen unterscheiden.
Die vorgeschlagene Lösung besteht darin, eine Reihe empirisch trennbarer Sicherheitsforschungsziele zu schaffen, um sicherzustellen, dass Fortschritte in der KI-Sicherheit nicht nur eine Reflexion allgemeiner Fähigkeitsverbesserungen sind, sondern echte Verbesserungen in der Zuverlässigkeit und Vertrauenswürdigkeit von KI. Diese Arbeit hat das Potenzial, die KI-Sicherheitsforschung erheblich zu beeinflussen, indem sie einen strengeren Rahmen für die Bewertung von Sicherheitsfortschritten bietet.
Hinterlasse eine Antwort