Meta AI und NYU Forscher schlagen E-RLHF zur Bekämpfung von LLM Jailbreaking vor.

Meta AI und NYU Forscher schlagen E-RLHF zur Bekämpfung von LLM Jailbreaking vor.

Große Sprachmodelle (LLMs) haben in der Tiefe des Lernens an Bedeutung gewonnen und zeigen außergewöhnliche Fähigkeiten in verschiedenen Bereichen wie Assistenz, Codegenerierung, Gesundheitswesen und Theorembeweisen. Der Schulungsprozess für LLMs umfasst in der Regel zwei Phasen: das Vortraining mit massiven Korpora und einen Ausrichtungsschritt mithilfe von Verstärkungslernen aus menschlichem Feedback (RLHF). LLMs benötigen jedoch Hilfe bei der Erzeugung von geeigneten Inhalten. Trotz ihrer Effektivität in mehreren Aufgaben neigen diese Modelle dazu, beleidigende oder unangemessene Inhalte zu produzieren, einschließlich Hassrede, Malware, gefälschte Informationen und sozialer Vorurteile. Diese Verwundbarkeit ergibt sich aus der unvermeidlichen Präsenz schädlicher Elemente in ihren Vortrainingsdatensätzen. Der Ausrichtungsprozess, der entscheidend ist, um diese Probleme anzugehen, ist nicht universell anwendbar und hängt von spezifischen Anwendungsfällen und Benutzerpräferenzen ab, was ihn zu einer komplexen Herausforderung für Forscher macht, die überwinden müssen.

Forscher haben erhebliche Anstrengungen unternommen, um die Sicherheit von LLMs durch Ausrichtungstechniken wie überwachtes Feintuning, Red Teaming und die Verfeinerung des RLHF-Prozesses zu verbessern. Bestehende Ansätze zur Bewältigung dieser Herausforderungen lassen sich in drei Hauptkategorien einteilen: Grundlagenmethoden, LLM-Automatisierung und auf Suffixen basierende Angriffe sowie Manipulation des Dekodierungsprozesses. Trotz dieser Bemühungen benötigen aktuelle Methoden Hilfe bei der semantischen Plausibilität und der Anwendbarkeit auf verschiedene Architekturen. Der Mangel an einem grundsätzlichen universellen Schutz gegen Jailbreaking-Angriffe und das begrenzte theoretische Verständnis dieses Phänomens bleiben bedeutende Herausforderungen im Bereich der LLM-Sicherheit.

Forscher haben ein theoretisches Rahmenwerk zur Analyse von Jailbreaking-Sicherheitslücken bei Sprachmodellen vorgestellt, in dem Eingabeanfragen entkoppelt und Ausgaben als längere Textfragmente dargestellt werden. Sie liefern eine PAC-Bayes’sche Verallgemeinerungsgrenze für das Vortraining und schlagen vor, dass in leistungsfähigen Modellen zwangsläufig schädliche Ausgaben auftreten. Das Rahmenwerk zeigt, dass Jailbreaking auch nach der Sicherung unvermeidlich bleibt. Identifiziert man einen wichtigen Nachteil in RL Fine-Tuning-Zielen, schlagen die Forscher Methoden vor, um sicherere, widerstandsfähige Modelle zu trainieren, ohne die Leistung zu beeinträchtigen. Dieser Ansatz bietet neue Einblicke in die Sicherheit von LLMs und potenzielle Verbesserungen in Bezug auf Ausrichtungstechniken.

Die Forscher präsentieren ein umfassendes theoretisches Rahmenwerk zur Analyse von Sicherheitslücken bei Sprachmodell-Jailbreaking, wobei Anfragen als Anfrage-Konzept-Tupel modelliert werden und LLMs als Erzeuger längerer Textfragmente namens Erklärungen fungieren. Die Forscher stellen wesentliche Annahmen vor und definieren Begriffe von Schädlichkeit und präsentieren eine nicht leere PAC-Bayes’sche Verallgemeinerungsgrenze für das Vortraining von Sprachmodellen. Die Stichprobenanwendungen der Forschungsarbeiten zeigen, dass der vorgeschlagene E-DPO die durchschnittliche Erfolgsrate von Angriffen (Attack Success Rate, ASR) reduziert und die Sicherheitsausrichtung für verschiedene Jailbreak-Gegner verbessert hat. Die Forschung schloss damit, dass E-DPO die Sicherheitsausrichtung verbessert, ohne die Modellhilfreichkeit zu beeinträchtigen, und mit Systemanfragen für weitere Sicherheitsverbesserungen kombiniert werden kann.