Arabische Rechtsbeurteilung: Ein Multitask KI Benchmark-Datensatz zur Bewertung des arabischen Rechtswissens von LLMs

Arabische Rechtsbeurteilung: Ein Multitask KI Benchmark-Datensatz zur Bewertung des arabischen Rechtswissens von LLMs

Die Bewertung des juristischen Wissens in großen Sprachmodellen (LLMs) hat sich hauptsächlich auf englischsprachige Kontexte konzentriert, mit Benchmarks wie MMLU und LegalBench, die grundlegende Methodologien bereitstellen. Die Bewertung des arabischen juristischen Wissens blieb jedoch eine signifikante Lücke. Frühere Bemühungen umfassten die Übersetzung von englischen juristischen Datensätzen und die Nutzung begrenzter arabischer juristischer Dokumente, was die Notwendigkeit von dedizierten arabischen juristischen KI-Ressourcen unterstreicht.

ArabLegalEval stellt sich als entscheidender Maßstab dar, um diese Einschränkungen zu beheben. Dieses neue Tool bezieht Aufgaben aus saudi-arabischen Rechtsdokumenten und bietet damit einen relevanteren Kontext für arabischsprachige Benutzer. Es zielt darauf ab, die Bewertungskriterien zu erweitern, eine breitere Palette von arabischen Rechtsdokumenten einzubeziehen und eine Vielzahl von Modellen zu bewerten. ArabLegalEval stellt einen bedeutenden Fortschritt dar, um die Fähigkeiten von LLMs in arabischen rechtlichen Kontexten zu bewerten.

Obwohl schnelle Fortschritte in LLMs verschiedene natürlichsprachliche Verarbeitungsaufgaben verbessert haben, bleibt ihre Bewertung in rechtlichen Kontexten, insbesondere für nicht-englische Sprachen wie Arabisch, untererforscht. ArabLegalEval behebt diese Lücke, indem es einen Multitask-Benchmark-Datensatz einführt, um die Kompetenz von LLMs im Verständnis und der Verarbeitung arabischer rechtlicher Texte zu bewerten. Inspiriert von Datensätzen wie MMLU und LegalBench, umfasst er Aufgaben, die aus saudi-arabischen Rechtsdokumenten abgeleitet sind und synthetische Fragen enthalten.

Die Komplexität der arabischen rechtlichen Sprache erfordert spezialisierte Maßstäbe, um die Fähigkeiten von LLMs in diesem Bereich genau zu bewerten. Während bestehende Maßstäbe wie ArabicMMLU allgemeine Schlussfolgerungen testen, konzentriert sich ArabLegalEval speziell auf juristische Aufgaben, die in Zusammenarbeit mit Rechtsexperten entwickelt wurden. Dieser Maßstab zielt darauf ab, eine breite Palette von LLMs zu bewerten, einschließlich proprietärer mehrsprachiger und Open-Source arabisch-zentrierter Modelle, um Stärken und Schwächen in ihren rechtlichen Schlussfolgerungsfähigkeiten zu identifizieren.

Die Methodik beinhaltet einen systematischen Ansatz zur Erstellung und Validierung eines Benchmark-Datensatzes zur Bewertung des arabischen juristischen Wissens in LLMs. Die Datenvorbereitung beginnt mit der Beschaffung von Rechtsdokumenten von offiziellen Stellen und dem Web-Scraping zur Erfassung relevanter Vorschriften. Der Prozess konzentriert sich dann auf die Generierung synthetischer Multiple-Choice-Fragen (MCQs) mit drei Methoden: QA to MCQ, Chain of Thought und Retrieval-based In-Context Learning. Diese Techniken adressieren die Herausforderungen bei der Formulierung von Fragen und der Generierung plausibler Antwortoptionen.