Forscher decken die Anfälligkeit von Sprachemotionserkennungsmodellen für feindliche Angriffe auf

Forscher decken die Anfälligkeit von Sprachemotionserkennungsmodellen für feindliche Angriffe auf

Aktuelle Fortschritte in der Sprach-Emotionserkennung haben das erhebliche Potenzial von Deep-Learning-Technologien für verschiedene Anwendungen hervorgehoben. Allerdings sind diese Deep-Learning-Modelle anfällig für Adversarial Attacks. Ein Team von Forschern der Universität Mailand hat systematisch die Auswirkungen von White-Box- und Black-Box-Attacken auf verschiedene Sprachen und Geschlechter innerhalb der Sprach-Emotionserkennung untersucht. Die Forschung wurde am 27. Mai in Intelligent Computing veröffentlicht.

Die Forschung betont die erhebliche Anfälligkeit von Convolutional Neural Network Long Short-Term-Memory-Modellen für Adversarial Examples, die speziell gestaltete “gestörte” Eingaben sind, die dazu führen, dass die Modelle fehlerhafte Vorhersagen treffen. Die Ergebnisse deuten darauf hin, dass alle betrachteten Adversarial Attacks die Leistung von Sprach-Emotionserkennungsmodellen erheblich reduzieren können. Die Forscher schlagen vor, dass die Anfälligkeit dieser Modelle für Adversarial Attacks “ernsthafte Konsequenzen” haben könnte.

Die Forscher schlugen eine Methodik für die Audioprozessierung und Merkmalsextraktion vor, die auf der Convolutional Neural Network Long Short-Term-Memory-Architektur basiert. Sie untersuchten drei Datensätze: EmoDB für Deutsch, EMOVO für Italienisch und RAVDESS für Englisch. Sie nutzten verschiedene Angriffsmethoden für sowohl White-Box- als auch Black-Box-Szenarien. Obwohl White-Box-Angriffe keine Einschränkungen hatten, erzielten Black-Box-Angriffe manchmal bessere Ergebnisse.

Die Forschung beinhaltete eine geschlechtsspezifische Perspektive, um die unterschiedlichen Auswirkungen von Adversarial Attacks auf männliche und weibliche Sprache sowie auf Sprache in verschiedenen Sprachen zu untersuchen. Englisch schien am anfälligsten zu sein, während Italienisch die höchste Widerstandsfähigkeit zeigte. Die Untersuchung zeigte nur geringfügige Leistungsunterschiede zwischen den Sprachen und zwischen männlichen und weiblichen Sprachsamples.

Indem Forscher diese Schwachstellen bekannt machen, können sich sowohl Angreifer als auch Verteidiger besser auf potenzielle Bedrohungen vorbereiten und ihre Systeme stärken, was letztendlich zu einer sichereren technologischen Landschaft beiträgt. Die Forschung trägt dazu bei, die Sicherheit der Technologielandschaft zu verbessern.