Eine Taxonomie der natürlichen Sprachverarbeitung

Eine Taxonomie der natürlichen Sprachverarbeitung

Dieser Beitrag basiert auf unserem RANLP 2023 Papier “Die Landschaft der Forschung im Bereich der natürlichen Sprachverarbeitung erkunden”. Als effizienter Ansatz, um natürlichsprachige Texte zu verstehen, zu generieren und zu verarbeiten, hat die Forschung im Bereich der natürlichen Sprachverarbeitung (NLP) in den letzten Jahren eine rasche Verbreitung und weite Akzeptanz gezeigt. Angesichts der schnellen Entwicklungen in der NLP ist es jedoch schwierig, einen Überblick über das Gebiet zu erhalten und aufrechtzuerhalten. Dieser Blog-Beitrag zielt darauf ab, einen strukturierten Überblick über verschiedene Studienbereiche in der NLP zu geben und aktuelle Trends in diesem Bereich zu analysieren.

Obwohl die meisten Studienbereiche in der NLP bekannt und definiert sind, gibt es derzeit kein allgemein verwendetes Taxonomie- oder Kategorisierungsschema, das versucht, diese Studienbereiche in einer konsistenten und verständlichen Format zu sammeln und zu strukturieren. Um den gesamten Bereich der NLP-Forschung zu verstehen, ist es daher schwierig. Daher haben wir eine Taxonomie entwickelt, die eine Vielzahl verschiedener Studienbereiche in der NLP umfasst. Obwohl diese Taxonomie möglicherweise nicht alle möglichen NLP-Konzepte umfasst, deckt sie eine Vielzahl der beliebtesten Studienbereiche ab, wobei fehlende Studienbereiche als Unterkategorien der enthaltenen Studienbereiche betrachtet werden können. Bei der Entwicklung der Taxonomie stellten wir fest, dass bestimmte Studienbereiche auf mehrere höhere Studienbereiche anstatt nur einen zugewiesen werden mussten. Daher werden einige Studienbereiche in der NLP-Taxonomie mehrmals aufgelistet, aber verschiedenen höheren Studienbereichen zugeordnet. Die endgültige Taxonomie wurde empirisch in einem iterativen Prozess zusammen mit Fachexperten entwickelt.

Die Taxonomie dient als übergreifendes Klassifikationsschema, in dem NLP-Veröffentlichungen nach mindestens einem der enthaltenen Studienbereiche klassifiziert werden können, auch wenn sie keinen der Studienbereiche direkt ansprechen, sondern nur Unterkonzepte davon behandeln. Um die aktuellen Entwicklungen in der NLP zu analysieren, haben wir ein schwach überwachtes Modell trainiert, um ACL Anthology-Papiere gemäß der NLP-Taxonomie zu klassifizieren.

Die folgenden Abschnitte geben kurze Erklärungen zu den Konzepten der Studienbereiche, die in der obigen NLP-Taxonomie enthalten sind.
– Multimodalität
– Natürlichsprachliche Schnittstellen
– Semantische Textverarbeitung
– Sentiment Analyse
– Syntaktische Textverarbeitung
– Linguistik & kognitive NLP
– Verantwortliche & vertrauenswürdige NLP
– Schlussfolgerung
– Multilingualität
– Informationsabruf
– Informationsgewinnung & Textminen
– Textgenerierung

Im Hinblick auf die Literatur zur NLP beginnen wir unsere Analyse mit der Anzahl der Studien als Indikator für das Forschungsinteresse. Die Verteilung der Veröffentlichungen über den 50-jährigen Beobachtungszeitraum zeigt eine nahezu exponentielle Zunahme der Anzahl von NLP-Studien, was auf eine steigende Aufmerksamkeit seitens der Forschungsgemeinschaft hinweist.