Bewerben Sie sich für das Natural Language Processing (NLP) Programm

Bewerben Sie sich für das Natural Language Processing (NLP) Programm

Der Lacuna Fund lädt zur Bewerbung für das Natural Language Processing (NLP) Programm ein, um Bemühungen zur Entwicklung offener und zugänglicher Datensätze für maschinelles Lernen im Bereich Natural Language Processing (NLP) für Sprachen und Kulturen mit geringen Ressourcen in Afrika und Lateinamerika zu unterstützen. Die Fähigkeit, in der eigenen Sprachvielfalt und kulturellen Kontext zu kommunizieren und verstanden zu werden, ist entscheidend für die digitale und gesellschaftliche Integration. Viele Fortschritte in der Grundlagenforschung und angewandten NLP haben sich aus offenen und öffentlich verfügbaren Datensätzen ergeben.

Jedoch sind solche Datensätze für viele afrikanische und lateinamerikanische Sprachen kaum bis gar nicht vorhanden, was diese Bevölkerungsgruppen von den Vorteilen des NLP ausschließt. Viele aktuelle maschinelle Lernmodelle basieren auf anglozentrischen und/oder übersetzten Datensätzen, die kulturell relevante Nuancen vermissen lassen und zu voreingenommenen oder unbrauchbaren Modellen für Gemeinschaften in Afrika und Lateinamerika führen. Es besteht also ein Bedarf an offen zugänglichen Datensätzen, um NLP-Technologien für Sprachen mit geringen Ressourcen in Afrika und Lateinamerika zu ermöglichen und die Entwicklung robuster und kulturell angemessener Sprachdatensätze zu unterstützen, die den spezifischen Bedürfnissen unterrepräsentierter Gemeinschaften gerecht werden.

Der Gesamtbetrag, der verfügbar ist, beträgt etwa 1 Million US-Dollar. Es wird angestrebt, Projekte in jeder der Zielregionen (Afrika, Lateinamerika) zu fördern und 6-8 kleinere Projekte mit Budgets von bis zu 100.000 USD und 2-3 größere, komplexere Projekte mit Budgets zwischen 100.000 und 250.000 USD zu unterstützen. Lacuna Fund sucht nach Vorschlägen von qualifizierten, multidisziplinären Teams zur Entwicklung offener und zugänglicher Schulungs- und Evaluationsdatensätze für maschinelles Lernen und NLP in Sprachen mit geringen Ressourcen und unterrepräsentierten Kulturen in Afrika und Lateinamerika.

Die Bedeutung dieser Datensätze liegt in der Berücksichtigung der sprachlichen Vielfalt und kulturellen Feinheiten in Afrika und Lateinamerika. Dies umfasst Datensätze über regionale Umgangssprache, idiomatische Ausdrücke, lokale Sprachvarianten oder Dialekte und kulturell relevante Daten. Solche Datensätze sind entscheidend für die Entwicklung inklusiverer und effektiverer Natural Language Processing-Tools, die den einzigartigen Bedürfnissen kulturell vielfältiger sprachlicher Gemeinschaften dienen können.