Vergleich der Erkennungsgenauigkeit von Bergmeise (Poecile gambeli) Gesang durch zwei Deep-Learning-Algorithmen

Vergleich der Erkennungsgenauigkeit von Bergmeise (Poecile gambeli) Gesang durch zwei Deep-Learning-Algorithmen

Autonome Aufnahmeeinheiten (ARUs) werden zunehmend als beliebte Methode zur Erfassung von Lautäußerungen vieler Arten im Rahmen des biologischen Monitorings genutzt. Diese Methode wird als passive akustische Überwachung (PAM) bezeichnet und ermöglicht aufgrund ihrer hohen Zugänglichkeit und Langzeitanwendbarkeit die schnelle Akkumulation großer akustischer Datensätze. ARUs ermöglichen es Forschern, die Überwachung von Zielarten zu Zeiten durchzuführen, zu denen Menschen nicht physisch anwesend sein können, um Lautäußerungen manuell aufzuzeichnen. ARUs können flexibel programmiert werden, um den Anforderungen der Forscher gerecht zu werden. Wegen der großen Datenmenge, die mit ARUs akkumuliert wird, wenden sich Forscher vom Menschen als Detektoren ab und der Bedarf an maschinellen Lernalgorithmen wächst. Fokalaufnahmen mit Handmikrofonen sind ebenfalls eine gängige Methode zur Aufzeichnung von Lautäußerungen für biologische Forschung und Überwachung. Convolution Neural Networks (CNN) dominieren die automatisierte Auswertung akustischer Datensätze und steigern die Effizienz des biologischen Monitorings.

Einige Studien haben die Leistung verschiedener maschineller Lernalgorithmen anhand eines bekannten Datensatzes von Lautäußerungen verglichen, die von einem menschlichen Beobachter identifiziert wurden. Zum Beispiel hat eine Studie von Manzano-Rubio et al. (2022) den Nutzen von verfügbaren und leicht zugänglichen Detektoren hervorgehoben, indem die Leistungen von zwei maschinellen Lernalgorithmen, BirdNET und Kaleidoscope, bewertet wurden. Eine Studie von Knight et al. (2017) verglich die Leistung von 5 verschiedenen Detektoren: ihrem eigenen CNN-Detektor, SongScope, MonitoR, RavenPro und Kaleidoscope. Knight et al. (2017) stellte fest, dass alle Detektoren je nach einem optimalen Schwellen-/Vertrauensfaktor für jeden Detektor eine hohe Präzisionsrate aufwiesen. Die Detektoren unterschieden sich in ihren Fähigkeiten zur Präzision/Wiedererkennung. Um die Leistung verschiedener maschineller Lernalgorithmen zu vergleichen, muss ein „bekannter“ Testdatensatz vorliegen, der die „echten“ Erkennungen in den Aufzeichnungen enthält.

Eine Lösung zur Überwindung der Einschränkung bei der Beschaffung eines „wahren“ Datensatzes besteht darin, die Wahrscheinlichkeit der Erkennung eines Beobachters zu schätzen, indem die Leistung mehrerer Beobachter verglichen wird. Eine dieser Methoden ist der Huggins-Ansatz für geschlossene Populationen, der ursprünglich für gefangenschafts-/rückverfolgende biologische Studien entwickelt wurde und auf menschliche und maschinelle Detektoren angewendet wurde, um Blauwale „D-Rufe“ zu identifizieren. Der Huggins-Ansatz schätzt die Wahrscheinlichkeit der Erkennung in einem „Rückverfolgungsereignis“ aus einem bekannten Datensatz (dem initialen „Erfassungsereignis“). Der Mensch wird als „Erfassungsereignis“ betrachtet, während die anderen Detektoren als „Rückfangerereignisse“ betrachtet werden, die mit den menschlichen Erkennungen verglichen werden. Diese Methode ermöglicht die Bewertung der menschlichen Leistung, da die maschinellen Detektoren Lautäußerungen identifizieren können, die der Mensch übersehen hat. Ein menschlicher „Experte“ muss dann die Erkennungen, die der maschinelle Detektor gefunden hat, aber die der Mensch übersehen hat, bewerten, um zu bestimmen, ob es sich um echte Positiv- oder Falsch-Positiv-Erkennungen handelt. In dieser Studie wurde das Huggins-Modell für geschlossene Populationen verwendet, um die Leistung von zwei maschinellen Lernalgorithmen mit einem menschlichen Detektor zu bewerten, indem Audioclips mit Lautäußerungen eines häufigen nordamerikanischen Singvogels, der Bergmeise, verwendet wurden.