Multimodales Deep Learning zur Demenzklassifizierung mit Text und Audio – Wissenschaftliche Berichte

Multimodales Deep Learning zur Demenzklassifizierung mit Text und Audio – Wissenschaftliche Berichte

Wir haben zwei Datenmodalitäten, Audio und Text, sowie textbasierte Synonymdatenaugmentation und die Einbeziehung von Zeitstempeln als Eingabe für das Modell evaluiert. Als Datenquelle verwendeten wir den “Pitt Cookie Theft” Datensatz aus DementiaBank, der Teilnehmerantworten enthält, als sie gebeten wurden, zu beschreiben, was sie auf einem Stimulusfoto eines Keksdiebstahls sahen. Wir wählten diesen Datensatz, da er Zeitstempel für jedes Wort enthält, was uns erlaubte, die Einbindung einer expliziten Zeitdarstellung zu untersuchen. Die Daten wurden vorbereitet, indem Audio- und Textdaten in einzelne Sätze aufgeteilt wurden, wobei jeder Satz als einzelner Datenpunkt betrachtet wurde.

Die Audiodaten wurden durch einen Wav2vec-Feature-Extractor verarbeitet, während die Textdaten durch Tokenisierung und Zuordnung zu vorab trainierten Word2vec-Einbettungen verarbeitet wurden. Anschließend wurden Zeitstempel für jedes Wort beibehalten und normalisiert. Wir erstellten vier Datensatzbedingungen: Originalbedingung, Shorts-entfernte Bedingung, Original-augmentierte Bedingung und Shorts-augmentierte Bedingung. Ethische Genehmigung wurde von DementiaBank eingeholt, da keine neuen Daten gesammelt wurden.

Es wurde ein Audio-Modell erstellt, das feinabgestimmt wurde, um auditive Einbettungen zu erhalten. Wir fror die Gewichte des vortrainierten Wav2vec-Feature-Extraktors während des Trainings ein. Ein Textmodell wurde ebenfalls erstellt, das die Word2vec-Einbindungsschichten und ein LSTM-Modell zur finalen Klassifikation verwendete. Zeitstempel für jedes Wort wurden extrahiert und in die Modelle integriert, um die Bedeutung der Zeit in den Analysen zu erfassen.

Wir entwickelten Modelle, die Audio, Text und Zeitstempel kombinieren, um die Klassifikation von demenzbedingten Zuständen zu verbessern. Aufgrund der begrenzten Datengröße führten wir textbasierte Datenaugmentation durch, indem wir die Synonymersetzungsmethode verwendeten. Alle Modelle wurden für 50 Epochen trainiert und mit einem Batch-Size von 16 optimiert. Frühes Stoppen wurde implementiert, um Überanpassung zu verhindern. Das Experiment wurde unter Verwendung der TensorFlow Keras-Bibliothek durchgeführt.