Multimodales Deep Learning zur Demenzklassifizierung mit Text und Audio - Wissenschaftliche Berichte

Wir haben zwei Datenmodalitäten, Audio und Text, sowie textbasierte Synonymdatenaugmentation und die Einbeziehung von Zeitstempeln als Eingabe für das Modell evaluiert. Als Datenquelle verwendeten wir den “Pitt Cookie Theft” Datensatz aus DementiaBank, der Teilnehmerantworten enthält, als sie gebeten wurden, zu beschreiben, was sie auf einem Stimulusfoto eines Keksdiebstahls sahen. Wir wählten diesen Datensatz, da er Zeitstempel für jedes Wort enthält, was uns erlaubte, die Einbindung einer expliziten Zeitdarstellung zu untersuchen. Die Daten wurden vorbereitet, indem Audio- und Textdaten in einzelne Sätze aufgeteilt wurden, wobei jeder Satz als einzelner Datenpunkt betrachtet wurde.

Die Audiodaten wurden durch einen Wav2vec-Feature-Extractor verarbeitet, während die Textdaten durch Tokenisierung und Zuordnung zu vorab trainierten Word2vec-Einbettungen verarbeitet wurden. Anschließend wurden Zeitstempel für jedes Wort beibehalten und normalisiert. Wir erstellten vier Datensatzbedingungen: Originalbedingung, Shorts-entfernte Bedingung, Original-augmentierte Bedingung und Shorts-augmentierte Bedingung. Ethische Genehmigung wurde von DementiaBank eingeholt, da keine neuen Daten gesammelt wurden.

Es wurde ein Audio-Modell erstellt, das feinabgestimmt wurde, um auditive Einbettungen zu erhalten. Wir fror die Gewichte des vortrainierten Wav2vec-Feature-Extraktors während des Trainings ein. Ein Textmodell wurde ebenfalls erstellt, das die Word2vec-Einbindungsschichten und ein LSTM-Modell zur finalen Klassifikation verwendete. Zeitstempel für jedes Wort wurden extrahiert und in die Modelle integriert, um die Bedeutung der Zeit in den Analysen zu erfassen.

Wir entwickelten Modelle, die Audio, Text und Zeitstempel kombinieren, um die Klassifikation von demenzbedingten Zuständen zu verbessern. Aufgrund der begrenzten Datengröße führten wir textbasierte Datenaugmentation durch, indem wir die Synonymersetzungsmethode verwendeten. Alle Modelle wurden für 50 Epochen trainiert und mit einem Batch-Size von 16 optimiert. Frühes Stoppen wurde implementiert, um Überanpassung zu verhindern. Das Experiment wurde unter Verwendung der TensorFlow Keras-Bibliothek durchgeführt.

Multimodales Deep Learning zur Demenzklassifizierung mit Text und Audio – Wissenschaftliche Berichte

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Wissensgraph-verstärkte Sprachagenten (KGLA): Ein Framework für maschinelles Lernen zur Vereinigung von Sprachagenten und Wissensgraphen für Empfehlungssysteme

Deep Learning verbessert Genauigkeit und Effizienz bei der Vorhersage von Prote Struktur.

Bildmanipulationserkennung basierend auf RDS-YOLOv5-Feature-Verbesserungstransformation

Schnelle inter-frame Bewegungs Korrektur in kontrastfreier Ultraschall-quantitativer Mikrovaskulatur-Bildgebung mit Deep Learning – Wissenschaftliche Berichte

Jamba: Das neue Hybrid-Transformer-Mamba-Sprachmodell von AI21 Labs

Die Kraft des Tiefenlernens in sicherheitskritischen Systemen nutzen

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?