Anwendung von Natural Language Processing zur Erleichterung der Harmonisierung von Fragebögen zur psychischen Gesundheit: Eine Validierungsstudie unter Verwendung von realen Daten – BMC Psychiatrie

Anwendung von Natural Language Processing zur Erleichterung der Harmonisierung von Fragebögen zur psychischen Gesundheit: Eine Validierungsstudie unter Verwendung von realen Daten – BMC Psychiatrie

Für Korrelationsanalysen wurden Daten aus Welle 6 der COVID-19 Psychological Research Consortium (C19PRC) Studie verwendet, die im März 2020 begann, um die psychologischen, sozialen und wirtschaftlichen Auswirkungen der COVID-19-Pandemie im Vereinigten Königreich zu überwachen. Die sechste Datenerhebung erfolgte zwischen August und September 2021 mit einer Teilnehmerzahl von 2,058 Personen. Die Teilnehmer waren durchschnittlich 45,92 Jahre alt, mehrheitlich weiblich, von weiß-britischer/irischer Herkunft, mit postsekundärer Bildung und entweder Vollzeit- oder Teilzeitbeschäftigung. Die Daten wurden ethisch von der University of Sheffield genehmigt.

Es wurden Daten aus fünf Fragebögen verwendet, um Depression, Angstzustände und PTSD-Symptome zu bewerten. Die Fragebögen umfassten den Patient Health Questionnaire-9 (PHQ-9) und Generalized Anxiety Disorder Scale (GAD-7), sowie neu entwickelte Internationale Depression- und Angstfragebögen und den International Trauma Questionnaire (ITQ) zur Überprüfung von PTSD. Alle Fragen wurden in einer Richtung skaliert, um die Häufigkeit/Schwere der Symptome anzuzeigen.

Die Daten wurden mithilfe von Spearman-Korrelationskoeffizienten analysiert und zusätzlich mit einer semantischen Ähnlichkeitsbewertung (Kosinus-Index) versehen. Anhand von Trainings- und Testdatensätzen wurden lineare Regressionsmodelle und Scatterplots erstellt, um die Beziehung zwischen den Ähnlichkeitsbewertungen und Korrelationskoeffizienten zu untersuchen. Netzwerkanalysen wurden durchgeführt, um Muster in den Fragebögen zu identifizieren und Cluster von Fragen mit ähnlichen Merkmalen zu bilden.

Die Ergebnisse zeigten eine stärkere Übereinstimmung zwischen den NLP-abgeleiteten Ähnlichkeitswerten und den empirischen Korrelationswerten. Die Anwendung von NLP zur Analyse von Fragebogendaten ermöglichte eine genauere Identifizierung komplexer Muster und Strukturen in den Daten. Sensitivitätsanalysen wurden durchgeführt, um festzustellen, wann Fragen als ähnlich genug betrachtet werden können. Die Studie trug zur Untersuchung der psychologischen Auswirkungen von COVID-19 bei und zeigt das Potenzial von NLP zur Analyse von Gesundheitsdaten.