FinRegistry ist eine umfassende Registerdatenbank, die Gesundheits- und soziodemografische Daten für die gesamte finnische Bevölkerung zugänglich macht. Die Daten umfassen Gesundheitsbesuche, medizinische Konditionen, Medikationen, operative Eingriffe, demografische Merkmale, Sozialleistungen, Renten und detaillierte sozioökonomische Informationen, teilweise bis in die 1970er Jahre zurück. Die Todesursachenregister sind relevant, um Todesfälle und Todesursachen zu verstehen. Die Daten umfassen alle finnischen Bewohner am 1. Januar 2010 sowie deren Familienmitglieder. Für die Studie wurden lebende und nicht ausgewanderte Personen am 1. Januar 2020 eingeschlossen, um die Gesamtmortalität innerhalb eines Jahres vorherzusagen.
Um die Mortalität vorherzusagen, wurden rekurrente neuronale Netzwerke (RNN) mit einem Areal unter der ROC-Kurve (AUC) von 0,944 für binäre Klassifikation verwendet. Der RNN-Modell zeigte überlegene Kalibrierung und eine höhere AUPRC im Vergleich zu einem Basismodell mit nur Alter und Geschlecht als Prädiktoren. Die Modelle wurden trainiert, um Mortalität vorherzusagen, sowohl binär als auch unter Berücksichtigung der Zeit bis zum Tod. Der RNN-Modell zeigte eine konstant hohe Leistungsfähigkeit unabhängig vom Vorhersagezeitraum. Bei der Untersuchung von Alters- und Geschlechtergruppen wurden Unterschiede in der Vorhersageleistung festgestellt, wobei das RNN-Modell bei jüngeren Altersgruppen besser abschnitt.
Es wurde auch die Fairness des Modells hinsichtlich geografischer Lage, Rentenniveau und anderen soziodemografischen Variablen analysiert. Das RNN-Modell zeigte eine höhere Vorhersagegenauigkeit bei Personen mit höheren Renten. Darüber hinaus wurden Unterschiede in der Vorhersageleistung zwischen Personen mit verschiedenen geschützten Merkmalen wie z. B. dem Familienstand, Einwanderungsstatus, psychischen Erkrankungen und Rentenhöhe festgestellt.
Die Bedeutung einzelner Merkmale für die Vorhersage wurde anhand von Shapley-Werten bewertet. Es wurde festgestellt, dass Merkmale im Zusammenhang mit chirurgischen Eingriffen und Sekundärpflege die höchsten Shapley-Werte aufwiesen, während sozioökonomische Merkmale weniger Einfluss hatten. Darüber hinaus zeigten Daten aus den letzten Jahren vor der Vorhersageperiode einen stärkeren Einfluss auf die Vorhersagen als frühere Daten. Seltener vorkommende Merkmale hatten auch höhere Shapley-Werte, was auf spezifische Veränderungen im Gesundheits- und Sozialverlauf hinweisen könnte.
Hinterlasse eine Antwort