Tiefenlernmodelle zur Vorhersage des Überlebens von Patienten mit Leberzellkarzinom basierend auf einer Analyse der SEER-Datenbank – Wissenschaftliche Berichte

Tiefenlernmodelle zur Vorhersage des Überlebens von Patienten mit Leberzellkarzinom basierend auf einer Analyse der SEER-Datenbank – Wissenschaftliche Berichte

In dieser Studie wurden 35.444 HCC-Patienten aus der SEER-Datenbank zwischen 2010 und 2015 gescreent, wobei 2197 Patienten die Einschlusskriterien erfüllten. Die Tabelle zeigt die Hauptmerkmale der Patienten. Unter den 2197 Teilnehmern waren 70% unter 66 Jahren alt, 23% zwischen 66 und 77 Jahren und 6,6% über 77 Jahre alt. Männer machten 78% aus, Frauen 22%. Die meisten Teilnehmer waren weiß (66%), gefolgt von Asiaten/Pazifikinsulanern (22%), Schwarzen (10%) und amerikanischen Ureinwohnern/Alaska-Natives (1,6%). Hinsichtlich des Familienstandes waren 60% verheiratet, 40% hatten andere Familienstände. Histologisch betrachtet waren die meisten Teilnehmer Typ 8170. Die meisten hatten differenzierten Grad II (50%), gefolgt von Grad III (18%), Grad IV (1,0%) und Grad I (30%). In Bezug auf die Tumorstadien waren 48% im Stadium I, 29% im Stadium II, 16% im Stadium III und 7,1% im Stadium IV.

Nach der univariaten Cox-Regression wurden 12 Schlüsselfaktoren (Alter, Rasse, Familienstand, histologischer Typ, Tumorgrad, T-Stadium, N-Stadium, M-Stadium, Alpha-Fetoprotein, Tumorgröße, Art der Operation, Chemotherapie) für die Konstruktion des Vorhersagemodells ausgewählt. Die Modelle wurden mit einem Trainings- und einem Testsatz entwickelt, um die Überlebensrate von HCC-Patienten vorherzusagen. Hyperparameteroptimierung und Modellvergleiche wurden durchgeführt, wobei fünf Maschinenlernmodelle gegenüber dem Cox-Proportional-Hazard-Modell verglichen wurden. Die Machine-Learning-Modelle zeigten eine überlegene Unterscheidungsfähigkeit gegenüber dem CoxPH-Modell. Das NMTLR-Modell hatte die höchste C-Index-Erfolgsquote.

Die Modelle wurden auf verschiedenen Metriken wie dem Integrated Brier Score und den Kalibrierungsplots analysiert, wobei das NMTLR-Modell in mehreren Bewertungsmetriken die beste Leistung zeigte. Die Feature-Analyse ergab wichtige Faktoren für die Vorhersagegenauigkeit der Modelle. Das NMTLR-Modell konnte das Risiko von Patienten stratifizieren und eine robuste Risikostratifizierungsfähigkeit demonstrieren. Das Modell wurde erfolgreich als Webanwendung implementiert und ist öffentlich zugänglich.