Zunächst wurde die Datenanalyse auf der Grundlage positiver und negativer Fälle bei Männern und Frauen über die Altersverteilung durchgeführt; Abbildung 1 zeigt, dass 52,52% der Männer und 47,48% der Frauen von der Krankheit betroffen sind, während Abbildung 2 zeigt, dass die meisten Fälle innerhalb des Alters von 55 Jahren und 75 Jahren identifiziert wurden. Danach wurden die Daten nach positiven und negativen Proben der Patientengewohnheiten, d.h. Rauchen und Alkoholkonsum, analysiert. Abbildung 3 zeigt die Verteilung der positiven und negativen Fälle nach Geschlecht über die Patientengewohnheiten. Die dritte Beobachtung basiert auf den Symptomen der Patienten, wobei Gelbe Finger, Angstzustände, chronische Krankheiten, Brustschmerzen, Müdigkeit, Keuchen, Husten, Atemnot, Schluckbeschwerden und Allergien berücksichtigt wurden. Abbildung 4 zeigt die Verteilung der positiven und negativen Fälle nach Geschlecht über die Patientensymptome.
Diese Beobachtung zeigt, dass Gelbe Finger, Husten, chronische Krankheiten, Brustschmerzen und Allergien kritische Symptome beim Studium der Daten nach Geschlecht sind. Anschließend wurden verschiedene Machine-Learning-Algorithmen zur Analyse der Signifikanz in diesem Problemfeld angewendet. Basierend auf einer Literaturstudie wurden einige Lernalgorithmen für die Vorhersage von Lungenkrebs identifiziert. Ein Vergleich der Performance der Algorithmen zeigte, dass K Nearest Neighbor die höchste Genauigkeit aufweist, gefolgt von Bernoulli Naive Bayes und Gaussian Naive Bayes. K Nearest Neighbor und Bernoulli Naive Bayes Modelle liefern die besten Ergebnisse auf kleineren Datensätzen mit binären Merkmalen, da sie besser geeignet sind, wenn die Attribute/Merkmale im Datensatz unabhängig voneinander sind. Andere Modelle, die von der Korrelation und der Aufteilung des Datensatzes in Training/Test abhängen, schnitten für den Datensatz weniger gut ab.
Hinterlasse eine Antwort