Netzwerkverkehrsbestimmung basierend auf Software-definiertem Networking unter Verwendung von maschinellem Lernen – Wissenschaftliche Berichte

Netzwerkverkehrsbestimmung basierend auf Software-definiertem Networking unter Verwendung von maschinellem Lernen – Wissenschaftliche Berichte

Nach dem Training unseres Modells haben wir sorgfältig getestet, wie gut es Netzwerkverkehr anhand von Standardmetriken klassifizieren konnte. Wir haben es mit anderen Modellen, Datensätzen verglichen und seine Leistung anhand von Echtzeit-Verkehrsdaten getestet, um reale Szenarien zu simulieren. Wir haben sechs verschiedene ML-Methoden verwendet: RF, AdaBoost, SVM, DT, LR und K-means Clustering, da sie gut darin sind, verschiedene Arten von Netzwerkverkehr genau zu sortieren. Unsere gründlichen Tests bestätigten, dass unser Modell gut funktionierte und komplexe Netzwerksituationen effektiv bewältigen konnte.

Im überwachten Lernen haben wir logistische Regression (LR) eingesetzt, um kategoriale Zielvariablen vorherzusagen. Diese statistische Methode analysiert Datensätze, bei denen Ergebnisse von unabhängigen Variablen abhängen und generiert Entscheidungsgrenzen, die ihre hohe Genauigkeit in Klassifizierungsaufgaben verdeutlichen. Wir haben festgestellt, dass die Entscheidungsgrenzen gut definiert waren und Voice- und Telnet-Verkehr leicht zu klassifizieren waren, während die Unterscheidung zwischen Ping und DNS aufgrund ihrer Ähnlichkeiten herausfordernd war. Wir haben die Genauigkeit des Modells anhand einer Verwirrungsmatrix bewertet, die die tatsächlichen Verkehrslabels auf der X-Achse mit den vorhergesagten Labels auf der Y-Achse ausrichtet. Die Verwirrungsmatrix für die logistische Regression zeigte minimale Fehler und eine Klassifizierungsgenauigkeit von 99,68%.

AdaBoost, ein beliebter Boosting-Algorithmus für die binäre Klassifizierung, kombiniert in einem Experiment schwache Klassifikatoren zu einem robusten einzelnen Klassifikator. Der AdaBoost-Klassifikator erzielte eine gute Genauigkeit von über 99,77% und verwendete ein Ensemble-Ansatz, der normalerweise einstufige Entscheidungsbäume verwendet, die innerhalb dieses Algorithmus sehr effektiv sind. Die AdaBoost-Klassifikator-Verwirrungsmatrix zeigte minimale Fehler und eine Genauigkeit von 99,77% mit 5.628 Instanzen.

Der Entscheidungsbaum (DT) klassifiziert unbekannte Fälle, indem er einen Baumstruktur traversiert, bei der Knoten Entscheidungen auf der Grundlage von Merkmalswerten treffen. Kategorische Merkmale teilen sich auf der Grundlage möglicher Werte auf, während kontinuierliche Merkmale durch Schwellenwerte unterteilt werden. Der DT-Klassifikator zeigte klar abgegrenzte Entscheidungsgrenzen und eine Genauigkeit von 99,81% mit 5.628 Instanzen.

In Support Vector Machines (SVM) ist eine Hyperebene entscheidend für die effektive Trennung verschiedener Klassen. Unser SVM-basiertes Modell erreichte eine Genauigkeit von 83,51% mit einem Datensatz von 5.628 Instanzen und verwendete PCA sowohl für die Normalisierung der Merkmale als auch für die Dimensionalitätsreduzierung.

Der Random Forest (RF)-Klassifikator aggregiert in dieser Studie mehrere Baumklassifikatoren, die auf zufällig ausgewählten Teilsets von Eingangsvektoren trainiert sind. Unser RF-Modell erzielte eine Klassifizierungsgenauigkeit von 99,74% mit einem Datensatz von 5.628 Instanzen und verwendete PCA zur Transformation von Merkmalen in orthogonale Komponenten.

Im unüberwachten Lernen haben wir K-Means-Clustering verwendet, um Datenpunkte in einem multidimensionalen Raum zu gruppieren, wobei wir vier Cluster identifizierten, die verschiedene Verkehrstypen darstellen. Unser K-Means-Modell zeigte eine Genauigkeit von etwa 30% und hatte Schwierigkeiten, nicht-kreisförmige Daten effektiv zu gruppieren, was in einer fehlerhaften Zuordnung von Telnet-Flüssen und der Voice-Kategorie resultierte. Die vorgeschlagene Verwirrungsmatrix des K-Means-Modells bestätigte diese Leistungsprobleme.