Inhalt

Vergleich der Regressionsmodelle zur Geschwindigkeitsvorhersage: Analyse der Leistungsfähigkeit und Interpretationen mit XAI-Methoden

Vergleich von Regressionsmodellen zur Geschwindigkeitsvorhersage mit XAI-Methoden

Leistungsbewertung der Regressoren

Validierungskurven zur Erkennung von Über- und Unteranpassung

SHAP Werten zur Merkmalsanalyse

Nachbar-Knotenanalysen und ihre Einflussnahme

Simulation von Verkehrsfluss, um Knoten zu beeinflussen

Lokale Erklärungen mit LIME

Fazit

Vergleich der Regressionsmodelle zur Geschwindigkeitsvorhersage: Analyse der Leistungsfähigkeit und Interpretationen mit XAI-Methoden

Vergleich von Regressionsmodellen zur Geschwindigkeitsvorhersage mit XAI-Methoden

In diesem Blogbeitrag vergleichen wir verschiedene Regressionsmodelle zur Vorhersage von Verkehrsgeschwindigkeiten anhand eines Experiments, das in Google Colab, einer cloudbasierten Jupyter-Notebook-Umgebung, durchgeführt wurde. Die Berechnung erfolgte auf einem Intel Xeon CPU mit 2.20 GHz und 13 GB RAM. Zur Bewertung der Modellleistung wurden die folgenden Metriken herangezogen: Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE) und Root Mean Squared Error (RMSE).

Grundlagen der Fehlerbewertung

Die verwendeten Formeln zur Berechnung der Fehler sind:

Mean Absolute Error (MAE):
$$ MAE = \frac{1}{n} \sum_{t=1}^{n} |y_t – \hat{y_t}| $$
Root Mean Squared Error (RMSE):
$$ RMSE = \sqrt{\frac{1}{n} \sum_{t=1}^{n} (y_t – \hat{y_t})^2} $$
Mean Absolute Percentage Error (MAPE):
$$ MAPE = \frac{1}{n} \sum_{t=1}^{n} \left| \frac{y_t – \hat{y_t}}{y_t} \right| \cdot 100 $$

Leistungsbewertung der Regressoren

In der Leistungstabelle (Tabelle 1) haben wir die Ergebnisse für XGBoost, CatBoost, Random Forest und Lasso-Regressoren zusammengefasst. Die wichtigsten Erkenntnisse sind:

XGBoost und CatBoost: Beide Modelle weisen ähnliche Ergebnisse auf, wobei XGBoost in Bezug auf MAE (1.528), RMSE (2.419) und MAPE (6.694) leicht überlegen ist.
Random Forest: Dieses Modell hat den geringsten Fehler in den Trainingsdaten, generalisiert jedoch weniger gut auf den Testdaten.
Lasso Regressor: Er schneidet im Vergleich zu den anderen Modellen deutlich schlechter ab, mit einem MAE von 3.656, RMSE von 4.903 und MAPE von 16.040. Daher wurde dieses Modell für weitere Anwendungen ausgeschlossen.

Validierungskurven zur Erkennung von Über- und Unteranpassung

Die Validierungskurven (Abbildungen 3-5) wurden verwendet, um die Leistung der Modelle auf verschiedene Hyperparameter-werte zu bewerten. Bei der Analyse wurde festgestellt, dass:

XGBoost: Sowohl für die Trainings- als auch für die Validierungsscores zeigt sich eine Verbesserung mit zunehmendem Max-Tiefe, ohne dass signifikante Überanpassung auftritt. Der optimale Wert wurde bei Max-Tiefe 8 festgestellt.
CatBoost: Bei diesem Modell verbessert sich der Trainingsscore mit steigender Max-Tiefe, während der Cross-Validation-Score weniger stabil ist. Max-Tiefe 6 wurde als optimal ermittelt.
Random Forest: Hier zeigte sich, dass die Maximaltiefe keinen signifikanten Einfluss auf die Leistung hatte, sodass die Standardeinstellung (keine Einschränkung der Tiefe) am besten funktionierte.

SHAP Werten zur Merkmalsanalyse

Um zu verstehen, welche Merkmale einen signifikanten Einfluss auf die Vorhersagen haben, wurden die SHAP-Werte analysiert (Abbildung 6). Die wichtigsten Erkenntnisse zeigten, dass die Uhrzeit (clock time) und die Geschwindigkeiten benachbarter Knoten (node speeds) den größten Einfluss auf die Vorhersage der Zielknoten hatten. Dies ist ein wertvolles Ergebnis, da es die Notwendigkeit zeigt, kontextuelle Daten in solch dynamischen Vorhersagemodellen zu berücksichtigen.

Nachbar-Knotenanalysen und ihre Einflussnahme

Durch die Analyse der benachbarten Knoten wurde festgestellt, dass 60–80 % der Ergebnisse zwischen den getesteten Algorithmen übereinstimmen. Zusätzlich wurde die Ähnlichkeit zwischen den Rankings der verschiedenen Regressionsmethoden mittels des Rank Biased Overlap (RBO)-Maßes gemessen, was eine hohe Zuverlässigkeit der Ergebnisse zeigt.

Simulation von Verkehrsfluss, um Knoten zu beeinflussen

Die Simulation zur Änderung der Geschwindigkeiten benachbarter Knoten zeigte signifikante Auswirkungen auf die Geschwindigkeitsvorhersagen des Zielknotens. Zum Beispiel bewirkte eine Geschwindigkeitsreduzierung von 30 % in den Top-10 ein schnelles Absinken der Zielgeschwindigkeit um durchschnittlich 4.5149 %.

Lokale Erklärungen mit LIME

Zur besseren Einsichtnahme in die spezifischen Vorhersagen wurden LIME (Local Interpretable Model-agnostic Explanations) verwendet. Diese Analyse offenbarte, dass sich die Merkmale bei verschiedenen Beobachtungen signifikant unterscheiden und dass benachbarte Knoten einen entscheidenden Einfluss auf die Verkehrsprognosen haben.

Fazit

Zusammenfassend zeigt unser Vergleich der Regressionsmodelle zur Geschwindigkeitsvorhersage, dass XGBoost und CatBoost die besten Leistungen erbringen, während Random Forest in der Trainingsphase gut abschneidet, aber in der Testphase zurückbleibt. Der Lasso-Regressor war inakzeptabel. Diese Ergebnisse unterstreichen die Wichtigkeit, sowohl globale als auch lokale Erklärungsansätze wie SHAP und LIME in der Modellentwicklung und -interpretation zu kombinieren, um ein besseres Verständnis dafür zu gewinnen, wie verschiedene Merkmale die Modelle beeinflussen.

Für Verkehrsprognosen ist es entscheidend, benachbarte Knoten zu berücksichtigen, da deren Geschwindigkeiten direkt auf die Vorhersagen des Zielnetzwerkes wirken. Die Kombination von Regressionsalgorithmen mit erklärbaren KI-Techniken erhöht die Zuverlässigkeit und Verständlichkeit dieser Modelle erheblich, was insbesondere im Verkehrswesen von großer Bedeutung ist.

Geschwindigkeitsvorhersage und Analyse der Auswirkungen nahegelegener Straßen mittels maschinellem Lernen und einer Ensemblemethode erklärbarer KI-Techniken

Vergleich der Regressionsmodelle zur Geschwindigkeitsvorhersage: Analyse der Leistungsfähigkeit und Interpretationen mit XAI-Methoden

Vergleich von Regressionsmodellen zur Geschwindigkeitsvorhersage mit XAI-Methoden

Grundlagen der Fehlerbewertung

Leistungsbewertung der Regressoren

Validierungskurven zur Erkennung von Über- und Unteranpassung

SHAP Werten zur Merkmalsanalyse

Nachbar-Knotenanalysen und ihre Einflussnahme

Simulation von Verkehrsfluss, um Knoten zu beeinflussen

Lokale Erklärungen mit LIME

Fazit

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Hochleistungsfähige maschinelles Lernen-basierte Kalibrierung kostengünstiger Stickstoffdioxid-Sensoren unter Verwendung von Umgebungsparameter-Differenzen und globaler Datenskalierung – Wissenschaftliche Berichte

Schätzungen der klimabedingten Auswirkungen auf die Sterblichkeit in Deutschland auf Basis neuronaler Netzwerke: Anwendung auf Klimasimulationen von Handlungsgeschichten – Scientific Reports

XElemNet: Ein Machine Learning-Framework, das eine Reihe von erklärbaren KI-Technologien (XAI) für tiefe neuronale Netze in der Materialwissenschaft anwendet

Integration von maschinellem Lernen und Einzelzell-Transkriptomanalyse zur Identifizierung potenzieller Biomarker und Analyse immunologischer Merkmale bei ischämischem Schlaganfall

Junge mediterrane Führungskräfte diskutieren die Auswirkungen von Technologien

Mit Deep Learning zur Abbildung der planetaren Grenzschicht der Erde

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360