Ein Vergleich zwischen Maschinen- und Deep-Learning-Modellen für hochstationäre Daten – Wissenschaftliche Berichte

Ein Vergleich zwischen Maschinen- und Deep-Learning-Modellen für hochstationäre Daten – Wissenschaftliche Berichte

Heutzutage sind die Algorithmen und Techniken zur Vorhersage von Zeitreihen immer “tiefer” und leistungsfähiger. Eine Aufgabe desselben Typs kann jedoch mit unterschiedlichen Methoden durchgeführt werden, was in den meisten Fällen zu genaueren Ergebnissen mit mehr Informationen führt. Ein Beispiel für ein DL-Modell, das häufig für die Vorhersageaufgabe verwendet wird, sind neuronale Netzwerke. Ein künstliches neuronales Netzwerk (ANN) ist ein Rechenmodell, das vom menschlichen Gehirn inspiriert ist und künstliche Neuronen enthält, die in ihnen Berechnungen durchführen. Ein spezifischer Typ von ANN ist das Feedforward-Neuronales Netzwerk (FNN), bei dem Verbindungen in einer Einwegsequenz von einem Knoten zum nächsten verlaufen. Andererseits werden ANNs, die mit Rückkopplungsverbindungen ausgestattet werden können, bei denen das Training verschiedene Zeitpunkte erfordert, als rekurrente neuronale Netzwerke (RNNs) bezeichnet. Der Trainingsprozess von RNNs, der Rückkopplungsverbindungen berücksichtigt, verwendet einen speziellen Algorithmus: das Backpropagation durch die Zeit (BPTT), bei dem die Gradienten in jedem Zeitschritt berechnet werden.

Neuronale Netzwerke leiden unter einem Problem in Bezug auf den Gradienten der zu berechnenden Verlustfunktion, was zum Explosions- oder Verschwinden des Gradienten führen kann und das Training unterbrechen kann. Um dieses Problem zu verhindern, wurde eine spezielle Architektur eingeführt: das Long-short term memory (LSTM). Diese Einheit verwendet spezifische Kontrollgatter, um “zu entscheiden”, welche Informationen an das nächste Level weitergeleitet werden sollen. Das LSTM-Zelle besteht aus einem Eingabe-Gatter, einem Ausgabe-Gatter und einem Vergessen-Gatter. RNN-LSTM stellt die neuesten und weit verbreiteten Architekturen für die Zeitreihenvorhersage dar. Auf der anderen Seite sind ML-Algorithmen, die für Vorhersagen verwendet werden, im Allgemeinen erklärbarer als die der DL-Konkurrenten. Ein vorgeschlagenes Modell ist Support Vector Machines (SVMs), das ursprünglich für die Klassifizierung verwendet wurde und für die Regressionsaufgabe erweitert wurde. Speziell findet SVM die optimale trennende Hyperplane zwischen zwei Klassen und hat als Hauptziel, den Abstand zwischen den Klassen der Trainingsproben zu maximieren. Eine andere Herangehensweise besteht darin, Entscheidungsbäume zur Durchführung von Klassifizierungs- oder Regressionsaufgaben zu verwenden, wie im Fall des Random Forest (RF), einer Ensemble-Methode, die viele Bäume verwendet.

Eine weitere Entwicklung in der Verwendung von Bäumen ist eXtreme Gradient Boosting (XGBoost), ein iterativer Algorithmus, der in einer Boosting-Bibliothek implementiert ist. Der Hauptalgorithmus, der für das Lernen implementiert wird, ist die sequenzielle Erstellung von Regressionsbäumen. Das Training von XGBoost generiert sequenzielle Bäume zur Minimierung von Vorhersagefehlern. Im Gegensatz zu LSTM profitiert XGBoost von einer viel höheren Erklärbarkeit aufgrund der “Einfachheit” der Entscheidungen, die auf jeder Ebene des Klassifikators getroffen werden können, sowie seiner hohen Verallgemeinerbarkeit und Rechengeschwindigkeit. Ein beliebtes Framework zur weiteren Verbesserung der Erklärbarkeit dieses Algorithmus (und im Allgemeinen von Machine-Learning-Algorithmen) ist SHapley Additive exPlanations (SHAP), das jede Funktion Beiträge zur verwendeten Modell erklärt. Dieses Framework basiert auf einem spieltheoretischen Ansatz, der die Beiträge jedes Spielers in einem kooperativen Spiel misst, dem Shapley-Wert. Eine Variante für baumbasierte Algorithmen ist TreeSHAP, die weniger rechenaufwendig ist als das Grundgerüst.