In dieser Studie minimieren wir die Trainingsfehler des Random-Forest-Regressors, indem wir die Anzahl der Deskriptoren optimieren, die für den Modellaufbau verwendet werden. Zunächst wird ein Entscheidungsbaum-Regressor auf dem vollständigen Satz von 506 Deskriptoren mit einer maximalen Baumtiefe von 20 Schichten angepasst, wobei die Gini-Importanzen des Modells für alle Deskriptoren tabelliert werden. Die Gini-Importanz eines Deskriptors quantifiziert die Bedeutung eines Deskriptors in einem baumbasierten Modell, indem sowohl die Anzahl der Male berücksichtigt wird, die jeder Deskriptor im angepassten Modell verwendet wird, als auch die Anzahl der durch den Deskriptor getrennten Proben. Eigenschaften mit Gini-Importanzen größer als “c × durchschnittliche Gini-Importanz” werden beibehalten, um anschließende Random-Forest-Regressoren anzupassen. c wird Werte zwischen 0,01 und 1,0 zugewiesen, wobei die Anzahl der Deskriptoren von der Auswahl des Anpassungssatzes und der Zielmenge abhängt.
Die Anzahl der ausgewählten Deskriptoren für jedes Modell in dieser Studie wird in Tabelle 1 aufgeführt. Die Leistung des Random-Forest-Regressors ist in der interpolativen Phase konsistent und zeigt ähnliche MAE- und MAFE-Werte sowie Spearman-Koeffizienten für den Anpassungssatz, den Validierungssatz und den Testdatensatz. In der extrapolativen Phase zeigten die Modelle jedoch konsistent niedrigere Spearman-Koeffizienten für neue Daten aus unterschiedlichen chemischen Systemen. Die Ergebnisse deuten darauf hin, dass die Modelle Schwierigkeiten haben, die Volumina und Enthalpien pro Atom neuer Strukturen zu klassifizieren. Auch bei der Vorhersage des Übergangs von Metalloiden/Isolatoren zeigte das Modell Schwierigkeiten bei der eindeutigen Identifizierung der metallischen Phase. Die randomisierten Strukturen im neuen chemischen System führten zu deutlichen Abnahmen der Modellgenauigkeit.
Das vorgestellte Machine-Learning-Verfahren bietet Vorteile gegenüber dem weit verbreiteten CGCNN-Ansatz, insbesondere in Bezug auf die Trainingszeit und die Anzahl der Hyperparameter. Der Random-Forest-Regressor liefert genauere Modelle mit weniger Trainingssätzen und wird signifikant schneller angepasst als der CGCNN. Bei der Erweiterung der Modelle um neue chemische Systeme muss sorgfältig auf die Vorhersagegenauigkeit und die Abhängigkeit von den Trainingsdaten geachtet werden. Zukünftige Arbeiten könnten sich auf die Validierung des Ansatzes auf breitere chemische Räume konzentrieren und die Integration von Daten aus unterschiedlichen Quellen in die Modellerstellung ausweiten.
Hinterlasse eine Antwort