Experimente mit CUPED und Double Machine Learning stärken

Experimente mit CUPED und Double Machine Learning stärken

In dieser Artikelreihe über Kausal-KI werden wir die Integration von kausalem Denken in Machine-Learning-Modelle erforschen. Dabei werden verschiedene praktische Anwendungen in verschiedenen geschäftlichen Kontexten betrachtet. Im letzten Artikel haben wir die Absicherung der Nachfrageschätzung mithilfe von Kausalgrafiken behandelt. Heute widmen wir uns der Durchführung von Experimenten mithilfe von CUPED und Double Machine Learning. In diesem Artikel werden wir untersuchen, ob CUPED und Double Machine Learning die Effektivität Ihrer Experimente steigern können und dabei Aspekte wie Hypothesentest, Power-Analyse und Bootstrapping betrachten.

Das Szenario unserer Fallstudie beinhaltet ein Experiment, bei dem die Wirksamkeit eines fortschrittlichen Empfehlungssystems auf einer E-Commerce-Plattform bewertet werden soll. Dabei ist es wichtig, den finanziellen Einfluss des Systems zu verstehen und wie viel zusätzlichen Umsatz es im Vergleich zu einem Szenario ohne Empfehlungen generiert. Für die Auswertung des Systems wird ein randomisiertes kontrolliertes Experiment durchgeführt, mit Pre-Experimentdaten, die 3 beobachtete Kovariablen und 1 nicht beobachtete Kovariablen enthalten, um den Zielindikator des Umsatzwertes zu schätzen.

Das Konzept von CUPED (Controlled Experiments Using Pre-Experiment Data) zielt darauf ab, die Varianz des Zielindikators zu reduzieren, indem vor dem Experiment gesammelte Daten verwendet werden. Dies führt dazu, dass kleinere Effekte mit der gleichen Stichprobengröße erkannt werden können oder das gleiche Ergebnis mit einer kleineren Stichprobengröße erreicht wird. Die Umsetzung von CUPED beinhaltet die Verwendung von Kovariablen, die prä-experimentell erhoben wurden, um eine lineare Regression durchzuführen und den Zielindikator anzupassen, indem vorhersagbare Variationen entfernt werden.

Vergleicht man CUPED mit dem Double Machine Learning (DML), lässt sich feststellen, dass die Anpassung des Zielindikators in beiden Methoden zur Reduzierung der Varianz führt. Der DML nutzt dabei den Ansatz eines Outcome-Modells, ähnlich wie CUPED, um die Varianz zu reduzieren und genauere Schätzungen zu ermöglichen. Die Anwendung von CUPED oder DML hängt von verschiedenen Faktoren ab, wie beispielsweise dem Vorhandensein von biased treatment assignment oder der Notwendigkeit, individuelle Behandlungseffekte zu verstehen.

Insgesamt bietet dieser Artikel eine grundlegende Einführung in experimentelle Methoden, die Anwendung von CUPED zur Varianzreduktion und die Zusammenhänge mit dem Double Machine Learning. Es werden auch Empfehlungen gegeben, wann die eine oder die andere Methode geeignet wäre, um experimentelle Studien durchzuführen und die Genauigkeit der Ergebnisse zu verbessern.