MolCompass: Ein Durchbruch bei der Identifizierung von Schwachstellen chemischer Vorhersagemodelle

MolCompass: Ein Durchbruch bei der Identifizierung von Schwachstellen chemischer Vorhersagemodelle

In den letzten Jahren sind maschinelle Lernmodelle zur Risikobewertung von chemischen Verbindungen immer beliebter geworden. Jedoch gelten sie aufgrund ihrer Undurchsichtigkeit oft als ‘Black Boxes’, was bei Toxikologen und Regulierungsbehörden Skepsis hervorruft. Um das Vertrauen in diese Modelle zu stärken, haben Forscher der Universität Wien vorgeschlagen, die Bereiche des chemischen Raums sorgfältig zu identifizieren, in denen diese Modelle schwach sind. Sie haben ein innovatives Software-Tool (‘MolCompass’) entwickelt und die Ergebnisse dieser Forschungsmethode wurden kürzlich im angesehenen Journal of Cheminformatics veröffentlicht.

Im Laufe der Jahre wurden neue Arzneimittel und Kosmetika an Tieren getestet. Diese Tests sind teuer, werfen ethische Bedenken auf und sagen oft nicht genau menschliche Reaktionen vorher. Kürzlich unterstützte die Europäische Union das RISK-HUNT3R-Projekt, um die nächste Generation nicht-tierischer Risikobewertungsmethoden zu entwickeln. Die Universität Wien ist Mitglied des Projekt-Konsortiums. Computermethoden ermöglichen es nun, die toxischen und Umweltrisiken neuer Chemikalien vollständig am Computer zu bewerten, ohne die chemischen Verbindungen synthetisieren zu müssen. Aber eine Frage bleibt offen: Wie zuversichtlich sind diese Computermodelle?

Um dieses Problem anzugehen, konzentrierte sich Sergey Sosnin, ein leitender Wissenschaftler der Forschungsgruppe für Pharmakoinformatik an der Universität Wien, auf die binäre Klassifikation. In diesem Zusammenhang gibt ein maschinelles Lernmodell einen Wahrscheinlichkeitswert von 0% bis 100% an, der angibt, ob eine chemische Verbindung aktiv ist oder nicht (z.B. ob sie giftig oder ungiftig ist, bioakkumulativ oder nicht-bioakkumulativ ist, ein Binder oder Nicht-Binder für ein spezifisches menschliches Protein ist). Diese Wahrscheinlichkeit spiegelt das Vertrauen des Modells in seine Vorhersage wider. Idealerweise sollte das Modell nur bei korrekten Vorhersagen zuversichtlich sein. Wenn das Modell unsicher ist und einen Vertrauenswert um 51% vergibt, können diese Vorhersagen zugunsten alternativer Methoden ignoriert werden. Eine Herausforderung entsteht jedoch, wenn das Modell bei falschen Vorhersagen vollständig zuversichtlich ist.