Die Chemikerin Dr. Jiayun Pang von der Universität Greenwich wird mit Dr. Ivan Vulić, einem NLP- und Machine-Learning-Experten von der Universität Cambridge, zusammenarbeiten, um die neuesten Entwicklungen im Bereich NLP zu untersuchen und deren weitere Anwendbarkeit im chemischen Bereich zu prüfen. NLP liegt an der Schnittstelle zwischen Linguistik und Informatik und zielt darauf ab, menschliche Sprache zu verarbeiten und zu analysieren, die in der Regel als Text vorliegt. NLP konzentriert sich nun stark auf den Einsatz von Machine Learning, um herausfordernde Aufgaben mit revolutionären Algorithmen anzugehen, die eine Vielzahl von Anwendungen in der Praxis unterstützen.
Diese Forschung wird speziell untersuchen, wie Transformer-Modelle, ein Deep-Learning-Algorithmus, der von Google im Jahr 2017 entwickelt wurde, angepasst werden können, um Forschungsherausforderungen in der Chemie zu lösen. Die Forscher sagten, dass chemische Strukturen in der Regel dreidimensional sind, jedoch oft in vereinfachte molekulare Eingabelinien-Systeme (SMILES) umgewandelt werden, ein einfacher Wortschatz von chemischen Elementen und Bindungssymbolen mit grammatikalischen Regeln, wie die chemischen Elemente positioniert sind. Durch SMILES ist es möglich, NLP-Algorithmen zu verwenden, um chemische Strukturen ähnlich wie Text zu analysieren.
Die Forschung wird den sogenannten Transfer-Learning untersuchen, ein Konzept, das sich inzwischen im Maschinenlernen und NLP verbreitet hat, und das zu verwenden versucht, zuvor entwickelte Modelle für andere Aufgaben wiederzuverwenden. Mit diesem Ansatz können die Forscher große allgemeine Modelle umnutzen, für spezifische Anwendungen anpassen und den Aufwand für die Entwicklung eines Modells von Grund auf verringern. Die Transformer-Modelle sollen darauf trainiert werden, eine latente Repräsentation des chemischen Raums, der durch Millionen von SMILES definiert ist, zu erlernen.
Die Forscher sagten, dass der Vorteil dieses Ansatzes darin besteht, dass die resultierenden Machine-Learning-Modelle weniger auf die gelabelten Daten angewiesen sind, die zeit- und kostenintensiv sind, um in der Chemie zu generieren. Die Studie wird darauf abzielen, die Transformer-Modelle mehr rechnerisch effizient und genau zu machen, indem zwei neueste maschinelle Lernverfahren, genannt Satzencodierung und Kontrastives Lernen, verwendet werden. Der Start der Forschung ist im Februar 2024 geplant und zielt darauf ab, eine alternative Methode zur Bewertung von molekularen Strukturen im Hinblick auf ihre Eigenschaften anzubieten, welche viele Forschungs- und Entwicklungsarbeiten in der chemischen und pharmazeutischen Industrie unterstützt.
Hinterlasse eine Antwort