Maschinelles Lernen entwirft neue GCGR/GLP-1R-Dualagonisten mit verbessertem biologischem Potenzial – Nature Chemistry

Maschinelles Lernen entwirft neue GCGR/GLP-1R-Dualagonisten mit verbessertem biologischem Potenzial – Nature Chemistry

PotenzprüfungenPeptidpotenzen für die cAMP-Akkumulation wurden experimentell für die Aktivierung sowohl des hGCGR als auch des hGLP-1R in chinesischen Hamsterovarien (CHO)-Zellen für eine Reihe von 125 einzigartigen Peptidsequenzvarianten bestimmt. Stabile CHO-Zelllinien, die den humanen und murinen GLP-1R exprimieren, wurden intern mit standardisierten Methoden erzeugt. CHO-Zellen, die entweder humanes GLP-1R oder humanes GCGR exprimieren, wurden in Assay-Puffer (Hanks Balanced Salt Solution mit 0,1% BSA und 0,5 mM IBMX) in 384-Well-Assay-Platten mit Verdünnungen von Testpeptiden gegeben. Nach 30 Minuten Inkubation wurden die cAMP-Level gemessen und die Daten wurden entsprechend den Herstellerempfehlungen umgewandelt, bevor die EC50 bestimmt wurde. Die Daten werden als Durchschnitt von n≥3 unabhängigen Experimenten präsentiert. Die Referenzstandard-Potenz des nativen Peptids lag innerhalb von drei Malen des historischen geometrischen Mittels für alle Assays.

DatenkompressionDie GPCR-bindenden Peptide, die in dieser Studie betrachtet wurden, bestehen ausschließlich aus natürlichen Aminosäuren. Die initiale Sequenzmenge wurde mithilfe von MAFFT aligniert, um regelmäßige Vorkommen von Aminosäuren über Positionen aufzuzeigen. Die endgültige Sequenzmenge für diese Studie umfasst 125 einzigartige Peptidsequenzen, die gegen humane GPCR- und GLP-1R-Rezeptoren getestet wurden. Die Aminosäuren wurden encodiert und zur Schulung verschiedener Regressionsmodelle verwendet.

DatenkodierungZur Kodierung der Aminosäure an jeder Sequenzposition wurde eine One-Hot-Darstellung verwendet, wobei 21 Kategorien berücksichtigt wurden. Jede Peptidsequenz wurde in eine binäre Matrix umgewandelt und dann in einen Vektor umgeformt. Die Kodierung galt für Peptidsequenzen von Länge 30 und redundante Sequenzen wurden entfernt. Die Daten wurden verwendet, um verschiedene Regressionsmodelle zu trainieren.

Neuronales Netzwerk-ModellEs wurde das Keras/Tensorflow Funktional-API verwendet, um das tiefgreifende Netzwerkmodell zu entwickeln. Das Modell umfasst mehrere Schichten von Conv1D, Batch-Normalisierung, MaxPool1D und Dropout. Diese Schichten wurden mit verschiedenen Parametern zur Kapazitätsanpassung und Hyperparameteroptimierung versehen und mit einem Ensemble-Modell kombiniert. Durch die Ensemble-Struktur werden zufällige Variationen in den Modellvorhersagen reduziert und die Varianz des Modells verringert.

Multitask-TrainingDas Multitask-Learning zielt darauf ab, die Generalisierung zu verbessern und die Vorhersagegenauigkeit zu erhöhen, indem es Objekte für mehrere Zielvariablen aus gemeinsamen Darstellungen lernt. Ein tiefes neuronales Netzwerk wurde für das Multitask-Lernen verwendet, um die Vorhersagefähigkeit zu verbessern. Das Modell wurde auf zwei separate Aufgaben trainiert und gemeinsame verdeckte Schichten für beide Aufgaben verwendet, was zu einer effektiven Trainingsdatenerhöhung und einer Verringerung des Überanpassungsrisikos führte.