Was passiert wirklich im Maschinenlernen?

Was passiert wirklich im Maschinenlernen?

Stephen Wolfram hat kürzlich einen sehr langen Blog-Beitrag mit dem Titel “Was passiert wirklich im Maschinenlernen? Einige minimale Modelle” veröffentlicht. In meiner Meinung nach weiß er es vielleicht nicht, und noch stärker, er kommt nicht einmal aus den Startlöchern. Nichtsdestotrotz ist der Ansatz interessant und lesenswert. Es wird darauf hingewiesen, dass wir bereits wissen, warum neuronale Netze, was er mit “Maschinenlernen” meint, funktionieren. Es handelt sich um die Anwendung des einfachen Prinzips der Optimierung in Verbindung mit Ashbys Gesetz der erforderlichen Vielfalt.

Neuronale Netze sind Systeme, die eine enorme Anzahl an Freiheitsgraden haben – so viele, dass sie mit den im realen Leben vorhandenen Freiheitsgraden vergleichbar sind oder zumindest mit einem eingeschränkten Teil davon. Die Optimierung erfolgt durch Backpropagation, was selbst nur eine Anwendung des etwas allgemeineren Gradientenabstiegs ist. Die Idee ist, dass, wenn man sich in Richtung “besser” bewegt, man letztendlich zu einem akzeptablen Zustand gelangt. Diese Ideen sind so kraftvoll und einfach, dass man schnell zu dem Schluss kommen kann, dass man fast alles trainieren kann, wenn man es als komplexes genuges differenzierbares System implementieren kann.

Der neueste Blog von Wolfram geht darauf ein, wie Zelluläre Automaten benutzt werden können, um Funktionen zu lernen. Bevor er jedoch auf dieses Thema eingeht, veranschaulicht er, wie ein Standard-Neuronales Netzwerk lernt, indem er das Modell auf etwas reduziert, das einfach genug ist, um die Entwicklung nachzuvollziehen. Der wirklich interessante Teil des Blogs ist jedoch, dass das neuronale Netzwerk durch 1D-zelluläre Automaten ersetzt wird. Hier wird das Lernen mithilfe eines modifizierten genetischen Algorithmus erreicht, der eine diskrete Version des Optimierungsprinzips darstellt, das ohne Gradienten funktioniert.

Zur weiteren Erläuterung versucht der Blog, all dies mit dem Prinzip der universellen Berechnung in Verbindung zu bringen, was im Grunde besagt, dass so gut wie jedes nicht triviale System höchstwahrscheinlich Turing-vollständig ist – also in der Lage ist, alles zu berechnen. Alles in allem kann gesagt werden, dass der Blogbeitrag unterhaltsam und zum Nachdenken anregend ist. Es ist auch interessant zu überlegen, wie ein tiefes neuronales Netzwerk die Welt repräsentiert, auf der es trainiert wird, und ob diese Strukturen eine Verallgemeinerung ermöglichen. Die tatsächliche Herausforderung bei neuronalen Netzen besteht darin, wie sie die Welt, auf der sie trainiert wurden, repräsentieren. Sind die Cluster, Gruppierungen usw. in der realen Welt in den trainierten Netzwerken widergespiegelt? Gelingt es diesen Strukturen zu verallgemeinern?