Vor etwa einem Jahr hat die generative KI die Welt im Sturm erobert, da außergewöhnlich leistungsfähige große Sprachmodelle (LLMs) unübertroffene Leistungen bei einer breiteren Palette von Aufgaben ermöglichten als jemals zuvor möglich. Obwohl sie am besten dafür bekannt sind, überzeugende Texte und Bilder zu generieren, werden LLMs wie OpenAIs GPT-4 und Googles Gemini voraussichtlich größere soziale Auswirkungen haben, da sie als zentrale Instanz für komplexe Systeme fungieren, die zusätzliche Werkzeuge sowohl für das Lernen über die Welt als auch für das Handeln darin integrieren. Diese generativen Agenten werden Begleiter antreiben, die neue Kategorien sozialer Beziehungen einführen und alte verändern. Sie könnten die Aufmerksamkeitsökonomie radikal verändern und die persönliche Datenverarbeitung revolutionieren, indem sie es jedem ermöglichen, digitale Technologien allein mit Sprache zu steuern.
Viel Aufmerksamkeit wurde bisher darauf verwendet, wie generative KI-Systeme die Pathologien bereits weit verbreiteter KI-Systeme replizieren, wobei argumentiert wird, dass sie Macht und Reichtum zentralisieren, Urheberrechtsverletzungen ignorieren, auf ausbeuterische Arbeitspraktiken angewiesen sind und übermäßige Ressourcen verbrauchen. Andere Kritiker weisen darauf hin, wie sie zukünftig deutlich mächtigere Systeme vorwegnehmen, die die Existenz der Menschheit gefährden könnten. Die erste Gruppe sagt, dass hier nichts Neues sei; die andere blickt über die Gegenwart hinweg in eine möglicherweise ferne Zukunft.
Es lohnt sich stattdessen auf das zu achten, was diese spezifischen Systeme auszeichnet: ihre bemerkenswerte wissenschaftliche Leistung und die wahrscheinlichsten und folgenreichsten Arten, wie sie die Gesellschaft in den nächsten fünf bis zehn Jahren verändern werden. Es kann hilfreich sein, damit zu beginnen, wie LLMs funktionieren und wie sie verwendet werden können, um generative Agenten zu erstellen. Ein LLM ist ein großes KI-Modell, das auf riesigen Mengen von Daten und Rechenressourcen (vielen GPUs) trainiert ist, um das nächste Wort basierend auf einer Sequenz von Wörtern (einem Prompt) vorherzusagen. Der Prozess beginnt damit, die Trainingsdaten in ähnlich große “Tokens” (Wörter oder Teile von Wörtern) zu unterteilen, dann für einen Satz von Tokens einige von ihnen zu maskieren und zu versuchen, die maskierten Tokens vorherzusagen (das Modell ist selbstüberwacht – es bewertet seine eigene Arbeit). Ein Vorhersagemodell für die zugrunde liegende Token-Verteilung wird aufgebaut, indem es durch viele Schichten eines neuronalen Netzwerks geleitet wird, wobei jede Schicht das Modell in irgendeiner Dimension verfeinert, um es genauer zu machen.
Dieser Ansatz zur Modellierung natürlicher Sprache gibt es schon seit einigen Jahren. Eine wichtige jüngste Innovation war es, diese “vortrainierten” Modelle, die im Grunde genommen nur gut darin sind, das nächste Token basierend auf einer Sequenz von Tokens vorherzusagen, zu nehmen und sie für verschiedene Aufgaben feinabzustimmen. Dies wird mit überwachtem Lernen anhand von gelabelten Daten durchgeführt. Zum Beispiel könnte man ein vortrainiertes Modell trainieren, ein guter Dialogagent zu sein, indem man viele Beispiele hilfreicher Antworten auf Fragen verwendet. Diese Feinabstimmung ermöglicht es uns, Modelle aufzubauen, die nicht nur das wahrscheinlichste nächste Token vorhersagen können, sondern das hilfreichste – und das ist viel nützlicher.
Hinterlasse eine Antwort