Künstliche Intelligenz-Propheten und Neuigkeiten-Vermittler prophezeien das Ende des Hypes um generative KI, mit Gesprächen über einen bevorstehenden katastrophalen “Model Collapse”. Aber wie realistisch sind diese Vorhersagen? Und was bedeutet überhaupt Model Collapse? Diskutiert im Jahr 2023, aber erst kürzlich populär geworden, bezieht sich “Model Collapse” auf ein hypothetisches Szenario, in dem zukünftige KI-Systeme aufgrund der Zunahme von KI-generierten Daten im Internet zunehmend dümmer werden.
Moderne KI-Systeme werden mithilfe von Maschinenlernen erstellt. Programmierer richten die zugrunde liegende mathematische Struktur ein, aber die eigentliche “Intelligenz” kommt davon, dass das System darauf trainiert wird, Muster in Daten nachzuahmen. Allerdings nicht nur von beliebigen Daten. Die aktuellen generativen KI-Systeme benötigen hochwertige Daten und eine Menge davon. Um diese Daten zu beschaffen, durchsuchen große Technologieunternehmen wie OpenAI, Google, Meta und Nvidia kontinuierlich das Internet und sammeln Terabyte an Inhalten, um die Maschinen zu füttern.
Aufgrund von Forschungen im Jahr 2023 begannen Wissenschaftler sich zu fragen, ob sie nur auf AI-erzeugte Daten zur Schulung setzen könnten, anstelle von menschenerzeugten Daten. Es gibt große Anreize, dies zu erreichen.
Tech-Firmen verbringen bereits viel Zeit und Geld damit, die von ihnen gesammelten Daten zu reinigen und zu filtern, wobei ein Insider der Branche kürzlich erwähnte, dass sie manchmal bis zu 90 Prozent der Daten verwerfen, die sie ursprünglich sammeln, um Modelle zu trainieren. Diese Bemühungen könnten anspruchsvoller werden, da der Bedarf an spezifischen Filterungen von KI-generierten Inhalten zunimmt. Letztendlich zeigen die bisherigen Forschungen, dass wir menschliche Daten einfach nicht komplett vermeiden können.
Zwar gibt es Anzeichen dafür, dass Entwickler bereits härter arbeiten müssen, um hochwertige Daten zu beschaffen, und die Dokumentation zur Veröffentlichung von GPT-4 hat eine beispiellose Anzahl von Mitarbeitern in den datenbezogenen Teilen des Projekts erwähnt. Es ist wahrscheinlich, dass “model collapse” übertrieben ist, da die Forschung bisher meist Fälle betrachtet, in denen synthetische Daten menschliche Daten ersetzen. In der Praxis werden sich menschliche und KI-Daten wahrscheinlich parallel anhäufen, was die Wahrscheinlichkeit eines Zusammenbruchs verringert. Insgesamt sollten Regulierungsbehörden den gesunden Wettbewerb fördern, indem sie Monopole im KI-Sektor einschränken und die Entwicklung von Technologien im öffentlichen Interesse finanzieren.
Hinterlasse eine Antwort