Künstliche Intelligenz (KI) Propheten und Nachrichtenkäufer prophezeien das Ende des generativen KI-Hypes mit Diskussionen über einen drohenden katastrophalen “Model Collapse”.
Aber wie realistisch sind diese Vorhersagen? Und was ist überhaupt ein Modell-Zusammenbruch?
Diskutiert im Jahr 2023, aber in letzter Zeit populärer gemacht, bezieht sich “model collapse” auf ein hypothetisches Szenario, in dem zukünftige KI-Systeme aufgrund des Anstiegs von KI-generierten Daten im Internet progressiv dümmer werden.
Moderne KI-Systeme werden mithilfe von maschinellem Lernen aufgebaut. Programmierer stellen die zugrunde liegende mathematische Struktur ein, aber die eigentliche “Intelligenz” kommt vom Training des Systems, um Muster in Daten zu imitieren.
Aber nicht irgendwelche Daten. Die aktuellen generativen KI-Systeme benötigen hochwertige Daten und viele davon.
Um diese Daten zu beschaffen, durchsuchen große Technologieunternehmen wie OpenAI, Google, Meta und Nvidia kontinuierlich das Internet, um Terabytes an Inhalten zu sammeln, um die Maschinen zu füttern.
In 2023 begannen Forscher zu überlegen, ob sie sich ausschließlich auf KI-erzeugte Daten für das Training verlassen könnten, anstelle von von Menschen generierten Daten.
Es gibt enorme Anreize, dies zu ermöglichen. Neben der Verbreitung im Internet ist künstlich hergestellter Inhalt viel günstiger als menschliche Daten zu beschaffen. Außerdem ist es ethisch und rechtlich weniger problematisch, diesen Inhalt in großem Umfang zu sammeln.
Jedoch stellten Forscher fest, dass KI-Systeme, die auf KI-erzeugten Daten trainiert sind, dümmer werden, da jedes Modell aus dem vorherigen lernt. Das Problem ähnelt dem der Inzucht.
Dieses “wiederholende Training” führt anscheinend zu einer Verringerung der Qualität und Vielfalt des Modellverhaltens. Qualität bezieht sich hier grob auf eine Kombination von hilfreich, harmlos und ehrlich. Vielfalt bezieht sich auf die Variation von Antworten und welche kulturellen und sozialen Perspektiven der Menschen in den KI-Ausgaben vertreten sind.
Zusammenfassend: Indem wir KI-Systeme so häufig einsetzen, könnten wir die Datenquelle, die wir benötigen, um sie nützlich zu machen, vergiften.
Können große Technologieunternehmen nicht einfach KI-erzeugte Inhalte herausfiltern? Nicht wirklich. Technologieunternehmen verbringen bereits viel Zeit und Geld damit, die Daten zu säubern und zu filtern, die sie sammeln, wobei ein Insider der Branche kürzlich teilte, dass sie manchmal bis zu 90% der Daten verwerfen, die sie ursprünglich für das Training von Modellen gesammelt haben.
Diese Anstrengungen könnten anspruchsvoller werden, da der Bedarf, KI-generierte Inhalte spezifisch zu entfernen, zunimmt. Aber wichtiger noch, wird es langfristig immer schwieriger, zwischen KI-Inhalten zu unterscheiden. Dies macht das Filtern und Entfernen synthetischer Daten zu einem Spiel mit abnehmender (finanzieller) Rendite.
Letztendlich zeigt die bisherige Forschung, dass wir menschliche Daten einfach nicht vollständig abschaffen können. Immerhin stammt das “I” in KI von dort.
Gehen wir auf eine Katastrophe zu?
Es gibt Anzeichen dafür, dass Entwickler bereits mehr Aufwand betreiben müssen, um hochwertige Daten zu beschaffen. Zum Beispiel wurde bei der Veröffentlichung von GPT-4 eine beispiellose Anzahl von Mitarbeitern im Bereich der datenbezogenen Teile des Projekts genannt.
Es gibt auch Hinweise darauf, dass uns möglicherweise der neue menschliche Daten ausgeht. Einige Schätzungen besagen, dass der Pool an von Menschen generierten Textdaten eventuell schon bis 2026 erschöpft sein könnte.
Deshalb eilen OpenAI und andere, um exklusive Partnerschaften mit Branchenriesen wie Shutterstock, Associated Press und NewsCorp zu schließen. Sie besitzen große proprietäre Sammlungen von menschlichen Daten, die nicht frei im öffentlichen Internet verfügbar sind.
Die Aussichten auf einen katastrophalen Modellzusammenbruch könnten jedoch übertrieben sein. Die meisten bisherigen Forschungen betrachten Fälle, in denen synthetische Daten menschliche Daten ersetzen. In der Praxis werden menschliche und KI-Daten wahrscheinlich parallel akkumulieren, was die Wahrscheinlichkeit eines Zusammenbruchs verringert.
Die wahrscheinlichste zukünftige Entwicklung wird auch ein Ökosystem von etwas vielfältigen generativen KI-Plattformen sehen, die verwendet werden, um Inhalte zu erstellen und zu veröffentlichen, anstelle eines monolithischen Modells. Dies erhöht auch die Stabilität gegen einen Zusammenbruch.
Dies ist ein guter Grund für Regulierungsbehörden, einen gesunden Wettbewerb zu fördern, indem sie Monopole im KI-Sektor begrenzen und die Entwicklung von Technologien im öffentlichen Interesse finanzieren.
Die eigentlichen Bedenken
Es gibt auch subtilere Risiken durch zu viel künstlich erzeugten Inhalt.
Eine Flut von synthetischem Inhalt stellt möglicherweise keine existenzielle Bedrohung für den Fortschritt der KI-Entwicklung dar, aber sie gefährdet das digitale Gemeinwohl des (menschlichen) Internets.
Zum Beispiel fanden Forscher ein 16%iges Aktivitätsrückgang auf der Codierwebsite StackOverflow ein Jahr nach der Veröffentlichung von ChatGPT. Dies deutet darauf hin, dass KI-Unterstützung bereits die Interaktionen zwischen Personen in einigen Online-Communities reduziert.
Die Hyperproduktion aus KI-gesteuerten Inhaltsfabriken macht es auch schwieriger, Inhalte zu finden, die nicht mit Anzeigen überfüllt sind.
Es wird immer schwieriger, zwischen menschlich generierten und KI-generierten Inhalten zu unterscheiden. Eine Methode zur Lösung dieses Problems wäre das Markieren oder Kennzeichnen künstlich generierter Inhalte, wie ich und viele andere kürzlich betont haben, und wie es sich in der aktuellen australischen Regierungsgesetzgebung widerspiegelt.
Es gibt auch ein Risiko. Wenn künstlich erzeugter Inhalt systematisch homogen wird, riskieren wir den Verlust sozio-kultureller Vielfalt, und einige Gruppen von Menschen könnten sogar kulturell gelöscht werden. Wir brauchen dringend interdisziplinäre Forschung zu den sozialen und kulturellen Herausforderungen, die von KI-Systemen ausgehen.
Menschliche Interaktionen und menschliche Daten sind wichtig, und wir sollten sie schützen. Zum eigenen Wohl und vielleicht auch im Hinblick auf die mögliche Gefahr eines zukünftigen Modellzusammenbruchs.
Hinterlasse eine Antwort