Die wertvollste Ressource der KI-Welt geht zur Neige und sucht nach einer Alternative: ‘Fake’-Daten

Die wertvollste Ressource der KI-Welt geht zur Neige und sucht nach einer Alternative: ‘Fake’-Daten

Die KI-Welt steht kurz davor, ihren wertvollsten Rohstoff zu erschöpfen, was Branchenführer in eine hitzige Debatte über ein schnell wachsendes Alternativangebot führt: synthetische Daten, also im Wesentlichen “falsche” Daten. Lange Zeit haben Unternehmen wie OpenAI und Google Daten aus dem Internet extrahiert, um die großen Sprachmodelle zu trainieren, die ihre KI-Werkzeuge und -Funktionen antreiben. Die Forschungsfirma Epoch AI prognostiziert, dass textbasierte Daten bis 2028 knapp werden könnten. Unternehmen, die jeden Winkel des Internets nach verwendbaren Trainingsdaten durchsucht haben, sehen sich zunehmend strengeren Einschränkungen gegenüber.

Um dieses Problem zu lösen, setzen Unternehmen wie OpenAI und Google auf synthetische Daten, die von KI-Systemen generiert werden, die auf echten Daten trainiert wurden. Dieser Ansatz könnte dazu beitragen, den Mangel an menschenbasierten Daten zu kompensieren. Kritiker warnen jedoch davor, dass synthetische Daten zu schlechter Informationsqualität führen könnten und die KI-Modelle dadurch “kollabieren” könnten. Trotz dieser Bedenken wird erwartet, dass bis 2024 60% der für die Entwicklung von KI verwendeten Daten synthetisch generiert werden. Einige Experten vertreten die Ansicht, dass synthetische Daten eine mögliche Lösung für das Problem der Datenknappheit darstellen.

Um die Komplexität und das Problem der datenbasierten KI zu überwinden, werden alternative Ansätze erforscht, die über einfach das Hinzufügen von mehr Daten hinausgehen. Die Forschung hat gezeigt, dass Modelle, die sowohl mit echten als auch mit synthetischen Daten trainiert wurden, nicht notwendigerweise “kollabieren”. Ein vielversprechendes Konzept ist die Nutzung von hybriden Daten, bei denen synthetische Daten in Kombination mit echten Daten verwendet werden, um das Risiko von Qualitätsminderungen zu minimieren. Neue Forschungsansätze wie neuro-symbiotische Modelle werden als mögliche Wege zur Förderung der KI in Betracht gezogen. Trotz der Herausforderungen und Bedenken im Zusammenhang mit synthetischen Daten werden Unternehmen wie OpenAI, Google und Microsoft weiterhin daran arbeiten, Lösungen für die Datenkrise zu finden.