Jina AI stellt ‘Late Chunking’ vor: Ein einfacher KI-Ansatz zur Einbettung kurzer Abschnitte durch Nutzung der Leistung von Modellen mit langem Kontext.

Jina AI stellt ‘Late Chunking’ vor: Ein einfacher KI-Ansatz zur Einbettung kurzer Abschnitte durch Nutzung der Leistung von Modellen mit langem Kontext.

Die „Retrieval-augmented generation“ (RAG) hat sich als eine bedeutende Anwendung im Bereich der natürlichen Sprachverarbeitung etabliert. Dieser innovative Ansatz beinhaltet das Aufteilen großer Dokumente in kleinere, handhabbare Textabschnitte, die in der Regel auf etwa 512 Tokens begrenzt sind. Diese mundgerechten Informationshäppchen werden dann in einer Vektordatenbank gespeichert, wobei jeder Abschnitt von einem einzigartigen Vektor repräsentiert wird, der mithilfe eines Texteinbettungsmodells generiert wird. Dieser Prozess bildet die Grundlage für eine effiziente Informationsabfrage und -verarbeitung.

Die Leistung der RAG wird während der Laufzeit operationen offensichtlich. Wenn ein Benutzer eine Anfrage stellt, kommt dasselbe Einbettungsmodell zum Einsatz, das die gespeicherten Abschnitte verarbeitet hat. Es kodiert die Anfrage in eine Vektor-Repräsentation, die die Eingabe des Benutzers und die gespeicherten Informationen verbindet. Dieser Vektor wird dann verwendet, um die relevantesten Textabschnitte aus der Datenbank zu identifizieren und abzurufen, um sicherzustellen, dass nur die relevantesten Informationen für weitere Verarbeitung abgerufen werden.

Im Oktober 2023 wurde mit der Veröffentlichung des jina-embeddings-v2-base-en ein bedeutender Meilenstein in der natürlichen Sprachverarbeitung erreicht. Dieses bahnbrechende Ereignis löste innerhalb der KI-Gemeinschaft eine beträchtliche Diskussion über die praktischen Anwendungen und Grenzen von Einbettungsmodellen mit langem Kontext aus. Die Innovation hat die Grenzen dessen erweitert, was bei der Textdarstellung möglich ist, aber auch wichtige Fragen nach ihrer Effektivität in realen Szenarien aufgeworfen.

Trotz der anfänglichen Begeisterung begannen viele Experten die Praktikabilität des Kodierens extrem langer Dokumente in einer einzigen Einbettungsrepräsentation in Frage zu stellen. Es wurde offensichtlich, dass für zahlreiche Anwendungen dieser Ansatz möglicherweise nicht ideal ist. Die KI-Gemeinschaft erkannte, dass viele Anwendungsfälle die Abfrage von kleineren, fokussierteren Textabschnitten erfordern, anstatt gesamte Dokumente auf einmal zu verarbeiten. Diese Erkenntnis führte zu einer tieferen Erkundung der Kompromisse zwischen Kontextlänge und Abfrageeffizienz.

Forschungen haben gezeigt, dass dichte vektorbasierte Abfragesysteme oft effektiver arbeiten, wenn sie mit kleineren Textsegmenten arbeiten. Der Grund dafür liegt im Konzept der semantischen Komprimierung. Wenn man mit kürzeren Textabschnitten arbeitet, besteht eine geringere Wahrscheinlichkeit für eine “Überkomprimierung” von Semantik durch die Einbettungsvektoren. Dies bedeutet, dass die nuancierten Bedeutungen und Kontexte im Text besser erhalten bleiben, was zu genaueren und relevanteren Abfrageergebnissen in verschiedenen Anwendungen führt.