Dieser Beitrag wurde gemeinsam mit Kristina Olesova, Zdenko Estok und Selimcan Sakar von Accenture verfasst. In der heutigen datengetriebenen Welt sehen sich Organisationen häufig der Herausforderung gegenüber, strukturierte Informationen aus unstrukturierten PDF-Dokumenten extrahieren. Diese PDFs können eine Vielzahl von Elementen wie Bilder, Tabellen, Überschriften und Text in verschiedenen Stilen enthalten, was es schwierig macht, die Daten effizient zu analysieren und zu parsen. Darüber hinaus hängt die Leistung von Chatbots und anderen Natural Language Processing (NLP)-Anwendungen stark von der Chunking-Strategie ab.
Unzureichendes Chunking kann zu Kontextverlust führen, Halluzinationen und ungenaue Antworten verursachen. Darüber hinaus wird die Leistung von Sprachmodellen weiterhin durch die Chunk-Größe beeinflusst, wobei kleinere Chunks granulare Informationen liefern, aber Schwierigkeiten mit der Generalisierung haben, während größere Chunks wichtige Details verpassen können. Accenture nutzte die Anpassungsfähigkeit von Knowledge Bases für Amazon Bedrock, um ihren Datenverarbeitungsworkflow und benutzerdefinierte Logik zu integrieren und einen benutzerdefinierten Chunking-Mechanismus zu erstellen. Dies verbessert die Leistung der Retrieval Augmented Generation (RAG) und erschließt das Potenzial Ihrer PDF-Daten.
Die Lösung von Accenture umfasst die Erstellung einer Wissensbasis mit den Finanzergebnissen von Accenture für jedes Quartal von 2020–2024. Dieses Dokument enthielt Bilder, Tabellen, Text in verschiedenen Formaten und andere störende Elemente. Das Ziel war es, granulare Informationen aus den Tabellen zu extrahieren und gleichzeitig die guten Generalisierungsmöglichkeiten der Fundamentmodelle (FMs) zu erhalten, um auf allgemeine Fragen zu den Finanzergebnissen antworten zu können. Durch die Anpassung des Chunking-Mechanismus mit Amazon Bedrock konnte die Leistung der Retrieval-Frameworks erheblich verbessert werden.
Die Architektur des Lösung besteht aus verschiedenen Schritten wie der Erstellung eines Datenquellen mit allen Daten, der Ausführung von Amazon Textract auf den PDFs, der Chunk-Erstellung auf Basis der Extraktionen aus den Paragraphen im Amazon Textract-Output, der Einbettung der Chunks in Vektoren mit Amazon Bedrock und der Verwendung des Vektor-Suchmoduls von Amazon OpenSearch Service. Dies ermöglicht es, die besten Vektoren für jede Abfrage auszuwählen und die Antwort von einem FM von Amazon Bedrock abzurufen. Der Chunking-Mechanismus verwendet Amazon Textract, um Absätze, Tabellen, Bilder, Überschriften und andere Layout-Elemente in PDFs zu erkennen und zu verbessern, Rauschen zu eliminieren und mehr Kontext für die Metadatengenerierung zu bieten. Es nutzt Metadaten wie Tabellen, Bilder, Kapitelüberschriften und Untertitel, um die Informationen logisch zu kategorisieren und die Extraktionsleistung zu verbessern.
Die Vorteile von Custom Chunking liegen in der Erhaltung des Kontextes, der flexiblen Anpassung der Chunk-Größen, der Verbesserung der Abfrageleistung und der nahtlosen Integration mit AWS-Services. Durch die Verwendung von Custom Chunking und Metadata-Filterung können Organisationen die Leistung ihrer Retrieval-Frameworks erheblich verbessern und präzise und kontextbezogene Antworten erhalten. Die Anwendung von Metadata-Filterung gegenüber Systemanfragen hat signifikante Verbesserungen in der Antwortgenauigkeit gezeigt.
Die Performancevergleiche zwischen festem Chunking, Custom Chunking und Custom Chunking mit Prompts zeigten verschiedene Ergebnisse. Die Verwendung von Custom Chunking führte zu einer deutlichen Steigerung der Genauigkeit der abgerufenen Ergebnisse. Darüber hinaus führte die Anwendung von Metadata-Filterung zu besseren Ergebnissen. Die Reinigung der erstellten Ressourcen am Ende des Projekts ist entscheidend, um eine saubere und kosteneffiziente Umgebung zu gewährleisten. Durch die Kombination von Knowledge Bases für Amazon Bedrock, Custom Chunking und Amazon Textract können Organisationen das volle Potenzial ihrer PDF-Daten erschließen und präzise, kontextbezogene Antworten erhalten, die die Leistung ihrer Retrieval-Frameworks verbessern.
Hinterlasse eine Antwort