Mit der Einführung generativer KI-Lösungen findet ein Paradigmenwechsel in verschiedenen Branchen statt, angetrieben von Organisationen, die Foundation-Modelle einsetzen, um beispiellose Möglichkeiten freizuschalten. Amazon Bedrock hat sich als bevorzugte Wahl für zahlreiche Kunden etabliert, die generative KI-Anwendungen entwickeln und einführen möchten, was zu einem exponentiellen Anstieg der Nachfrage nach Modell-Inferenzfähigkeiten führt. Kunden von Bedrock wollen ihre Anwendungen weltweit skalieren, um Wachstum zu ermöglichen und benötigen zusätzliche Burst-Kapazitäten, um unerwartete Verkehrsspitzen zu bewältigen. Derzeit müssen Benutzer möglicherweise ihre Anwendungen so konstruieren, dass sie Szenarien bewältigen können, die Verkehrsspitzen beinhalten, die Service-Quoten aus mehreren Regionen nutzen können, indem sie komplexe Techniken implementieren.
Heute freuen wir uns, die allgemeine Verfügbarkeit von Cross-Region-Inferenz bekannt zu geben, eine leistungsstarke Funktion, die automatisches Cross-Region-Inferenz-Routing für Anfragen ermöglicht, die bei Amazon Bedrock eingehen. Dies bietet Entwicklern im On-Demand-Inferenzmodus eine nahtlose Lösung zur Verwaltung optimaler Verfügbarkeit, Leistung und Widerstandsfähigkeit bei der Verwaltung eingehender Verkehrsspitzen von Anwendungen, die von Amazon Bedrock unterstützt werden. Durch die Aktivierung der Cross-Region-Inferenz müssen Entwickler keine Zeit und Mühe mehr darauf verwenden, Nachfrageschwankungen vorherzusagen. Stattdessen leitet die Cross-Region-Inferenz den Verkehr dynamisch über mehrere Regionen, um für jede Anfrage eine optimale Verfügbarkeit und gleichmäßige Leistung während Zeiten hoher Nutzung zu gewährleisten.
Zu den wichtigsten Merkmalen der Cross-Region-Inferenz gehören die Nutzung von Kapazität aus mehreren AWS-Regionen, Kompatibilität mit der vorhandenen Amazon Bedrock API, keine zusätzliche Routing- oder Datenübertragungskosten und die Priorisierung der angeschlossenen Amazon Bedrock API-Quell-/Primärregion, um die Latenz zu minimieren und die Reaktionsfähigkeit zu verbessern. Durch die Verwendung von Inference-Profilen in Amazon Bedrock können Entwickler die Verlässlichkeit, Leistung und Effizienz ihrer Anwendungen verbessern, ohne komplexe Resilienzstrukturen aufzubauen.
Wenn ein Anforderung an Amazon Bedrock gestellt wird, erfolgt eine Kapazitätsprüfung in derselben Region, in der die Anfrage ursprünglich gestartet wurde. Wenn genügend Kapazität vorhanden ist, wird die Anfrage erfüllt, andernfalls wird eine Sekundärregion ausgewählt, die die Anforderung übernehmen kann. Diese Fähigkeit zur Überprüfung der Kapazität stand den Kunden bisher nicht zur Verfügung, weshalb sie manuelle Überprüfungen jeder bevorzugten Region durchführen mussten, bevor eine Neuverteilung erfolgte. In Bezug auf die Sicherheit und Architektur wird bei Cross-Region-Inferenz die AWS-Service-Token-Definition im ARN um einen regionalen Präfix erweitert, um auf das richtige Fundamentmodell in dererisgen Region zu verweisen.
Die Implementierung von Inference-Profilen ist kompatibel mit bestehenden Amazon Bedrock APIs, wie InvokeModel und Converse. Dies bedeutet, dass Sie Inference-Profile nahtlos in Ihre bestehenden Workloads integrieren können, ohne dass größere Code-Änderungen erforderlich sind. Die Funktion verursacht keine zusätzlichen Kosten für Sie. Sie zahlen den gleichen Preis pro Token einzelner Modelle in Ihrer Primär-/Quellregion. Beim Einsatz von Cross-Region-Inferenz werden keine Kundendaten in der Primär- oder Sekundärregion gespeichert, jedoch wird erwogen, dass Ihre Inferenzdaten außerhalb Ihrer Primärregion verarbeitet und übertragen werden. Das neue Feature Cross-Region-Inferenz über Inference-Profile ermöglicht Entwicklern die Verbesserung der Zuverlässigkeit, Leistung und Effizienz ihrer Anwendungen, ohne komplexe Resilienzstrukturen aufzubauen.
Hinterlasse eine Antwort