GenASL: Generative KI-unterstützte Amerikanische Zeichensprache Avatare

GenASL: Generative KI-unterstützte Amerikanische Zeichensprache Avatare

In der heutigen Welt ist eine effektive Kommunikation von entscheidender Bedeutung, um Inklusivität zu fördern und Barrieren abzubauen. Für Personen, die auf visuelle Kommunikationsmethoden wie American Sign Language (ASL) angewiesen sind, reichen traditionelle Kommunikationstools oft nicht aus. Hier kommt GenASL ins Spiel. GenASL ist eine generative künstliche Intelligenz (KI)-gestützte Lösung, die Sprache oder Text in expressive ASL-Avatar-Animationen übersetzt und die Kluft zwischen gesprochener und geschriebener Sprache sowie Gebärdensprache überbrückt. Der Aufstieg von Foundation Models (FMs) und die faszinierende Welt der generativen KI, in der wir leben, sind unglaublich aufregend und eröffnen Möglichkeiten, über das zu denken und zu bauen, was zuvor nicht möglich war. AWS ermöglicht es Organisationen jeder Größe und Entwicklern aller Fähigkeitsniveaus, generative KI-Anwendungen mit Sicherheit, Datenschutz und verantwortlicher KI zu erstellen und zu skalieren.

In diesem Beitrag gehen wir auf die Architektur- und Implementierungsdetails von GenASL ein, das AWS generative KI-Fähigkeiten verwendet, um menschenähnliche ASL-Avatarvideos zu erstellen. Die GenASL-Lösung besteht aus mehreren AWS-Diensten, die zusammenarbeiten, um eine nahtlose Übersetzung von Sprache oder Text in ASL-Avatar-Animationen zu ermöglichen. Benutzer können Audio, Video oder Text in GenASL eingeben, das ein ASL-Avatar-Video generiert, das die bereitgestellten Daten interpretiert. Die Lösung verwendet AWS KI- und Machine Learning-Dienste, einschließlich Amazon Transcribe, Amazon SageMaker, Amazon Bedrock und FMs. Der Workflow umfasst mehrere Schritte, darunter die Initiierung eines Stapelprozesses zur Erstellung von ASL-Avataren aus einem Video-Datensatz, die Verteilung der GenASL-Web-App über AWS Amplify an die mobilen Geräte der Benutzer und die Verwendung von Amazon Cognito zur temporären Zugriffsgewährung auf den Amazon S3-Bucket.

Der Lösungsarchitektur umfasst die Verwendung von AWS-Diensten wie Amazon S3, Amazon API Gateway, AWS Lambda, Amazon Transcribe, Amazon Bedrock, Amazon DynamoDB und Amazon CloudWatch, um die verschiedenen Prozesse zu orchestrieren und ASL-Avatarvideos zu generieren. Durch die effektive Integration und den Einsatz dieser Dienste kann GenASL ein nahtloses Erlebnis bieten und die ASL-Kommunikation verbessern. Zusätzlich werden bewährte Methoden für die Implementierung und den Betrieb der Anwendung hervorgehoben, um eine effiziente und zuverlässige Bereitstellung sicherzustellen.

In Bezug auf die Batch-Verarbeitung besteht der Prozess aus der Verwendung des ASL Lexicon Video Dataset (ASLLVD) und der Pose-Schätzungstools RTMPose und MMPose, die es ermöglichen, ASL-Avatarvideos aus einer Vielzahl von ASL-Zeichen in 2D- und 3D-Modellen zu generieren. Die Implementierung der Backend-Logik umfasst mehrere Schritte, darunter die Verarbeitung von Audiodaten zu Text, die Übersetzung des Textes in eine ASL-Gloss und die Erstellung eines ASL-Avatarvideos aus der ASL-Gloss. Die Integration von Amazon Transcribe und Amazon Bedrock ermöglicht eine effiziente und genaue Umwandlung von Audiodaten in ASL-Videos.

Die Frontend-Entwicklung erfolgt mit Amplify, einem Framework zur Entwicklung von Full-Stack-Anwendungen, einschließlich mobiler und Webanwendungen. Die Implementierung des Frontends umfasst die Konfiguration der Amplify-Umgebung, die Anbindung an die Backend-APIs und die Bereitstellung der Anwendung. Durch die Nutzung bewährter Methoden in der API-Gestaltung und im DevOps-Bereich wird sichergestellt, dass die ASL-Avatar-Videoanwendung effizient betrieben und verwaltet werden kann. Mit weiteren Schritten wie der Integration von 3D-Pose-Schätzungen und verbesserten Übersetzungstechniken wird die Anwendung weiter verbessert, um ein noch breiteres Publikum zu erreichen.