Computer Vision am Rand mit Grove Vision AI Modul V2

Computer Vision am Rand mit Grove Vision AI Modul V2

In diesem Tutorial werden Computer-Vision-Anwendungen mit dem Seeed Studio Grove Vision AI Module V2 erkundet, einem leistungsstarken, aber dennoch winzigen Gerät, das speziell für Anwendungen im Bereich des Embedded Machine Learning entwickelt wurde. Basierend auf dem Himax WiseEye2 Chip ist dieses Modul darauf ausgelegt, KI-Fähigkeiten auf Edge-Geräten zu ermöglichen, was es zu einem perfekten Werkzeug für Anwendungen im Bereich des Edge Machine Learning macht. Das Grove Vision AI (V2) ist ein MCU-basiertes Vision-AI-Modul, das einen Himax WiseEye2 HX6538 Prozessor mit einem Dual-Core Arm Cortex-M55 und integrierter ARM Ethos-U55 Neural Network Unit nutzt. Der Ethos-U55, kombiniert mit dem KI-fähigen Cortex-M55 Prozessor, verbessert die ML-Leistung gegenüber bestehenden Cortex-M-basierten Systemen um das 480-fache. Es verfügt über eine Taktfrequenz von 400 MHz und einen konfigurierbaren internen Systemspeicher (SRAM) von bis zu 2,4 MB.

Der Grove Vision AI (V2) verfügt neben dem internen Speicher von 2,5 MB des Himax-Chips (2,4 MB SRAM + 64 KB ROM) auch über einen 16MB/133MHz externen Flash-Speicher. Dies macht es zu einem leistungsstarken Werkzeug für verschiedene Anwendungen. Das Modul kann mit verschiedenen Geräten wie XIAO, Raspberry Pi, BeagleBoard und ESP-basierten Produkten über Schnittstellen wie IIC, UART, SPI und Typ-C einfach verbunden werden. Durch die Integration des Grove Vision AI V2 mit einem Gerät aus der XIAO-Familie ist es einfach, auf die Daten zuzugreifen, die sich aus der Inferenz auf dem Gerät ergeben, und sich bequem mit der Cloud oder dedizierten Servern wie Home Assistance zu verbinden.

Die SenseCraft Web Toolkit ist ein visuelles Modellbereitstellungswerkzeug, das im SSCMA (Seeed SenseCraft Model Assistant) enthalten ist. Dieses Tool ermöglicht es, Modelle mit einfachen Operationen auf verschiedenen Plattformen zu bereitstellen, ohne dass Programmierkenntnisse erforderlich sind. Durch die Verwendung des SenseCraft-Web-Toolkits können Benutzer auf vorab hochgeladene Computer-Vision-Modelle von Seeed Studio zugreifen, die verschiedene Aufgaben wie Bildklassifizierung, Objekterkennung oder Pose/Keypoint-Erkennung umfassen. Dadurch erhalten Benutzer Informationen wie Name, Beschreibung, Kategorie, Algorithmus und Metriken zu jedem Modell, was die Anwendung erleichtert.

Die Objekterkennung ist eine Schlüsseltechnologie in der Computer Vision, die darauf abzielt, Objekte in digitalen Bildern oder Videorahmen zu identifizieren und zu lokalisieren. Im Gegensatz zur Bildklassifizierung, die ein gesamtes Bild in ein einziges Label kategorisiert, erkennt die Objekterkennung mehrere Objekte innerhalb des Bildes und bestimmt ihre genauen Positionen, die typischerweise durch Begrenzungsrahmen dargestellt werden. Diese Fähigkeit ist für eine Vielzahl von Anwendungen unerlässlich, darunter autonome Fahrzeuge, Sicherheits- und Überwachungssysteme sowie Augmented Reality, wo das Verständnis des Kontexts und des Inhalts der visuellen Umgebung entscheidend ist. Es gibt verschiedene Architekturen, die in der Objekterkennung den Maßstab gesetzt haben, darunter die YOLO-, SSD- und Faster R-CNN-Modelle.

Die Pose- oder Keypoint-Erkennung ist ein anspruchsvoller Bereich innerhalb der Computer Vision, der sich darauf konzentriert, spezifische Interessenspunkte innerhalb eines Bildes oder Videorahmens zu identifizieren. Diese Technologie kann die verschiedenen Keypoints eines Subjekts erfassen und kartieren und damit die Analyse von Haltungen, Bewegungen und Gesten ermöglichen. Im Gegensatz zur allgemeinen Objekterkennung, die Objekte identifiziert und lokalisiert, bohrt die Poseerkennung auf eine feinere Detailstufe herunter, um die nuancierten Positionen und Orientierungen bestimmter Teile zu erfassen. Führende Architekturen in diesem Bereich sind OpenPose, AlphaPose und PoseNet.

Die Bildklassifizierung ist eine grundlegende Aufgabe innerhalb der Computer Vision, die darauf abzielt, gesamte Bilder in eine von mehreren vordefinierten Klassen zu kategorisieren. Dieser Prozess beinhaltet die Analyse des visuellen Inhalts eines Bildes und die Zuweisung eines Labels aus einem festgelegten Satz von Kategorien basierend auf dem vorherrschenden Objekt oder Szenario, das es enthält. Die Bildklassifizierung ist für zahlreiche Anwendungen entscheidend und treibt die Innovation voran, indem das Verständnis visueller Daten in verschiedenen Branchen vorangetrieben wird. Gemeinsame Architekturen, die das Feld der Bildklassifizierung erheblich vorangetrieben haben, sind Convolutional Neural Networks (CNNs) wie AlexNet, VGGNet und ResNet.

Der XIAO BLE Sense wird als Mastergerät verwendet, um die Inferenzergebnisse von Grove Vision AI (V2) zu empfangen und offline zu visualisieren. Dies geschieht durch eine Verbindung zwischen den Geräten über IIC. Ein Beispielcode wurde bereitgestellt, um dies zu demonstrieren, zusammen mit detaillierten Anweisungen zum Einrichten und Ausführen des Codes. Dies ermöglicht es, die Inferenzergebnisse auf einem XIAO BLE Sense-Board direkt zu sehen, ohne dass eine Verbindung zu einem Computer erforderlich ist.