Computer Vision in der Küche aufbauen

Computer Vision in der Küche aufbauen

Stellen Sie sich vor, wie ein Pizzachef in einer Küche arbeitet. Sie sehen ihn dabei, wie er Mehl abwiegt, Wasser und Hefe hinzufügt, den Teig knetet, ihn aufgehen lässt, während er Pepperoni und andere Beläge schneidet, den Teig ausrollt, die Pizza zusammenstellt und sie in den Ofen schiebt. Obwohl die meisten Menschen nicht in der Lage sind, die Schritte der Pizzaherstellung fließend wie ein erfahrener Koch auszuführen, können sie sehen und identifizieren, was getan wurde.

Kann eine Computer-Vision-Software die gleiche Verbindung herstellen? Der wissenschaftliche Mitarbeiter für Informatik an der SMU, Zhu Bin, hat die Antwort im VISOR (VIdeo Segmentations and Object Relations) gefunden, einem Datensatz, an dem Professor Zhu und seine Mitarbeiter arbeiten. VISOR zielt darauf ab, bestimmte Objekte wie Hände, Messer, Mehl-Schaufeln, Reiben usw. zu umreißen und ihnen in Egocentric-Videos identifizierende Labels zuzuweisen, um Objekte besser zu identifizieren, zu verstehen, wie Hände und Objekte interagieren und eine bessere Argumentation und Verständnis von Objektumwandlungen zu erreichen, wie zum Beispiel Mehl, das zu Teig wird oder eine Kartoffel, die zu Pommes wird.

VISOR bietet über 10 Millionen dichte Markierungen in 2,8 Millionen Bildern, wobei jedes annotierte Element eine Maske hat, die einer Entität (“Messer,” “Gabel,” “Teller,” “Schrank,” “Zwiebel,” “Ei,” usw.) und einer Makrokategorie (“Besteck,” “Gerät,” “Behälter,” “Gemüse,” usw.) zugewiesen ist. VISOR enthält 1.477 kategorisierte Entitäten, die viele Küchenobjekte identifizieren und annotieren. Neben der Identifizierung von Objekten und der Annotation, wie Gegenstände und menschliche Hände interagieren, schlägt VISOR auch eine Aufgabe namens “Woher stammt das?” vor. Hindernisse und zukünftige Verwendungszwecke werden ebenfalls diskutiert, einschließlich der Anwendung von Technologien wie VISOR zur Entwicklung assistiver Technologien für Menschen mit Behinderungen oder ältere Menschen, sowie für die Verwendung im Bereich der Robotik und virtuellen oder erweiterten Realität.