Warum ist die Implementierung von Computer Vision schwer?

Warum ist die Implementierung von Computer Vision schwer?

Computer Vision hat in den letzten Jahren ein schnelles Wachstum erlebt, hauptsächlich aufgrund des Deep Learnings, das die Möglichkeit bietet, Hindernisse zu erkennen, Bilder zu segmentieren oder wichtigen Kontext aus einer gegebenen Szene zu extrahieren. Aus biologischer Sicht versucht die Computer Vision, computergestützte Modelle des menschlichen visuellen Systems zu entwickeln. Aus ingenieurwissenschaftlicher Sicht besteht das Ziel der Computer Vision darin, autonome Systeme zu schaffen, die einige der Aufgaben ausführen können, die das menschliche visuelle System ausführen kann und es in vielen Fällen sogar übertreffen können. Computer Vision ist jedoch äußerst komplex umzusetzen.

Einige der grundlegenden Schwierigkeiten in der Computer Vision sind beispielsweise, wie die riesige Menge menschlicher Erfahrung auf einem Computer extrahiert und dargestellt werden kann, so dass der Abruf einfach ist. Dies erfordert eine enorme Menge an Berechnungen, um Aufgaben wie Gesichtserkennung oder autonomes Fahren in Echtzeit ausführen zu können.

Visionäre Aufgaben in Bereichen wie autonomem Fahren sind besonders herausfordernd. Forscher arbeiten daran, das notwendige Wissen zur Umsetzung autonomer Fahrzeuge zu verstehen. Tesla arbeitet beispielsweise an etwas namens Autopilot, einem primär auf Vision basierenden System. Während andere Technologien selbstfahrenden Fahrzeugen dabei helfen können, Hindernisse zu erkennen und zu umfahren, hilft die Computer Vision dabei, Verkehrsschilder zu lesen und die Verkehrsregeln für maximale Sicherheit einzuhalten.

Laut Jitendra Malik, einem renommierten Experten für Computer Vision, ist er optimistisch, was vollautomatisiertes Fahren in naher Zukunft angeht. Malik zufolge wird in 0,01 % der Fälle ein sehr komplexes logisches Denken erforderlich sein. Die geringsten Fehler beim Fahren mit sechzig Meilen pro Stunde könnten potenziell tödlich sein. Malik betont, dass der Großteil dessen, was wir in der Vision tun, unbewusst oder unterbewusst geschieht. Diese Mühelosigkeit gibt uns das Gefühl, dass dies auf einem Computer sehr einfach umzusetzen sei, jedoch sei die Realität viel komplexer als gedacht.

Ein weiterer Grund, warum Computer Vision herausfordernd ist, besteht darin, dass Maschinen Bilder als Zahlen wahrnehmen, die einzelne Pixel repräsentieren, während Menschen Fotos als Objekte auf eine hoch visuelle und intuitive Weise wahrnehmen. Es ist für Maschinen sicherlich schwierig, all diese Daten zu verarbeiten, wenn sie ein Computer-Vision-Modell trainieren. Zudem machen komplexe visuelle Aufgaben für Maschinen die benötigten Rechen- und Datenressourcen noch herausfordernder.

Forscher haben sich stark auf die Verarbeitung einzelner Bilder konzentriert. Historisch gesehen mussten die Einschränkungen der verfügbaren Rechenkapazitäten berücksichtigt werden. Viele Entscheidungen in der Computer Vision-Community werden durch den Mangel an Rechenressourcen beeinflusst. Dies führte dazu, dass sich die Forschung stark auf einzelne Bilder statt auf Videos konzentrierte. Heutzutage sind keine Probleme mehr mit der Rechenleistung vorhanden, und die Bedürfnisse der Einzelbild-Computer Vision können recht komfortabel erfüllt werden. Videos sind jedoch aufgrund der Herausforderungen bei der Videoverarbeitung immer noch unteruntersucht.