Der Bereich der Computer Vision (CV) hat sich in den letzten Jahren rasant entwickelt und durchdringt nun viele Bereiche unseres täglichen Lebens. Für den Durchschnittsbürger mag es wie eine neue und aufregende Innovation erscheinen, aber dies ist nicht der Fall. CV hat tatsächlich über Jahrzehnte hinweg evolutioniert, wobei Studien aus den 1970er Jahren die frühen Grundlagen für viele der heute verwendeten Algorithmen bildeten. Vor etwa 10 Jahren tauchte eine noch in der Theorieentwicklung befindliche Technik auf: Deep Learning, eine Form der KI, die neurale Netzwerke nutzt, um unglaublich komplexe Probleme zu lösen – sofern Sie über die Daten und Rechenleistung verfügen.
Mit der Weiterentwicklung des Deep Learning wurde klar, dass es bestimmte CV-Probleme besonders gut lösen konnte. Herausforderungen wie Objekterkennung und -klassifizierung waren besonders gut für die Verwendung von Deep Learning geeignet. An diesem Punkt begann sich eine Unterscheidung zwischen dem “klassischen” CV zu bilden, das auf der Fähigkeit von Ingenieuren beruhte, mathematische Probleme zu formulieren und zu lösen, und dem auf Deep Learning basierenden CV.
Deep Learning hat das klassische CV nicht obsolet gemacht; beide haben weiterentwickelt und beleuchten, welche Herausforderungen am besten mit großen Datenmengen gelöst werden können und welche weiterhin mit mathematischen und geometrischen Algorithmen gelöst werden sollten.
Obwohl Deep Learning zweifellos das Feld revolutioniert hat, wenn es um bestimmte Herausforderungen geht, die durch simultane Lokalisierung und Kartierung (SLAM) und Struktur aus Bewegung (SFM) Algorithmen adressiert werden, übernehmen die klassischen CV-Lösungen immer noch die Nase vorn. Diese Konzepte beinhalten beide die Verwendung von Bildern, um die Abmessungen physischer Bereiche zu verstehen und zu kartieren. SLAM konzentriert sich darauf, eine Karte eines Gebiets zu erstellen und zu aktualisieren, während der Agent (typischerweise eine Art von Roboter) und sein Platz innerhalb der Karte verfolgt werden. SFM beruht ebenfalls auf fortgeschrittener Mathematik und Geometrie, hat aber zum Ziel, eine 3D-Rekonstruktion eines Objekts mit mehreren Ansichten zu erstellen, die aus einem ungeordneten Satz von Bildern aufgenommen werden können.
In den nächsten Jahren wird “Verstehen” wahrscheinlich “Lernen” als Schwerpunkt in der Netzwerkentwicklung ablösen. Der Schwerpunkt wird nicht mehr darauf liegen, wie viel das Netzwerk lernen kann, sondern vielmehr darauf, wie tief es Informationen verstehen kann und wie wir dieses Verständnis erleichtern können, ohne es mit übermäßigen Daten zu überfordern. Unser Ziel sollte es sein, dem Netzwerk zu ermöglichen, tiefgreifende Schlussfolgerungen mit minimalem Eingriff zu ziehen.
Hinterlasse eine Antwort