Stellen Sie sich vor, Sie werfen einen Blick auf eine belebte Straße für einige Momente und versuchen dann, die Szene aus dem Gedächtnis zu skizzieren. Die meisten Menschen könnten die grobe Position der Hauptobjekte wie Autos, Menschen und Fußgängerüberwege zeichnen, aber fast niemand kann jedes Detail mit pixelgenauer Genauigkeit zeichnen. Das Gleiche trifft auf die meisten modernen Computer-Vision-Algorithmen zu: Sie sind fantastisch darin, hochrangige Details einer Szene zu erfassen, verlieren jedoch feingliedrige Details, während sie Informationen verarbeiten.
Forscher des MIT haben nun ein System namens “FeatUp” entwickelt, das es Algorithmen ermöglicht, alle hoch- und niedrigstufigen Details einer Szene gleichzeitig zu erfassen – fast wie Lasik-Augenchirurgie für die Computer Vision.
Wenn Computer lernen, aus Bildern und Videos “zu sehen”, entwickeln sie “Ideen” darüber, was sich in einer Szene befindet, durch etwas, das als “Merkmale” bezeichnet wird. Um diese Merkmale zu erstellen, zerlegen tiefe Netzwerke und visuelle Grundlagenmodelle Bilder in ein Raster winziger Quadrate und verarbeiten diese Quadrate als Gruppe, um festzustellen, was in einem Foto vor sich geht. Jedes winzige Quadrat besteht in der Regel aus 16 bis 32 Pixeln, daher ist die Auflösung dieser Algorithmen dramatisch geringer als die Bilder, mit denen sie arbeiten. Beim Versuch, Fotos zusammenzufassen und zu verstehen, verlieren Algorithmen eine Menge Pixelklarheit.
Der FeatUp-Algorithmus kann diesen Informationsverlust stoppen und die Auflösung eines beliebigen tiefen Netzwerks ohne Kompromisse bei Geschwindigkeit oder Qualität erhöhen. Dies ermöglicht es Forschern, schnell und einfach die Auflösung eines neuen oder bestehenden Algorithmus zu verbessern. Zum Beispiel stellt man sich vor, man versuche, die Vorhersagen eines Algorithmus zur Lungenkrebserkennung zu interpretieren, um den Tumor zu lokalisieren. Die Anwendung von FeatUp, bevor man den Algorithmus mit einer Methode wie Class Activation Maps (CAM) interpretiert, kann eine dramatisch detaillierte (16-32-fache) Ansicht darüber liefern, wo sich der Tumor möglicherweise befindet, gemäß dem Modell.
FeatUp hilft nicht nur den Praktikern, ihre Modelle zu verstehen, sondern kann auch eine Vielzahl verschiedener Aufgaben wie Objekterkennung, semantische Segmentierung (Zuordnung von Beschriftungen zu Pixeln in einem Bild mit Objektbeschriftungen) und Tiefenschätzung verbessern. Dies wird durch präzisere, hochauflösende Merkmale erreicht, die entscheidend sind für den Aufbau von Vision-Anwendungen von autonomen Fahren bis hin zur medizinischen Bildgebung.
Die Methode basiert auf dem Verschieben und Kippen von Bildern, um herauszufinden, wie ein Algorithmus auf diese leichten Bewegungen des Bildes reagiert. Dabei entstehen Hunderte von Tiefenmerkmalskarten, die alle leicht unterschiedlich sind und zu einer einzigen klaren, hochauflösenden Menge von Tiefenmerkmalen kombiniert werden können.
Das Team weist darauf hin, dass Standardwerkzeuge, die in PyTorch verfügbar sind, nicht ausreichten, um ihren Anforderungen gerecht zu werden, und führte eine neue Art von tiefem Netzwerkschicht in ihrer Suche nach einer schnellen und effizienten Lösung ein. Ihre benutzerdefinierte Schicht, eine spezielle gemeinsame bilaterale Upsampling-Operation, war über 100 Mal effizienter als eine naive Implementierung in PyTorch. Die Forscher zeigten auch, dass diese neue Schicht verschiedene Algorithmen wie semantische Segmentierung und Tiefenschätzung verbessern konnte. Dies verbesserte die Fähigkeit des Netzwerks, hochauflösende Details zu verarbeiten und zu verstehen, und verlieh jedem Algorithmus, der sie verwendete, einen erheblichen Leistungsschub.
Die Forscher betonen das Potenzial einer weit verbreiteten Nutzung von FeatUp innerhalb der Forschungsgemeinschaft und darüber hinaus, ähnlich wie bei Datenvergrößerungspraktiken. Ihr Ziel ist es, diese Methode zu einem grundlegenden Werkzeug im Bereich des Deep Learnings zu machen, um Modelle zu ermöglichen, die Welt mit größerer Genauigkeit wahrzunehmen, ohne die Rechenineffizienz herkömmlicher Hochauflösungsverarbeitung. Die Autoren Fu und Hamilton werden begleitet von den MIT PhD-Studenten Laura Brandt, Axel Feldmann und Zhoutong Zhang. Ihre Forschung wird unter anderem durch ein National Science Foundation Graduate Research Fellowship, die National Science Foundation und das Office of the Director of National Intelligence, die U.S. Air Force Research Laboratory und den U.S. Air Force Artificial Intelligence Accelerator unterstützt.
Hinterlasse eine Antwort