Rätsel: Vom Viehverfolgung auf die nächste Stufe – Wissenschaftliche Berichte

Rätsel: Vom Viehverfolgung auf die nächste Stufe – Wissenschaftliche Berichte

Der vorliegende Algorithmus namens Puzzle basiert auf dem Wizard-Tracking-Algorithmus, verfolgt jedoch einige Verbesserungen. Der allgemeine Grundsatz dieser Methode besteht darin, die Erkennungen von Yolo zu nutzen und zu erkennen, dass das Tracking in einigen Videosequenzen unkompliziert sein kann. Es ist häufig zu beobachten, dass in bestimmten Sequenzen alle Tiere erkannt werden, ohne Überlappungen oder falsch-negative Erkennungen. In solchen Sequenzen ist das Tracking einfach, und eine Methode, die nur auf den Begrenzungsrahmen (bbox) basiert, ist ausreichend.

Auf einem Tracklet hat dasselbe Tier eine eindeutige ID, die jedoch von einem Tracklet zum nächsten variieren kann. Das Hauptkonzept des Verfahrens besteht darin, ein bestimmtes Tracklet auszuwählen, das als bestes Tracklet bezeichnet wird, von dem aus ein CNN trainiert wird, um Textur-/Erscheinungsinformationen zu extrahieren, um jedes Tier zu identifizieren. Der A-CNN, der auf dem best-track trainiert wurde, wird auf dem Rest des Videos verwendet, um Texturinformationen aus den Erkennungen zu extrahieren.

Sobald der best-Track definiert ist und der A-CNN darauf trainiert wurde, können die Tracklets vergessen werden. Die Inferenz auf dem gesamten Video kann beginnen, die in zwei Schritte unterteilt ist: Vorwärts- und Rückwärtsdurchläufe. Im Vorwärtspass wird das Tracking vom Ende des best-Track bis zum Ende des Videos durchgeführt. Für den Rückwärtspass wird das Tracking vom Anfang des best-Tracks bis zum Start des Videos fortgesetzt. Jeder Durchlauf ist ein ID-Zuweisungsproblem.

Die Hauptverbesserungen von Puzzle gegenüber Wizard sind vielfältig. Zunächst wurde der Zuweisungskosten für die Erstellung von Tracklets neu definiert, um besonders für falsch positive Erkennungen robuster zu sein. Zweitens wurde die Zuweisungskosten für den Vorwärts- und den Rückwärtspass verbessert, indem der Kosten \(C_{i,j}\) nicht als gewichtete Summe von Metriken betrachtet wird, sondern als Ausgabe eines CNNs, das verschiedene Metriken als Eingaben verwendet. Drittens wurde die Struktur des A-CNN geändert, wobei eine Aufmerksamkeitsschicht am Kopf hinzugefügt wurde, um Beleuchtungsänderungen anzugehen, während die Klassifizierungsschicht durch eine Expertenmischung ersetzt wurde. Viertens besteht die Möglichkeit, mehrere best-Tracks manuell zu markieren, um die Verfolgungsergebnisse erheblich zu verbessern.