Datenvergrößerung zur Verbesserung der Modellleistung in der Computer Vision

Datenvergrößerung zur Verbesserung der Modellleistung in der Computer Vision

Die Rotation von Bildern ermöglicht es, ein Modell unempfindlich gegenüber der Ausrichtung eines Objekts zu machen, z. B. sollte ein Modell, das dazu erstellt wurde, Katzen zu identifizieren, in der Lage sein, eine Katze im Allgemeinen zu identifizieren, unabhhängig davon, wie das Bild gedreht wurde. Das Spiegeln von Bildern horizontal und vertikal sind einfache, aber effektive Möglichkeiten, um mehr Vielfalt in den Trainingsdaten zu erhalten. Das horizontale Spiegeln des Bildes ist besonders nützlich, wenn das Objekt von Interesse symmetrisch ist, wie beispielsweise das Gesicht einer Person oder ein Fahrzeug.

Die Änderung der Skalierung eines Bildes sorgt dafür, dass verschiedene Versionen desselben Bildes in unterschiedlichen Größen entstehen. Durch die Anwendung dieser spezifischen Technik wird Ihr Modell in der Lage sein, Objekte in verschiedenen Entfernungen oder Größen zu erkennen, wodurch es anpassungsfähiger an die Realität wird. Das zufällige Bescheiden von Teilen eines Bildes kann Variationen der Position von Objekten im Bild einführen. Dies ermutigt das Modell, sich auf verschiedene Teile des Objekts zu konzentrieren und verbessert seine Fähigkeit, Objekte in unterschiedlichen Kontexten zu erkennen.

Die Änderung der Helligkeit, des Kontrasts, der Sättigung und des Farbtons eines Bildes kann simulieren unterschiedliche Lichtverhältnisse. Dies ist besonders in Bedingungen wie Außenansichten sinnvoll, wo das Licht im Laufe des Tages dramatisch wechseln kann. Das Einfügen von zufälligem Rauschen in ein Bild ermöglicht es dem Modell, robuster zu werden, um mit verrauschten Daten umgehen zu können. Affine Transformationen verzerren das Bild geometrisch, wodurch das Modell die Fähigkeit erlangt, deformierte oder teilweise verborgene Objekte zu erkennen.

“Cutout” bezieht sich auf die Methode, zufällig rechteckige Teile von Eingangsbildern zu maskieren. Dies ermöglicht es dem Modell, sich auf den Kontext des restlichen Bildes zu konzentrieren, so dass es sich nicht stark auf einen bestimmten Teil des Bildes stützt. Beim “Mix-up” werden zwei Bilder gemischt, um ein neues synthetisches Bild zu erzeugen, wobei ihre Labels proportional gemischt werden. Dies bietet eine Möglichkeit, mehr Variation in den Daten hinzuzufügen, was dazu beitragen kann, die Generalisierung des Modells zu verbessern.