In den durchgeführten Experimenten wurde eine NVIDIA A100-SXM 81GB Grafikkarte und 12 AMD EPYC 7742 64-Core-Prozessoren für das Training aller Modelle verwendet. Der Ansatz in den Experimenten basiert auf einer Kostenfunktion, die auf der multiskaligen strukturellen Ähnlichkeit (MS-SSIM) Methode beruht. Diese Methode ermöglicht eine umfassende Bewertung der Bildqualität durch Berücksichtigung von Bilddetails über eine Reihe von Auflösungen hinweg. Der MS-SSIM-Prozess umfasst eine iterative Anwendung eines Tiefpassfilters und eine Verkleinerung des gefilterten Bildes, wobei jeder Durchgang eine neue Skala definiert, die in der höchsten Skala kulminiert.
Die Gesamtqualitätsbewertung im MS-SSIM kombiniert diese Messungen aus allen Skalen und verwendet anpassbare Parameter zur Berücksichtigung der relativen Bedeutung jedes Komponenten auf jeder Skala. Für die Berechnung des MS-SSIM wurde das PyTorch Image Quality Assessment-Paket mit seinen Standardparametern verwendet. Während des Trainings von ELD-Landmarken können die Landmarken in einem lokalen Minimum stecken bleiben, was oft dazu führt, dass viele Landmarken ähnliche Positionen einnehmen. Um diesem entgegenzuwirken, wird eine Technik namens Landmarkeilöschung verwendet.
Während des Trainings können durch Datenverarbeitungsaufgaben wie das Zuschneiden von Bildern, die Schwierigkeiten bei der Registrierung von zwei Bildern aufgrund fehlender Bereiche auftreten. Dies kann das Modell verwirren. Um dieses Problem zu beheben, wird ein Zuschneideverfahren für die registrierten und abgebildeten Bilder durchgeführt. Das Training von ELD basiert auf einem tiefen neuronalen Netzwerk zur Erkennung von Landmarken und TPS zur Bildregistrierung. Die Landmarkenerkennung verbessert sich durch ein Training, das den Verlust minimiert und den Detektor ermutigt, entsprechende Landmarken in beiden Bildern zu identifizieren. All dies trägt zur Genauigkeit der Registrierung bei.
Hinterlasse eine Antwort