Add Thesis

Deep Learning basierte Erkennung von 3D-Objektposen auf Basis synthetisch erzeugter Daten

Written by D. Spallek

Paper category

Master Thesis

Subject

Computer Science

Year

2020

Abstract

Masterarbeit: Objektbeschriftung Um Objekte in der Welt mit Informationen kennzeichnen zu können, zB in Kamerabildern, ist der erste notwendige Schritt, das Objekt zu identifizieren und anschließend die Pose zu bestimmen. Allgemein wird das Verfahren zur Identifizierung bekannter Objekte durch optische, akustische oder andere physikalische Verfahren [5] als Objekterkennung bezeichnet. Es gibt verschiedene Methoden in der Computer Vision, um die Existenz eines Objekts oder seine Position und Position in einem Bild zu bestimmen. Dabei lassen sich grob das Analyseverfahren der Bildverarbeitung und das Deep-Learning-Verfahren der Künstlichen Intelligenz unterscheiden. In diesem Abschnitt eine grobe Einführung in die Analysemethode und der Übergang zu der für diese Arbeit verwendeten Methode des maschinellen Lernens. 2.4.1 Analysemethoden In der Computer Vision werden üblicherweise sogenannte Features verwendet, um Objekte zu identifizieren. Dabei beschreibt das Merkmal beispielsweise eine für das Objekt einzigartige optische Komponente, die bei der Erkennung des Objekts eine entscheidende Rolle spielt. Diese Funktionen verwenden Deskriptoren, die zu Analysemethoden gehören, wie SIFT, SURF und ORB. Der Deskriptor ist ein Vektor, dessen Aufgabe es ist, die Umgebung des gefundenen Merkmals zu beschreiben, damit das Merkmal in anderen Bildern gefunden werden kann. Laut Shaharyar Ahmed Khan Tareen und anderen ist dies eine gute Beschreibung. [43] Behalten Sie die Rotation und die unterschiedliche Beleuchtung unverändert bei und beziehen Sie alle nützlichen Informationen ein, um wichtige Entscheidungen in Vision-basierten Anwendungen zu treffen. SIFTSIFT ist eine von David G. Lowe [26] vorgeschlagene Methode zur Extraktion invarianten Unterscheidungsmerkmale, mit der verschiedene Ansichten von Objekten zuverlässig verglichen werden können. Diese Merkmale sind unabhängig von Abbildungsmaßstab und Bilddrehung und zeigen einen robusten Vergleich in einem beträchtlichen Bereich von beträchtlicher geringfügiger Verzerrung, 3D-Betrachtungswinkeländerungen, Bildrauschen und Beleuchtungsänderungen. In diesem Fall ist die Verwendung von SIFT zum Extrahieren von Merkmalen für die Objekterkennung geeignet. Die Erkennung erfolgt unter Verwendung eines schnellen Algorithmus der nächsten Nachbarn, um ein einzelnes Merkmal einer Datenbank mit bekannten Objektmerkmalen zuzuordnen [21]. Gefolgt von der Hough-Transformation [18], indem die kleinsten Quadrate gelöst werden, um konsistente Posenparameter zu bestimmen, um Cluster zu identifizieren und zu verifizieren. Mit dieser Erkennungsmethode können überladene und verdeckte Objekte zuverlässig identifiziert werden. Deep Learning Eines der Probleme bei tiefen neuronalen Netzen ist das Verschwinden von Gradienten. In diesem Fall, wenn das neuronale Netz zu tief wird, nimmt ihre Lernfähigkeit ab. Deep Learning trainiert jedoch genau die künstliche Intelligenz, um Fähigkeiten auf mehreren Ebenen zu erlernen. In diesem Fall haben Jonathan Tremblay et al. in dieser Arbeit die Methode der Gestenerkennung verwendet. [48] ​​​​Besonders mit Convolutional Pose Machine (CPM) [49]. Dieses Verfahren verwendet eine sogenannte "Zwischenüberwachung", um das Problem des verschwindenden Gradienten des Faltungsgitters erfolgreich zu lindern. Für eine genauere Erläuterung von CPM möchte ich zu diesem Punkt auch auf [41] verweisen. 2.5 Realitätslücke Laut Inman Harvey [15] ist die Übertragbarkeit von Verhalten aus einer simulierten Umgebung auf die Realität an dieser Stelle eine der größten Schwierigkeiten. Robotertechnik. Laut Jonathan Tremblay et al. tritt dieses Problem bei der auf Deep Learning basierenden 3D-Objekt-Gestenerkennung basierend auf synthetischen Daten in gewissem Umfang wieder auf. [46] Faktoren wie der Grad der Unschärfe, Textur und Haltung des Objekts sowie verschiedene Licht- und Schattenbedingungen müssen berücksichtigt werden. Dies wirkt sich negativ auf das mittels Deep Learning trainierte Modell aus, da das Modell für diese Faktoren nicht robust genug ist. In diesem Fall ist es wichtig, die Realitätslücke zwischen synthetisch erzeugten Daten und Daten aus der Realität zu minimieren. 2.5.1 Synthetische Datenanreicherung Der wichtigste Faktor für ein erfolgreiches neuronales Netztraining sind Daten, aber Daten sind meist gar nicht oder nur in eingeschränkter Form vorhanden. Darüber hinaus müssen die Quantität und Qualität der Daten je nach Anwendung hoch sein [39]. Eine alternative Lösung hierfür bietet die Datenanreicherung. In diesem Fall demonstrierten Luis Perez und Jason Wang [35] die Effektivität der Datenerweiterung mit einfachen Techniken wie dem Zuschneiden, Drehen und Spiegeln des Eingabebilds. Synthetischer Bilddatensatz Um in dieser Arbeit mit der Variabilität von Daten aus der realen Welt umzugehen, basiert das zur Gestenerkennung verwendete Netzwerk auf einer synthetischen „Data Augmentation“-Technik der Domänenrandomisierung, bei der die Parameter des Simulators B. Beleuchtung, Körperhaltung und Objekttextur.Zufällig auf unrealistische Weise randomisieren, um das neuronale Netz zu zwingen, die grundlegenden Eigenschaften des zu erkennenden Objekts zu lernen. NVIDIA Deep Learning Data Assembler [44], ebenfalls geschrieben von Jonathan Tremblay et al. [46] Wie die synthetischen Daten dieser Arbeit entstanden sind, erfahren Sie in [42]. Read Less