Neue Datensätze zur Erkennung von 3D Objekten

4 min read

Neue Datensätze zur Erkennung von 3D Objekten

Bereiche wie die Robotertechnik, die erweiterte Realität, das unbemannte Fahren beruhen auf der Erkennung von 3D-Eigenschaften von Objekten auf 2D-Bildern. Die dreidimensionale Identifikation von Objekten ist zu einer der Zentralaufgaben von Computervision geworden.

In diesem Bereich wurde eine merkliche Vorwärtsentwicklung nach der Schaffung von Datensätzen mit 3D-Marken auf den zweidimensionalen Objekten (z.B., IKEA, Pascal3D+) erreicht. Doch diese Datensätze sind nicht groß und enthalten nur ungefähr zehn Objektkategorien.

Das ist sehr wenig im Vergleich zu ImageNet oder Microsoft COCO. Es sind riesige Datensätze, die die merkliche Vorwärtsentwicklung in der Klassifikation von Bildern in den letzten Jahren zu erreichen geholfen haben. Große Datensätze mit dreidimensionalen Marken können die Unterscheidung von 3D-Objekten verbessern.

In diesem Artikel berichten wir über einen großen Datensatz, ObjectNet3D, und einige fachbezogene Datensätze zum Erkennen von 3D-Objekten: MVTec ITODD und T-LESS (zur industriellen Aufgabenlösung), und Falling Things (für die Aufgaben der Identifikation von Objekten in der Robotertechnik).

ObjectNet3D

  • Anzahl von Bildern: 90.127
  • Anzahl von Objekten: 201.888
  • Anzahl von Kategorien: 100
  • Anzahl von 3D-Figuren: 44.147
  • Herstellungsjahr: 2016
Ein Beispiel des Bildes aus dem Datensatz ObjectNet3D mit 2D-Obekten und 3D-Marken

ObjectNet3D stellt eine große Datenbank dar, wo Objekte auf den Bildern mit den dreidimensionalen Figuren markiert werden. Marker sichern die strenge Übereinstimmung von dreidimensionalen Figuren und zweidimensionalen Objekten. Die Größe dieses Datensatzes lässt die Aufwärtsentwicklung in der Identifikation von dreidimensionalen Stellungen und Objekten nach den 2D-Bildern erzielen.

Die Ergebnisse der Extraktion der 3D Form. Die ausgewählten Formen sind grün markiert. In der unteren Reihe sieht man zwei Fälle, wo die ähnliche Form von 5 obengenannten Formen nicht gefunden wurde

Um diesen Datensatz zu entwickeln, haben die Forscher aus Leland Stanford Junior University die Bilder aus den vorhandenen Paketquellen verwendet und die Methode des Ausrichtens von dreidimensionalen Figuren für Objekte auf diesen Bildern vorgeschlagen.

In diesem Datensatz werden nur bestimmte Objektkategorien behandelt, für die man viele dreidimensionale Bilder aus dem Internet sammeln kann. Hier ist die komplette Liste von Objektkategorien:

Objektkategorien im Datensatz ObjectNet3D 

2D-Bilder wurden im Datensatz ImageNet und mit Hilfe der Google Bildersuche für die Kategorien gefunden, die bei ImageNet ungenügend abgehandelt waren. 3D-Formen wurden aus den Paketquellen Trimble 3D Warehouse und ShapeNet gewonnen. Für Objekte auf den Bildern wurden 3D-Figuren unter Benutzung des Modells gebildet, das im Artikel ausführlich beschrieben wurde. 3D-Marken wurden allen zweidimensionalen Bildern zugeordnet.

Dieser Datensatz eignet sich für die Erkennung von 2D-Objekten, die gemeinsame Unterscheidung von 2D-Objekten und die 3D-Bewertung von Stellungen, die Extraktion von dreidimensionalen Bildern aus zweidimensionalen.

MVTec ITODD

  • Anzahl von Szenen: 800
  • Anzahl von Objekten: 28
  • Anzahl von 3D-Abwandlungen: 3.500
  • Herstellungsjahr: 2017

MVTec ITODD stellt einen Datensatz zur Erkennung von 3D-Objekten und der Bewertung der Stellung dar, mit Schwerpunkt auf industriellen Anwendungen. Sie enthält 28 Objekte, die sich in 800 Szenen befinden. Die Szenen wurden gleichzeitig von zwei industriellen 3D-Detektoren und drei schwarz-weißen Fotokameras aufgenommen. Das lässt die Methoden bewerten, die mit 3D-Objekten, Bildern oder ihren Kombinationen umgehen. Die Autoren des Datensatzes (MVTec Software GmbH) beschlossen schwarz-weiße Fotokameras anzuwenden, weil sie in der Industrie häufig eingesetzt werden.

Objekte wurden ausgewählt, um den Bereich von verschiedenen Faktoren abzudecken: das Remissionsvermögen, die Symmetrie, die Konstruktion, die Flächigkeit, die Detaillierung, die Kompaktheit und die Größe. Das sind Bilder von allen Objekten mit ihren Benennungen, die zu MVTec ITODD gehören:

Bilder von 28 Objekten, die im Datensatz gebraucht wurden

Für jedes Objekt sind Szenen mit einem oder mehreren Objekten zugänglich. Jede Szene wurde einmal mit jedem von dreidimensionalen Detektoren und zweimal mit jeder der schwarz-weißen Fotokameras aufgenommen: mit und ohne Rausch.

Für alle Objekte sind Modelle CAD zum Lehren von Erkennungsmethoden zugänglich, die manuell gemacht wurden. Echte Objekte werden mit einem  halbautomatischen Ansatz markiert, der auf den dreidimensionalen Angaben des 3D-Detektors basiert, der Bilder in der hohen Qualität erzeugt.

Der Datensatz gilt als die Referenz zur Erkennung und der Bewertung von 3D-Objekten in industriellen Anwendungen.

Т-LESS

  • Anzahl von Bildern: 39.000 trainierende + 10.000 testende (von jedem von drei Detektoren)
  • Anzahl von Objekten: 30
  • Herstellungsjahr: 2017
Beispiele von testenden Bildern aus dem Datensatz T-LESS (links) und ihre 3D-Modelle (rechts). Kopien eines Objekts sind mit der gleichen Farbe markiert

T-LESS stellt einen neuen offenen Datensatz zur Bewertung von 6D-Stellungen dar, d.h. Drehungen von glatten harten Objekten. Dieser Datensatz enthält 30 industrielle Objekte mit der gleichen Textur, Farbe und dem Reflektionsgrad. Manche Objekte sind Teile von anderen Objekten.

Die Autoren von T-LESS haben verschiedene Ansätze zu den trainierenden und testenden Bildern angewendet. Trainierende Bilder in diesem Datensatz sind in Form von abgesonderten Objekten im schwarzen Feld, und testende Bilder — in Form von 20 Szenen mit unterschiedlichem Schwierigkeitsgrad dargestellt. Dies sind die Beispiele von trainierenden und testenden Bildern:

Alle trainierenden und testenden Bilder wurden mit drei synchronisierten Detektoren aufgenommen. Für jedes Objekt gibt es zwei Arten von 3D-Modellen: das Modell CAD, das manuell generiert wurde, und das halbautomatische rekonstruierte Modell.

Der Datensatz ist zur Bewertung von 6D-Stellung des Objekts, Erkennung und Segmentierung von 2D-Objekten und Rekonstruieren von 3D-Objekten nutzbar. Die Anwesenheit von Bildern von drei Detektoren lässt den Einfluss von Faktoren auf die Effektivität der Aufgabenlösung untersuchen.

Oben: Bilder zum Lehren und 3D-Modelle von 30 Objekten. Unten: testende Bilder von 20 Szenen mit echten 3D-Modellen, die mit Farbe markiert sind

Falling Things

  • Anzahl von Bildern: 61.500
  • Anzahl von Objekten: 21 Wirtschaftsgüter
  • Herstellungsjahr: 2018
Beispiel des Bildes aus dem Datensatz FAT

Falling Things (FAT) stellt einen künstlichen Datensatz zur Unterscheidung von 3D-Objekten und der Bewertung der Stellung dar, die von den Fachleuten aus NVIDIA entwickelt wurde. Sie wurde mittels der Positionierung von 3D-Modellen von Objekten für den Haushalt (zum Beispiel, der Flasche mit der Senfcreme, der Suppe usw.) in den virtuellen Umgebungen erzeugt.

Jedes Bild im Datensatz enthält die per-pixel Segmentierung von Klassen, 2D/3D Grenzen von allen Objekten, mono und stereo RGB-Bilder, die Tiefenkarte und 3D- Stellungen. Die Mehrheit  dieser Marken sieht man auf dem oberen Bild.

Der Datensatz FAT enthält viele Objekte, Hintergrundbilder, Kombinationen von Objekten und Lichtbedingungen. Nachstehend einige Beispiele:

Beispiele von Bildern aus dem Datensatz FAT 

Der Datensatz Falling Things stellt eine gute Möglichkeit zur Förderung der Forschungen im Bereich der Erkennung von Objekten und der Bewertung von Stellungen, der Segmentierung, der Bewertung der Tiefe dar.

Schlussfolgerung

Zur Lösung der Aufgabe der Erkennung von 3D Objekten gibt es einige wichtige Applikationen. Aber der Fortschritt in diesem Bereich ist von der Qualität von vorhandenen Datensätzen begrenzt. Neue Datensätze zur Unterscheidung von 3D-Objekten sind in den letzten Jahren erschienen. Sie weisen verschiedene Größe und Eigenschaften auf. Doch jeder von diesen Datensätzen leistet einen nennenswerten Beitrag für die Verbesserung von Systemen der Identifizierung von 3D-Objekten.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.