AI-United » Allgemein » Mesh R-CNN: das Neuronennetz, das die 3D-Form von Objekten modelliert

Mesh R-CNN: das Neuronennetz, das die 3D-Form von Objekten modelliert

Mesh R-CNN

Mesh R-CNN ist die Architektur des Neuronennetzes, die die Form fürObjekte des Eingangsbilds vorhersagt. Das Modell wurde in einem Beitrag von Facebook AI Research (FAIR) beschrieben. Mesh R-CNN übertrifft die vorhandenen fortgeschrittenen Methoden im Bereich der Modellierung von 3D-Objektformen.

Neuere Forschungen im Bereich der Computervision konzentrierten sich auf der Erkennung von Objekten im 2D-Raum. Die 3D-Struktur von Objekten wurde ignoriert. Frühe Modelle, die die 3D-Form von Objekten vorhersagten, konnten die Form auf den realen Bildern für einige Objekte gleichzeitig nicht erkennen. Die Forscher kombinierten die neuesten Lösungen aus diesen Aufgabenbereichen und präsentierten Mesh R-CNN. 

Das Modell erhält das Bild als Eingabe, klassifiziert die Objekte auf dem Bild und bestimmt die Form für sämtliche Objekte im Format des Polygonnetzes (mesh). Das Modell prognostiziert zuerst die Voxel des Objekts, die danach in ein Netz umwandelt werden. Das Polygonnetz ist ein Konzept aus der 3D-Modellierung, der verwendet wird, um die Gesamtheit von Ecken, Kanten und Flächen zu bestimmen, die die Form des Objekts im 3D-Raum beschreiben.

Das Arbeitsschema des Modells

Die Architektur des Modells

Mask R-CNN stellt die Standardmethode zur Erkennung von den Objekten auf den 2D-Bildern dar. Mesh R-CNN ist das End-to-End Modell, das das Modell Mask R-CNN mit Hilfe vom Block erweitert, der das Polygonnetz vorhersagt. Das Modell wurde auf der Datenbasis Pix3D gelehrt.

Der Lernprozess des Modells:

  1. Das Standardmodell Mask R-CNN sagt die Objektklasse vorher, seine Grenzen auf dem Bild und die 2D Maske;
  2. Die annähernde Form des Objekts wird mit Hilfe vom Block mit der Vorhersage der Voxel bestimmt;
  3. Die annähernde Form wird mit Hilfe vom Graphen-Faltungsnetzwerk und den zusätzlichen Modifikationen präzisiert;
  4. Am Output erhält man das Netz für das Objekt
Die Visualisierung des Lehrens des Modells 

Die Einschätzung der Arbeit des Modells

Der Block der Vorhersage der Form (mesh predictor) wurde auf der Datenbasis ShapeNet validiert. Danach wurden die Resultate des Modells mit den Resultaten der konkurrierenden Architekturen verglichen (auf den Daten Pix3D). Unten sieht man, dass das vollständige Modell die früheren Architekturen beim Vorhersagen der 3D-Form von Objekten auf dem Bild wesentlich übertrifft.

Der Vergleich von Mesh R-CNN mit den fortgeschrittenen Ansätzen

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.