AI-United » Allgemein » Neue Datenbasen zur Bewertung der 3D Haltung

Neue Datenbasen zur Bewertung der 3D Haltung

Neue Datenbasen zur Bewertung der 3D Haltung

Die Bewertung der 3D Haltung ist eine grundlegende Aufgabe der Computervision. Die Fähigkeit des Computers, Menschen auf den Bildern und Videos zu erkennen wird im unbemannten Fahren, der Mensch-Computer-Interaktion, der erweiterten Realität und der Robotertechnik eingesetzt.

Die Wissenschaftler haben in den letzten Jahren einen Fortschritt in der Bewertung von 2D Haltungen erreicht. Das Vorhandensein von großen markierten Datensätzen von Haltungen der Menschen ist ein wichtiger Erfolgsfaktor. Diese Datensätze lassen das Netzwerk die 2D Haltungen erkennen. Die Erfolge in der Bewertung der 3D Haltung sind beschränkt, weil es schwierig ist, Informationen über die Bewegungen, die Segmentierung von Körperteilen und die Okklusion zu erhalten.

Im Artikel präsentieren wir drei neulich entwickelte Datensätze, die den Mangel an annotierten Datenbasen zur Bewertung der 3D Haltung beseitigen.

DensePose

  • Anzahl von Bildern: 50.000
  • Anzahl der Tags: 5.000.000
  • Erscheinungsjahr: 2018

DensePose ist die große Datenbasis mit den Tags der Äquivalenz: das Bild – die Oberfläche, die auf 50.000 Bildern markiert wurde. Dieser Datensatz wurde von Facebook AI Research erstellt. Die Mitarbeiter stellten die Äquivalenz der Tiefe auf den 2D Bildern und der Oberfläche mit Hilfe von der Programmunterstützung fest, die speziell zum Annotieren entwickelt wurde.

Im ersten Stadium bestimmten die Mitarbeiter die Gegenden, die den erkennbaren, semantisch festgelegten Körperteilen entsprechen. Im zweiten Stadium wird jedes Teil der Gegend auf Untergebiete mit Hilfe von Punkten aufgeteilt. Die Annotierer bringen diese Punkte in Übereinstimmung mit der Oberfläche. Die Forscher wollen der Drehung der Oberfläche entgehen. Deshalb hatten die Mitarbeiter 6 Bilder aus verschiedenen Blickwinkeln zur Verfügung, so konnten sie die Tags aus jedem Blickwinkel stellen.

Das Schema des Annotierens

Unten sind die Annotationsvisualisierungen auf den Bildern aus dem Testset: Bilder (links), U (in der Mitte) und V (rechts) für die gesammelten Punkte.

Die Visualisierung der Annotationen

DensePose stellt die erste manuell gesammelte wahre Datenbasis zur Bewertung der Haltung nach der Tiefe dar.

SURREAL

  • Anzahl von Bildbereichen: 6.500.000
  • Anzahl von Objekten: 145
  • Erscheinungsjahr: 2017
Erstellen von realistischen künstlichen Bildern

SURREAL (Synthetic hUmans foR REAL tasks) ist der neue große Datensatzmit den künstlichen realistischen Bildern von Menschen, die man mit Hilfe von Motion Capture erhält. Sie enthält 6 Millionen Bildbereiche mit den Annotationen wie Haltung, Tiefenkarte und Maske der Segmentierung.

Die Bilder bei SURREAL werden aus den dreidimensionalen Datenketten MoCap generiert. Der Realismus von künstlichen Bildern ist beschränkt. Um den Realismus von menschlichen Körpern im Datensatz zu sichern, beschlossen die Forscher künstliche Körper unter Benutzung des Modells SMPL zu schaffen. Seine Parameter wurden mit Hilfe von MoSh nach den unbearbeiteten 3D-Markern MoCap angepasst. Die Autoren des Datensatzes SURREAL haben eine große Vielfalt von Blickwinkeln, Kleidungen und der Beleuchtung bereitsgestellt.

Im Nachstehenden ist ein Diagramm dargestellt, wie man ein künstliches Modell des menschlichen Körpers erstellt:

  • Der Mensch wird fotografiert, um das 3D Modell des Körpers zu erhalten;
  • Dann erfolgt das Rendering von Bildbereichen unter Benutzung des Hintergrundbilds, der Karte der Textur des Körpers, der Beleuchtung und der Stellung der Kammer;
  • Alle Komponenten werden generiert, um die Vielfalt von Daten zu steigern;
  • RGB Bilder werden von den 2D/3D Stellungen, dem Lichtstrom, den Tiefenkarten und den Karten der Segmentierung von Körperteilen begleitet.
Künstliches Datenerfassungsschema

Dieser Datensatz enthält 145 Objekte, >67.5 Tausend Videos und >6.5 Millionen Bildbereiche:

Obwohl SURREAL künstliche Bilder enthält, lassen CNN-Netzwerke die präzise Bewertung der Tiefenkarte und die Segmentierung von Körperteilen in echten RGB Bildern erhalten. Dieser Datensatz bietet neue Möglichkeiten zur Verbesserung der Methoden der Bewertung von 3D Haltungen unter Einsatz einer großen Anzahl von künstlichen Daten.

UP-3D

  • Anzahl von Objekten: 5.569
  • Anzahl von Bildern: 5.569 Bilder zum Lehren und 1.208 Bilder zum Testen
  • Erscheinungsjahr: 2017
Unten: Die generierten Modelle des 3D Körpers in verschiedenen Datensätzen, die dem UP-3D als Grundlage dienen. Oben: die verbesserten 3D-Modelle erweitern den initialen Datensatz

UP-3D ist der Datensatz, der Menschen aus verschiedenen Datensätzen zur Lösung vieler Aufgaben vereinigt. Unter Einsatz der Methode SMPLify haben die Forscher das hochwertige dreidimensionale Modell des menschlichen Körpers erhalten. Die Annotierer sortierten manuell die Modelle in gute und schlechte.

Dieser Datensatz vereinigt zwei Datensätze LSP (11.000 Bilder zum Lehren und 1.000 Bilder zum Testen) und ein Teil der Datenbasis MPII-HumanPose (13.030 Bilder zum Lehren und 2.622 Bilder zum Testen). Obwohl die Forscher die automatische Segmentierung zur Generierung von Schattenrissen des Vordergrundes verwenden könnten, beschlossen sie, die Mitarbeiter zum Annotieren miteinzubeziehen. Die Wissenschaftler schafften das interaktive Instrument zur Annotierung oberhalb des Stapels Opensurfaces zur Arbeit mit Amazon Mechanical Turk (AMT) und verwendeten den interaktiven Algorithmus Grabcut.

Die Aufgabe der Annotierer lag darin, die Schattenrisse des Vordergrundes zu erkennen und die Segmentierung auf 6 Körperteile zu machen.

Im Schnitt dauert die Markierung des Vordergrundes 108 Sekunden bei LSP und 168 Sekunden bei MPII, die Segmentierung dauert zweimal länger: 236 Sekunden.

Die Annotierer sortierten manuell die Modelle in gute und schlechte. Unten gibt es einen Prozentsatz von zugelassenen Modellen in jedem Datensatz:

Die zugelassenen Modelle bildeten den Datensatz UP-3D mit 5.569 Bildern zum Lehren und 1.208 Bildern zum Testen. Nach den Experimenten mit der semantischen Segmentierung von Körperteilen, der Bewertung der Haltung haben die verbesserten 3D-Modelle den ursprünglichen Datensatz erweitert.

Die Resultate der Arbeit von verschiedenen Methoden, die mit den Tag gelehrt wurden, die mit Hilfe des Datensatzes UP-3D erstellt wurden

Der Datensatz setzt neue Maßstäbe der Detaillierung mit 31 Markern zur semantischen Segmentierung von Körperteilen mit der hohen Präzision und 91 Markern zur Bewertung der menschlichen Haltung. Das Lehren unter Verwendung von 91 Markern verbessert die Qualität der Bewertung der dreidimensionalen menschlichen Haltung auf zwei populären Datensätzen HumanEva und Human3.6M.

Die Zusammenfassung

Es gibt verschiedene Ansätze zur Erstellung von Datensätzen zur Bewertung der dreidimensionalen menschlichen Haltung. Die Datensätze aus diesem Artikel konzentrieren sich auf verschiedene Aspekte der Erkennung von Menschen auf Bildern. Sie alle können zur Bewertung der menschlichen Haltung in realen Applikationen nützlich sein.

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.