AI-United » Allgemein » Die neue Methode der Übertragung der Bewegung von Videos auf virtuelle Figuren

Die neue Methode der Übertragung der Bewegung von Videos auf virtuelle Figuren

Die Erstellung von realistischen Figuren, die den Menschen ähnlich sind, ist eine wichtige Aufgabe der Computeranimation. Die Animation von Figuren wird im Erstellen von Cartoons, Computerspielen, Spezialeffekten im Kino und der virtuellen Realität eingesetzt.

Frühere Ansätze

Die Animation von Figuren stellt die anspruchsvolle Aufgabe mit vielen Stadien dar. Die Automatisierung von Stadien könnte den Prozess vereinfachen und beschleunigen.

Die ersten Versuche der Automatisierung basierten auf dem Erfassen von Physik und Biomechanik. Man versuchte Bewegungsmodelle für die virtuellen Figuren zu formulieren und nachzubilden. Vor kurzem begann man die Ansätze zu untersuchen, die auf der Arbeit mit den Daten basieren. Doch die Mehrzahl solcher Ansätze gründen sich auf Motion Capture, welches teure Instrumente und komplizierte Vorbearbeitung verlangt.

Die neue Idee

Forscher aus Berkeley AI Research in University of California, Berkeley haben neulich eine neue Herangehensweise vorgeschlagen, die auf Reinforcement Learning basiert, um Figuren Bewegungen von Videos zu lehren.

Die Methode kombiniert die Einschätzung von Bewegungen aus Video und Reinforcement Learning. Sie kann die Bewegung von Videos auf die Animationsfigur übertragen. Der vorgeschlagene Ansatz kann die Bewegung des Menschen mit Hilfe von statischen Bildern vorhersagen.

Das Schema der Methode zum Lehren akrobatischer Bewegungen mit Hilfe von Videos von Youtube

Die Methode

Die Forscher haben das Framework angeboten, das auf dem Input Videos erhält und die Figur modelliert, die die Bewegungen imitiert. Der Ansatz gründet sich auf der Einschätzung der Haltung in den Bildbereichen von Video, die zur Wiederherstellung der Bewegung und ihrer Imitation verwendet wird.

Das Eingangsvideo wird auf dem Stadium der Einschätzung der Haltung bearbeitet, wo zur Einschätzung der Haltung in jedem Bildbereich Einschätzungen der 2D und 3D Haltungen verwendet werden. Die Haltungen werden auf das Stadium der Wiederherstellung der Bewegung geschickt, wo die Bewegungslinie optimiert wird. Sie stimmt mit den 2D und 3D Vorhersagen der Haltung überein. Die Bezugsbewegung wird auf dem Stadium der Imitation der Bewegung angewendet, wo das Lehren stattfindet, damit die Bewegung von Figuren die Bezugsbewegung in der modellierbaren Umgebung nachbildet.

Das Stadium der Einschätzung der Haltung

Am Anfang befindet sich das Stadium der Einschätzung der Haltung. Das Ziel dieses Stadiums ist die Einschätzung der Haltung mit einem statischen Bild, mit jedem Bildbereich auf dem Video. In diesem Stadium sollte man einige Probleme lösen, um eine genaue Einschätzung der Haltung zu erhalten. Die Veränderlichkeit der Körperhaltung bei verschiedenen Menschen, die die gleiche Bewegung machen, ist sehr hoch. Die Einschätzung der Haltung sollte in jedem Bildbereich unabhängig vom vorherigen oder nächsten Bildbereich erfüllt werden.

Um diese Probleme zu lösen, schlagen die Forscher vor, die geprüften Methoden der Einschätzung der Haltung und die einfache Methode der Augmentation von Daten zur Verbesserung von Vorhersagen der Haltung bei der Durchführung von akrobatischen Bewegungen  zu verwenden.

Die Wissenschaftler haben das Modell auf der erweiterten Datenbasis gelehrt und die Einschätzung der 2D und 3D Haltung für jeden Bildbereich erhalten, die 2D und 3D Bewegungslinien bestimmen.

Der Vergleich von Bewegungen, die auf verschiedenen Stadien zur Modellierung des Sprungs generiert wurden. Von oben nach unten: das Eingangsvideo, die Einschätzung der 3D-Haltung, die Einschätzung der 2D-Haltung, die modellierbare Figur.

Das Stadium der Wiederherstellung der Bewegung

Auf dem Stadium der Wiederherstellung der Bewegung kommen unabhängige Vorhersagen zur Bezugsbewegung. Das Ziel des Stadiums liegt in der Verbesserung der Qualität von Bezugsbewegungen durch die Fehlerkorrektur und das Löschen von Bewegungsartefakten. Nach dem Erachten der Forscher erscheinen diese Artefakte der Bewegung durch die unangepassten Vorhersagen in den Nachbarbildbereichen.

In diesem Stadium wird die Optimierung der allgemeinen Leitbahn der dreidimensionalen Haltung zur Einschätzung der Haltung angewendet. Die Optimierung erfolgt in der versteckten Schicht unter Einsatz der Architektur Kodierer-Dekodierer.

Das Stadium der Imitation der Bewegung

Im Schlussstadium wird Deep Reinforcement Learning verwendet. Das Ziel des maschinellen Lernens besteht im Lehren des Netzwerks, damit die Figur die Bewegungen nachbildet. Die Ausgangsbewegung wird zur Bestimmung des Resultats der Modellierung verwendet. Dann erfolgt die Vorbereitung der Methode zur Imitation dieser Bewegung.

Zur Verbesserung der Methode wird die Funktion der Belohnung eingeführt, die die Figur stimuliert, um den Unterschied der Drehung der Körperteile bei der Bewegung von der Bezugsbewegung besser zu erkennen. Tatsächlich erfolgt die Berechnung der Quaternion Unterscheide zwischen der Drehung des Gelenks der Figur und der Drehung der gesonderten Bezugsbewegung.

Das Resultat der Methode: die Figuren imitieren die Bewegung

Die Ergebnisse

Um die Arbeit des Frameworks zu demonstrieren und die Methode einzuschätzen, verwenden die Forscher die dreidimensionale anthropomorphe Figur und den modellierten Roboter Atlas. Man vergleicht die Bilder von Figuren mit dem Originalvideo. Alle Videoclips wurden aus YouTube gesammelt. Dort sieht man Menschen, die verschiedene akrobatische Bewegungen machen. Die Bestimmung der Quantitätsdifferenz zwischen den Bewegungen von Menschen und der Figur ist kompliziert. Deshalb wurde die Arbeitsfähigkeit der Methode hinsichtlich der extrahierten Bezugsbewegung eingeschätzt. Auf den Bildern im Folgenden sieht man die Bildbereiche von realen Videoclips und die Bildbereiche mit den Figuren zur Qualitätsbewertung.

Der modellierte Roboter Atlas, der die Bewegungen aus dem Video macht
Die Qualitätsbewertung unter Verwendung von modellierten Figuren, die verschiedene Bewegungen aus dem Video machen

Schlussfolgerung

Der vorgeschlagene Ansatz zeigt gute Ergebnisse zur Übertragung der Animation aus dem Video. Die Kombination von Methoden der Einschätzung der Haltung, der Wiederherstellung der Bewegung und des Reinforcement Learning hilft die Bewegungen auf die Figur mit hoher Präzision zu übertragen. Man sieht die Vorteile der Einheitsbauweise. Die Verbesserungen, die zu verschiedenen Stadien gehören, kann man auf den späteren Stadien zur Steigerung der Effektivität des ganzen Frameworks einführen.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.