AI-United » Allgemein » Das Neuronennetz generiert einen Anime-Charakter aus dem Bild

Das Neuronennetz generiert einen Anime-Charakter aus dem Bild

U-GAT-IT ist ein erzeugendes gegnerisches Netzwerk zur Bildsynthese, das unüberwacht lernt. Die Forscher testeten seine Arbeit an der Aufgabe der Generierung der Bilder der Anime-Charaktere aus gewöhnlichen Fotos von Menschen. Die Versuchsergebnisse zeigen, dass das Neuronennetz U-GAT-IT die Image-to-Image Generierung besser durchführt als fortgeschrittene Methoden. U-GAT-IT enthält das neue Aufmerksamkeitsmodul und die Normalisierungsfunktion. So kann das Modell end-to-end trainiert werden. 

Das Aufmerksamkeitsmodul lehrt dieses Modell, sich auf wichtige Teile des Bildes zu konzentrieren (beim Generieren des Zielbildes). Bisherige Modelle mit dem Aufmerksamkeitsmodul waren gegen Formänderungen (zwischen dem Zielbild und dem Vergleichsbild) nicht resistent. AdaLIN (Adaptive Layer-Instance Normalization) Funktion hilft dem Modell die Veränderungen der Form und Textur von Objekten auf dem Eingangsbild zu kontrollieren. Die Parameter sind für die Kontrolle des Änderungsbetrags zuständig.

Die Architektur

Der Kodierer im Generator besteht aus zwei Faltungsschichten und vier residual Blöcken. Der Dekodierer des Generators besteht aus vier residual Blöcken und zwei Faltungsschichten. Für den Kodierer wird die Instanznormalisierung eingesetzt, für den Dekodierer – AdaLIN. Zur Klassifizierung funktioniert die Schichtnormalisierung schlimmer als die Batchnormalisierung. Die Spektrumnormalisierung wird für den Diskriminator gebraucht.

Im Diskriminator ist PatchGAN realisiert. Es klassifiziert, ob der globale und der lokale Teil des Bildes ein generiertes Bild sind.

Die Visualisierung der Komponenten des Neuronennetzes

Der Vergleich der Arbeit des Neuronennetzes mit anderen Methoden

Die Wissenschaftler verglichen den Ansatz mit konkurrierenden Methoden, einschließlich CycleGAN, UNIT, MUNIT und DRIT. Alle Bezugsmodelle wurden mit Hilfe vom Originalkode implementiert.

CycleGAN gebraucht die gegnerische Verlustfunktion, um den Vergleich der Objekte aus dem Raum X in den Raum Y zu lernen. Das ist die Regularisierungsmethode des Vergleichs durch cycle consistency der Verlustfunktion. CycleGAN besteht aus zwei Faltungsblöcken, 9 residual Blöcken, 2 Dekonvolutionblöcken und 4 Diskriminatorschichten.

UNIT besteht aus zwei VAE-GAN mit dem gemeinsamen versteckten Raum. Die Struktur dieses Modells ähnelt CycleGAN, aber sie unterscheidet sich durch die Struktur des Diskriminators.

MUNIT kann verschiedene Ausgangsbilder aus einem Eingangsbild generieren. Das Modell nimmt an, dass die Darstellung des Bildes in Inhaltskodierung und Stilkodierung verteilt werden kann.

DRIT kann (wie MUNIT) einige Ausgangsbilder aus einem Eingangsbild generieren.

Die Arbeit der Modelle wurde mit Hilfe von 5 Datensätzen mit Bildern eingeschätzt. Zu diesen Datensätzen gehört selfie2anime (der Satz der realen Fotos und Anime-Bilder). Die Umfrageteilnehmer wählten die U-GAT-IT Resultate häufiger als die Resultate anderer Modelle (für 4 von 5 Aufgaben) aus.

Die Befragungsergebnisse zeigen, welche Modellvorhersage glaubwürdiger ist
Quelle
AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410