Forscher aus Korea haben ein Neuronennetz trainiert, das die Auflösung von Gesichtsbildern um das Achtfache steigert. Diese Methode übertrifft die fortgeschrittenen Lösungen sowohl in quantitativen als auch in qualitativen Metriken. Er bewältigt die Aufgabe, das Gesicht eines Menschen (auf Fotos mit niedriger Auflösung) zu rekonstruieren.
Die Erhöhung der Gesichtsauflösung (Face Super-Resolution) ist ein Teilgebiet der Aufgabe, die Bildauflösung zu steigern. Diese Aufgabe konzentriert sich auf die Gesichtswiederherstellung. Das Hauptproblem liegt darin, das Gesicht eines Menschen verzerrungsfrei wiederherzustellen. Die Methode, die von den Forschern vorgeschlagen wurde, liefert realistische Resultate und steigert die Auflösung des Bildes um das Achtfache.
Das Modell basiert auf der Methode des progressiven Lernens. Das lässt das Modell stabil trainieren und fragmentieren. Jeder Teil erhält am Input das Ergebnis des vorangehenden Neuronennetzes und liefert am Output die genauere Gesichtsrekonstruktion. Das Bild wird allmählich wiederhergestellt. Die Forscher haben eine neue Fehlerfunktion vorgeschlagen, um die Präzision der Gesichtswiederherstellung einzuschätzen.
Die Verlustfunktion wird in jeder Trainingsphase eingesetzt. Sie hilft, die Verzerrung der Gesichtszüge zu minimieren. Darüberhinaus veröffentlichten die Forscher die komprimierte Version face alignment network (FAN). Dieses Neuronennetz liefert Wärmebilder von Gesichtern und markiert die Schlüsselpunkte des Gesichts. Das Hinzufügen von FAN zu der vorgeschlagenen Methode lässt zuverlässigere Bilder generieren.
Die Architektur des Modells
Die Wissenschaftler verwenden drei Ansätze, um glaubwürdige Gesichtsbilder zu generieren, die die Gesichtszüge widerspiegeln. Die Ansätze umfassen progressives Lernen, die Verlustfunktion (zum Wiederherstellen der Gesichtszüge) und ein modifiziertes Netzwerk FAN.
Die Architektur besteht aus zwei Hauptkomponenten: einem Generator und einem Diskriminator. Damit der Generator und der Diskriminator stabil lernen können, sind beide Teile in Schritte unterteilt. Der Generator besteht aus 3 residual Blöcken (mit Batchnormalisierung), transponierten Faltungsschichten und ReLU. Der Diskriminator hat eine ähnliche Architektur: die Faltungsschichten, average pooling Schichten und Leaky ReLU.

Die Bewertung der Arbeit des Neuronennetzes
Die Forscher verglichen die Modellergebnisse mit fortgeschrittenen Lösungen. Unten sieht man, dass das vorgeschlagene Neuronennetz für fast alle Metriken präzisere Resultate liefert.

