AI-United » Allgemein » Heatmaps helfen Gesichter auf Fotografien grober Auflösung wiederherzustellen

Heatmaps helfen Gesichter auf Fotografien grober Auflösung wiederherzustellen

Die Ergebnisse von vielen Techniken der Gesichtsanalyse verlassen sich auf die entsprechende Bildauflösung. Die Gesichtserkennung funktioniert nicht korrekt, wenn die Auflösung des Gesichts auf den Fotografien niedrig ist.

Was ist Super-Resolution?

Face Super-Resolution (FSR) oder die Gesichtshalluzinationen stellen das Gesicht in einer hohen Auflösung (HR) aus einem Bild mit einer niedrigen Auflösung (LR) wieder her. Dieses Forschungsgebiet findet in den letzten Jahren mehr Beachtung. Aber auch die modernen Methoden geben oft Bilder mit verzerrter Gesichtsstruktur und stellen die Details des Gesichts nur teilweise wiederher. Die Methoden vom Deep Learning für FSR können LR-Gesichter in bestimmten Positionen nicht wiederherstellen, wobei die Anzahl dieser Positionen groß ist.

Wie kann man dieses Problem lösen? Es gibt zwei Varianten:

  • Die Veränderung von Trainingsangaben mit einer großen Anzahl von Positionen. Doch das kann auch zu suboptimalen Resultaten führen: die Details des Gesichts sind verschwommen oder abwesend
  • Man kann Gesichtskomponenten auf den LR Bildern finden. Das kann zu Phantomartefakten führen.

Aber es gibt auch eine Methode, die die Bilder in Anbetracht der Vorbestimmung von der Gesichtsstruktur wiederherstellt. Kann man Heatmaps zur Repräsentation der Auftrittswahrscheinlichkeit von Gesichtskomponenten anwenden?

Die damit verbundenen Forschungen

Es gibt drei Kategorien von Methoden der Bestimmung von Gesichtshalluzinationen.

  • Die Herangehensweisen, die auf “globalen Modellen” basieren, ihr Hauptziel besteht in der Wiederherstellung des minderwertigen Bilds durch die Vermittlung von ganzheitlichem Mapping, z.B. PCA. Wang und Tang rekonstruieren HR Bilder nach den Werten von PCA. Liu und andere Forscher haben das Markov Random Field (MRF) zur Senkung von Phantomartefakten entwickelt.
  • Kolouri und Rohde verwenden optimale Techniken der Übertragung, um das HR-Resultat mit Hilfe von Interpolation der musterhaften HR Gesichter zu konvertieren.
  • Es werden auch “partielle Methoden” zur Wiederherstellung von einzelnen Gesichtsteilen getrennt angeboten. Zum Beispiel, Tappen und Liu stellen die Gesichtsdetails wieder her, wobei sie Referenzbilder HR verformen;
  • Yang und andere Forscher lokalisieren Gesichtskomponenten in den Bildern LR mit Hilfe vom Detektor der Schlüsselgesichtspunkte, dann rekonstruieren sie die fehlenden HR Details aus ähnlichen Komponenten HR.
  • Deep Learning: Xu und andere Forscher verwenden Framework GAN zur Wiederherstellung des verschwommenen Gesichts;
  • Zhu und seine Kollegen präsentieren das Kaskaden-bi-Netzwerk (CBN), das LR Gesichtskomponenten lokalisiert, und dann die Auflösung von Gesichtsdetails erhöht.

Die hochmoderne Idee

Xin Yu und seine Kollegen bieten ein tiefes Multitask-Neuronennetz an, das LR-Bilder wiederherstellt und die Stellung von Gesichtskomponenten einschätzt. Ihr hochgenaues Neuronennetz (CNN) hat zwei Gabelarme: einen verwendet man zur Wiederherstellung der Bilder, den anderen — zum Vorhersagen von bestimmten Gesichtsbereichen nach den Heatmaps.

Der Prozess verläuft folgenderweise:

  1. Die Erkennung von Merkmalen nach dem eingehenden LR Bild.
  2. Die Anwendung der dimensionalen Abwandlung zur Ausrichtung von Merkmalskarten.
  3. Die Bewertung von Heatmaps von Gesichtskomponenten nach den verbesserten Merkmalskarten.
  4. Die Konkatenation von abschätzenden Heatmaps mit den Merkmalskarten.

Diese Methode verbessert das winzige ausgeglichene Bild (16 x 16 Pixel) mit dem Multiplikator 8 x mit dem Aufbewahren der Gesichtsstruktur.

(a) das Bild LR; (b) das Bild HR; c) nächstliegende Nachbars; (d) CBN, (e) TDAE, (f) TDAE lernt den besten Datensatz, (g) der vorgeschlagene Ansatz

Der Überblick des Modells

Das Neuronennetz hat folgende Struktur:

  1. Das verbessernde Multitask-Neuronennetz (MTUN): der Gabelarm der Verbesserung (besteht aus dem automatischen Digitalisiergerät, dem Netzwerk der dimensionalen Transformationen) und der Gabelarm der Bewertung von Heatmaps des Gesichts (HEB);
  2. Das diskriminierende Netzwerk, das aus den Convolution-Schichten und vollvermaschten Schichten besteht.

Die Einschätzung von Heatmaps des Gesichts. Auch die modernsten Detektoren des Gesichts sind nicht imstande, die Schlüsselpunkte des Gesichts in Bildern mit sehr niedriger Auflösung zu lokalisieren. Man schlägt vor, Heatmaps von Gesichtskomponenten aus verbesserten Merkmalskarten vorherzusagen.

2D- Fotografien können eine Vielzahl von Positionen haben. Um die Anzahl von Mustern für die Ausbildung zu senken, die man zum Lernen von HEB benötigt, kann man das Netzwerk von räumlichen Transformatoren (STN) anwenden.

Vier Karten stellen vier Gesichtskomponenten dar: Augen, die Nase, den Mund und das Kinn (das Bild unten).

Die Visualisierung von abschätzenden Heatmaps von Gesichtskomponenten: (a) das unausgeglichene Bild LR; (b) das Bild HR; c) Heatmaps; d) das Ergebnis; (e) vermutliche Heatmaps, die den Resultaten zugrunde liegen

Die Verlustfunktion. Das Ergebnis der Verwendung von verschiedenen Kombinationen der Verlustfunktion steht im Folgenden:

das unausgeglichene Bild LR, b. das Originalbild HR, c. nur Pixelverluste, d. Pixel- und multifunktionale Verluste, e. Pixel-, multifunktionale und diskriminierende Verluste, f. Pixel und Verluste der Gesichtsstruktur, g. Pixel-, funktionale und Struktur-Verluste, h. Pixel, funktionale, diskriminierende und Struktur-Verluste.

Zum Lernen ihres verbessernden Multitask-Netzwerks haben die Wissenschaftler die letzte Variante ausgewählt (h).

Qualitative und quantitative Vergleiche

Der qualitative Vergleich des Ansatzes unter Verwendung von modernsten Methoden:

Der Vergleich zu den modernsten Methoden: (a) das LR Bild; (b) das Bild HR; c) die bikubische Interpolation; d) VDSR; e) SRGAN; (f) die Methode Ma und andere; g) CBN; h) TDAE; (i) der angebotene Ansatz

Die Mehrheit der vorhandenen Methoden können Gesichtsdetails nicht generieren, wobei der angebotene Ansatz realistische Bilder ausgibt, die dem Originalbild HR sehr ähnlich sind.

Beim quantitativen Vergleich zu den modernsten Methoden kommt man zu einem ähnlichen Schluss.

Der quantitative Vergleich zu allen Testdaten

Das Fazit

Lassen uns aus dieser Forschung das Fazit ziehen:

  • Dies ist ein neues Multitask-Netzwerk mit einer steigernden Auflösung, dass sehr kleine Bilder LR (16 x 16 Pixel) mit Hilfe vom Normalisierungsfaktor 8x bearbeitet.
  • Die Methode verwendet die Ähnlichkeit der Intensität des Bildes und bewertet die Gesichtsstruktur mit Hilfe von Heatmaps von Gesichtskomponenten.
  • Bewertete Heatmaps von Gesichtskomponenten sichern die räumliche Information über die Gesichtskomponenten.
  • Dank dem Ausrichten von Funktionskarten vor der Einschätzung vom Heatmap senkt sich die Anzahl von Bildern, die zum Lernen des Modells benötigt werden.

Diese Methode ist zur Wiederherstellung von Gesichtern mit  einer sehr niedrigen Auflösung in verschiedenen Positionen gut geeignet. Sie generiert realistische Bilder ohne Deformationen und Artefakte. Wenn Sie Fragen haben, dürfen Sie uns gerne kontaktieren.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.