AI-United » Allgemein » TCC: das Neuronennetz überlagert die Tonaufnahme

TCC: das Neuronennetz überlagert die Tonaufnahme

Temporal Cycle-Consistency Learning (TCC) ist ein Algorithmus zur Erkennung von Handlungen in einem Video. Der Algorithmus lernt selbstüberwacht. Eine Anwendung des Algorithmus ist die Übertragung des Tons von einem Video zum anderen Video. Der Kode des Neuronennetzes ist öffentlich verfügbar.

Bisherige Algorithmen zur Analyse von Videos basierten auf dem überwachten Lernen. Aber die Erkennung des Inhalts des Videos setzt die Klassifizierung jedes Bildfeldes voraus. Die Markierung ist eine ressourcenintensive Aufgabe. Die Forscher von Google AI haben eine selbstüberwachte Methode zur Erkennung des Inhalts von Video vorgeschlagen (TCC). Diese Methode verwendet die  Entsprechungen zwischen den Beispielen für ähnliche aufeinanderfolgende Prozesse, um die Darstellungen von Teilen der Videoaufnahmen zu lernen.

Die Architektur von TCC

Gießt zum Beispiel ein Mensch Wasser in ein Glas, haben solche Handlungen  eine deutliche Folge von Ereignissen. Die Videoaufnahmen solcher Handlungen enthalten temporale Referenzen von Bildfeld zu Bildfeld (temporal correspondences). Alle Videos einer Handlung haben gemeinsame Elemente der Folge von Ereignissen. TCC möchte solche gemeinsamen temporalen Referenzen in verschiedenen Videos einer Handlung erlernen. Das geschieht mit Hilfe der Verlustfunktion cycle consistency.

Der Zweck des Algorithmus liegt darin, den Kodierer der Bildfelder zu trainieren. ResNet wurde als Architektur angewandt. Um den Kodierer zu trainieren, erhält der Kodierer am Input alle Bildfelder des Videos. Am Output liefert der Kodierer die Embeddings der Bildfelder. Dann werden zwei Videos zum Trainieren von TCC ausgewählt. 

Das Video 1 (die Video-Verweisung) und das Video 2. Das Bildfeld aus der Video-Verweisung (Video 1) wird ausgewählt, für dieses Bildfeld wird das Embedding des nächsten Bildfeldes aus Video 2 gefunden. Dann wird für dieses Bildfeld aus Video 2 zyklisch das Embedding des nächsten Bildfeldes aus Video 1 gesucht. Wenn die ausgewählten Embeddings cycle-consistent sind, wird das nächste Embedding aus Video 1 an das ursprünglich ausgewählte Bildfeld verweisen.

Der Kodierer wird so trainiert, dass cycle-consistency loss sinkt und die Embeddings der Bildfelder die semantische Nähe von Bildfeldern besser widerspiegeln.

Wo kann es eingesetzt werden?

TCC findet ähnliche Bildfelder unter Einsatz der nächsten Nachbarn im Raum der Embeddings. Dieser Algorithmus kann die Metadaten zwischen den semantisch ähnlichen Bildfeldern übertragen. Diese Metadaten können im Format temporaler semantischer Marken oder in einem anderen Format (Ton oder Text) vorliegen. Im Video (im Nachstehenden) sieht man zwei Beispiele für die Übertragung des Tons von einem Video zum anderen Video.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410