AI-United » Allgemein » The Sound Of Pixels: die neue Methode der Lokalisierung und Trennung von Tönen in Videos

The Sound Of Pixels: die neue Methode der Lokalisierung und Trennung von Tönen in Videos

The Sound Of Pixels: die neue Methode der Lokalisierung und Trennung von Tönen in Videos

Forscher untersuchen seit langem die Wechselbeziehung von Videos und Tönen und die mit ihrer Bearbeitung verbundenen Probleme. In der Vergangenheit untersuchten die Wissenschaftler die Probleme der Lokalisierung des Tons auf Video, der Schaffung von Audio für die Videos ohne Ton, des Lehrens ohne Lehrer mit Hilfe von den Tonsignalen in den Aufgaben, die mit dem Video verbunden sind.

Die neue Idee

In einem neuen Artikel, das von den Forschern aus Massachusetts Institute of Technology, MIT-IBM Watson AI Lab und Columbia University präsentiert wurde, wird die neue Ansicht auf die Wechselbeziehung von Videos und Tönen untersucht. Die Forscher haben die Methode des Lehrens ohne Lehrer entwickelt, die die Bildbereiche finden, die den Ton generieren, und die Töne auf die Komponenten trennen lässt, die in verschiedenen Pixeln erstellt werden.

Die Architektur der vorgeschlagenen Methode

Der Ansatz

Der neue Ansatz gründet sich auf den Gebrauch der natürlichen Synchronisierung der visuellen und akustischen Information, um die Tonkomponenten auf Video ohne Lehrer zu trennen und zu lokalisieren. Die vorgeschlagene Technologie heißt PixelPlayer. Sie lässt Objekte auf den Bildern erkennen und lokalisieren und die Tonkomponenten trennen, die in jedem von ihnen erstellt werden. Die Forscher präsentierten eine neue Datenbasis von Video mit den Musikinstrumenten MUSIC, die speziell für diese Aufgabe gesammelt wurde.

Beispiele von Bildbereichen und Tönen aus der neuen Datenbasis MUSIC

Wie bereits erwähnt, lokalisiert die vorgeschlagene Methode die Tonquellen auf Video und trennt den Ton auf die Komponenten ohne Lehrer. Das Modell besteht aus drei Modulen: einem Netzwerk zur Analyse von Video, einem Netzwerk zur Analyse vom Ton und einem Netzwerk zur Klangsynthese. Solch eine Architektur lässt die visuellen und akustischen Eigenschaften zur Trennung und Lokalisierung von audiovisuellen Quellen extrahieren.

Videoanalyse-Netzwerk

Das Videoanalyse-Netzwerk versucht die visuellen Eigenschaften aus jedem Bildbereich im Videoclip zu extrahieren. Jede Eigenschaft erfüllt die vorübergehende Vereinigung, um den Vektor von visuellen Eigenschaften jedes Pixels zu erzeugen. Dazu verwenden die Forscher die Variation des populären Netzwerks ResNet-18 mit erweiterten Faltungen.

Audioanalyse-Netzwerk

Das Audioanalyse-Netzwerk versucht den Ton auf Video auf K Komponenten einzuteilen. Zur Lösung dieser Aufgabe verwenden die Forscher die akustischen Spektrogrammen anstatt der unbearbeiteten Audiosignale und die Architektur Audio U-Net. Sie ist bei der Arbeit mit den Audiodaten wirksam. Wenn man die​​ Architektur Kodierer Kodierer-Dekodierer anwendet, wird aus dem Spektrogramm die Karte von K Eigenschaften extrahiert, das die Eigenschaften von verschiedenen Tonkomponenten enthält. Um das akustische Spektrogramm zu erhalten, wurde die Short Time Fourier-Transformation (STFT) eingesetzt.

Netzwerk für Klangsynthese

Das leitende Modul der vorgeschlagenen Methode ist das Netzwerk für Klangsynthese. Es verwendet den Vektor der visuellen Eigenschaften jedes Pixels und den Vektor der akustischen Eigenschaften zur Einführung der Maske. Sie sondert den Ton aus dem Spektrogramm aus. Als Ergebnis des Multiplizierens der Maske mit dem Spektrogramm erhält man das Tonspektrum jedes Pixels. Um das Audiosignal zu erhalten, wird die inverse Short Time Fourier-Transformation eingesetzt.

Das Framework Mix-and-Separate, das zum Lehren vorgeschlagen wird

Zum Lehren des Netzwerks ohne Lehrer haben die Forscher vorgeschlagen, das Framework Mix-and-Separate anzuwenden. Die Idee basiert auf der Vermutung, dass das Superpositionsprinzip für den Ton erfolgt. Deshalb mischen die Wissenschaftler die Töne aus verschiedenen Videoclips, um das komplizierte Audiosignal zu generieren. Dann teilen sie die benötigten Tonquellen ein.

Die Energieverteilung der Tonwellen in den Pixeln
Die Clusterbildung des Tons in den Pixeln

Die Ergebnisse

Zur Einschätzung der Methode verwenden die Autoren das lehrende Framework Mix-and-Separate. Sie haben die Gruppe von synthetisierten Tönen zum Lehren erschaffen. Die Einschätzung zeigt die Leistungsfähigkeit der Methode zur Trennung der Töne. Das Ziel liegt in der Erstellung des Spektrogramms, deshalb besteht die Einschätzung im Vergleich des originellen und generierten Spektrogramms. Zur quantitativen Schätzung wurden die normierten Relationen das Signal-der Lärm (NSDR), das Signal-das Hindernis (SIR) und das Signal-das Artefakt (SAR) angewandt.

Die quantitative Schätzung und der Vergleich mit den traditionellen Methoden, wie die nichtnegative Matrixfaktorzerlegung (NMF) und die spektrale Regression.
Die Qualitätsbewertung. Der Vergleich des wahren und generierten Spektrogramms

Zusammenfassung

Diese Methode ist wirklich interessant. Es wurde nachgewiesen, dass das Lehren ohne Lehrer zur Lösung von solchen Ausgaben eingesetzt werden kann. Der Ansatz kann mehrere Aufgaben ausführen, wie die Suche nach Bildfeldern, wo der Ton generiert wird, und das Aufteilen von Tönen auf die Gruppe von Komponenten, die in jedem Pixel generiert werden. Das ist eine der ersten Untersuchungen, wo die Wechselbeziehung zwischen den einzelnen Pixeln und dem Ton auf Video erforscht wird.

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.