Neue Tendenzen in Forschungen des tiefen Lernens

3 min read

Wie versucht Microsoft neuronale Netze auch für das Entwerfen neuronaler Netzwerke zu verwenden?

Neue Tendenzen in Forschungen des tiefen Lernens

Um die richtige Netzwerkarchitektur zu wählen, muss man ziemlich viel Zeit aufbringen, da dies ein sehr subjektiver Aspekt des Systems des tiefen Lernens ist. Wie viele Schichten werden benötigt? Was ist die richtige Größe für eine Faltungsoperation? Welche Knoten sollten als eine Eingabe für ein rekurrentes neuronales Netzwerk (RNN) verwendet werden? All diese Fragen quälen jedes Mal die Fachleute, die im Bereich des tiefen Lernens tätig sind, wenn sie sich mit der Erstellung einer neuen neuronalen Architektur beschäftigen. Die ehrgeizigsten Praktiker in der Gemeinschaft des tiefen Lernens sind der Meinung, dass die Architektur des neuronalen Netzwerks selbst als ein Problem des tiefen Lernens modelliert werden kann.

Die Konzeption, sich bei der Entwicklung der Systeme des tiefen Lernens auf Systeme des tiefen Lernens zu verlassen, gehört zu spannenden Forschungsbereichen. Im Raum des tiefen Lernen wird diese Methode als Neural Architecture Search (NAS) bezeichnet, wo die zwei wichtigsten Denkmodelle berücksichtigt werden: verstärkendes Lernen und evolutionäre Algorithmen (EA). Für beide Methoden ist eine Einschränkung charakteristisch, die darin besteht, dass sie nach einer Architektur in einem diskreten Raum suchen. Die Methoden, die auf dem verstärkenden Lernen basieren, betrachten die Wahl eines Bestandteils der Architektur als eine Aktion. Durch die Reihenfolge der Aktionen wird eine Architektur eines neuronalen Netzwerks bestimmt, dessen Belohnung die Genauigkeit des Entwicklungssatzes ist. Die Methoden, die auf evolutionären Algorithmen basieren, erfordern, dass die Suche durch Mutationen und wiederholte Kombinationen der Architekturbestandteile durchgeführt wird. Dabei werden die Architekturen mit besseren Leistungen bevorzugt, die zur Fortsetzung der Entwicklung führen. Die Suchen in einem diskreten Raum sind in bestimmten eingeschränkten Szenarien sinnvoll, führen jedoch zur Ineffizienz, wenn Agenten des tiefen Lernens erstellt werden sollen, die unter realen definitionsgemäß kontinuierlichen Bedingungen arbeiten. Im letzten Jahr erschien die Arbeit Neural Architecture Optimization der Forscher des Microsoft Forschungslabor in Peking, in der sie eine neue Methode zur Entdeckung neuronaler Architekturen in einem kontinuierlichen Raum darstellten.

Darstellung eines NAO-Modells

Unter neuronaler Architekturoptimierung (NAO) von Microsoft ist eine Optimierungsmethode gemeint, deren Aufgabe es ist, eine neuronale Netzwerkarchitektur in einem kontinuierlichen Vektorraum zu erfassen und mithilfe einer Gradientenmethode zu optimieren. Die drei wichtigsten Bestandteile eines NAO-Modells sind:

  • Ein Encoder: Er dient zum Erfassen oder Einbetten einer diskreten neuronalen Netzwerkarchitektur in einen kontinuierlichen Vektor
  • Eine Leistungsvorhersagefunktion: Sie verwendet den Vektor als eine Eingabe und dient zur Erzeugung eines realen Wertes als eine Vorhersage der Leistungsfähigkeit der Architektur (beispielsweise Genauigkeit).
  • Ein Decoder: Er dient zur Wiederherstellung der Architektur aus ihrem kontinuierlichen Vektor.

Folgende Abbildung stellt eine NAO-Kernarchitektur dar:

Es sollte darauf hingewiesen werden, dass das Encoder-Modell der Kernbestandteil einer NAO-Architektur ist. Wie schon erwähnt wurde, besteht die Aufgabe eines Encoders in der Abbildung einer neuronalen Netzwerkarchitektur in einer kontinuierlichen Darstellung. Unter einem kontinuierlichen Vektor ist eine Eingabe für ein Regressionsmodell gemeint, mit Hilfe dessen die endgültige Leistung approximiert werden kann. Worin besteht der Hauptverdienst von NAO? Anhand eines Gradientenabstiegs bekommt die Vorhersagefunktion direkt eine kontinuierliche Darstellung eines besseren Netzwerks. Der nächste Schritt ist die Erstellung einer neuen neuronalen Netzwerkarchitektur, die voraussichtlich besser arbeiten sollte, indem der Decoder die optimierte Darstellung verwendet. Um dieses Ziel zu erreichen, wird ein Decoder verwendet, der auf einem Modell des langen Kurzzeitgedächtnisses basiert, das zur “Wiederherstellung” eines diskreten Netzwerkes aus der kontinuierlichen Darstellung dient.

Nachfolgend geben wir einen kurzen Überblick über die NAO-Architektur im Kontext des Erstellens von Convolutional Neural Network (CNN). Das Zielnetzwerk besteht aus N Knoten. Jeder Knoten seinerseits besteht aus zwei Zweigen. Jeder Zweig verwendet die Ausgabe eines der vorherigen Knoten als eine Eingabe, um eine Operation darauf durchzuführen. Die möglichen Operationen umfassen folgendes:

  • Identität
  • 1×1 Faltung
  • 3×3 Faltung
  • 1×3 + 3×1 Faltung
  • 1×7 + 7×1 Faltung
  • 2×2 maximales Pooling
  • 3×3 maximales Pooling
  • 5×5 maximales Pooling
  • 2×2 durchschnittliches Pooling
  • 3×3 durchschnittliches Pooling
  • 5×5 durchschnittliches Pooling.

Zur Darstellung jedes Knotenzweiges in der CNN-Architektur werden drei Token verwendet. Dies sind ein Knotenindex, der als eine Eingabe ausgewählt wird, eine Operationsart und eine Operationsgröße (ein Beispiel dafür kann so aussehen: {node-2, conv 3×3 node1, max-pooling 3×3}).

NAO: Experimente

Die Erforscher von Microsoft führten viele Experimente durch, indem sie ihre NAO-Methode auf verschiedene CNN- und RNN-Designszenarien anwendeten. Eines dieser Experimente bestand darin, dass NAO mit verschiedenen CNN-Architekturen verglichen wurde, die von NAS-Algorithmen erstellt wurden, um die Aufgaben der Bildklassifizierung auf Basis eines CIFAR-10-Datensatzes zu lösen. Die nachfolgende Tabelle zeigt, dass NAO die niedrigste Fehlerrate unter allen Modellen erreichte.

Noch interessantere Leistungsergebnisse zeigten der Encoder und Decoder im NAO-Modell. Nach ungefähr 500 bewerteten Architekturen konnte der Encoder eine zufriedenstellende Genauigkeit erreichen, der Decoder dagegen reduzierte den Abstand zwischen der ausgewählten und der richtigen Architektur kontinuierlich. Dies zeigt folgende Tabelle:

Fazit

Wir sind uns sicher, dass die Idee der Erstellung neuronaler Netze auf Basis anderer neuronaler Netze auch in den nächsten Jahren an der Spitze der Forschungen im Bereich des tiefen Lernens stehen wird. In diesem Artikel haben wir gezeigt, dass NAO der erste Versuch ist, einige der Suchideen für neuronale Architekturen in kontinuierlichen Räumen zu erweitern. Darüber hinaus wird sie die Fachleute begeistern, zukünftig auf diesem Gebiet weitere Forschungen und Experimente durchzuführen.

Möchten Sie mehr über neuronale Architekturoptimierung (NAO) erfahren, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.