AI-United » Allgemein » DeepMind veröffentlichte eine Bibliothek für RL-Experimente

DeepMind veröffentlichte eine Bibliothek für RL-Experimente

Bsuite ist eine Sammlung von Experimenten zur Untersuchung des Verhaltens von RL-Agenten auf allgemeinen Aufgaben. Diese Bibliothek automatisiert die Einschätzung und Analyse des Agentenverhaltens auf den Aufgaben. Sie vereinfacht die Erstellung der wiederholbaren Untersuchungen.

Die Bibliothek hat zwei Hauptziele. Das erste Ziel liegt darin, skalierbare und verständliche Probleme zu sammeln, die die Kernprobleme bei der Entwicklung von effektiven RL-Algorithmen beschreiben. Das zweite Ziel liegt darin, das Verhalten von verschiedenen Agenten bei denselben Aufgaben zu untersuchen.

Die Komponenten

Bsuite besteht aus einer Reihe von Experimenten, die im Unterordner „experiments“ bestimmt sind. Jeder Unterordner ist für ein Experiment zuständig und enthält:

  • Die Datei, die die RL-Umgebung bestimmt, die konfigurierbar sein und unterschiedliche Schwierigkeitsstufen bieten kann; 
  • Die Reihenfolge der Schlüsselargumente für diese Umgebung, die in der Variable SETTINGS in der Datei sweep.py bestimmt sind; 
  • Die Datei analysis.py, wo die Diagramme für die Analyse bestimmt sind 

Die Bibliothek protokolliert die Resultate aus jeder Umgebung, wenn sie die Umgebung durch die Funktion load_and_record lädt. Jedes Experiment liefert automatisch die Daten in einem für die Analyse passenden Format. Es werden keine Einschränkungen auf die Struktur von Agenten oder Algorithmen vorgenommen.

7 Schlüsselkennzahlen zur Analyse der Agenten

Die Standardagenten

Die Forscher haben die Implementierungen von einigen allgemeinen Agenten in den Unterordner “baselines” eingeschlossen. Die Hauptabhängigkeiten sind TensorFlow und Sonnet. Die Abhängigkeiten werden nicht vorinstalliert, da diese Bibliothek nicht verlangt, eine besonderen Bibliotheken zu verwenden.

Der Anlauf des Experiments

Jeder Agent aus dem Ordner „baselines“ hat ein Skript für den Anlauf. Es dient als Beispiel für den Anlauf des Agenten in einer Umgebung oder in einer Reihe von Experimenten. Beim Anlauf des Agenten in einer Reihe von Experimenten beginnt ein Pool von Prozessen, der den Start der Experimente maximal parallelisiert. Für die meisten Agenten und auf dem Computer mit 12 Kernen endet das Lehren in 12 Std. Alternativ kann man Experimente auf Google Compute Platform mit Hilfe vom Skript run_on_gcp.sh anlaufen.

In der kommenden Zeit planen die Entwickler, die Experimente mit einem komplizierteren Design hinzuzufügen und die Bewertungen der Experimente von bekannten Forschern zu sammeln.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.