AI-United » Allgemein » PHYRE: Trainieren eines RL-Agenten um physische Aufgaben zu lösen

PHYRE: Trainieren eines RL-Agenten um physische Aufgaben zu lösen

PHYRE ist ein 2D-Simulator, der 50 Arten von physischen Rätsel zum Trainieren der RL-Agenten enthält. Der Simulator enthält 5.000 Rätsel. Diese Aufgaben wurden von den Forschern von Facebook AI entwickelt. Diese Rätsel sind für Menschen einfach, aber von Systemen nur schwer zu lösen. 

PHYRE wurde entwickelt, um die Fähigkeit der Agenten einzuschätzen, bei dem Lösen des Problems mit den physikalischen Gesetzen umzugehen. Die Benennung PHYRE bedeutet PHYsical REasoning. Es wurde entwickelt, um die Forschungen im Bereich der physikalischen Denksysteme zu unterstützen.

Beispiele der Aufgaben aus PHYRE 

Um eine physikalische Aufgabe (in PHYRE) zu lösen, müssen Agenten eine Handlung vornehmen, die einen Zusammenstoß von bestimmten Objekten auslöst. In den Beispielen (oben) ruft ein korrekter Wurf des roten Balls den Kontakt zwischen dem grünen und dem blauen Ball oder zwischen dem grünen Ball und der violetten Plattform hervor.

Wie funktioniert es?

PHYRE besteht aus 50 Aufgabensammlungen, von denen jede 100 typische physikalische Rätsel enthält. Jedes Rätsel repräsentiert den Ausgangszustand der Umgebung und den Endzweck. Der Anfangszustand enthält eine Reihe von Gläsern, Bällen, Plattformen und anderen einfachen Objekten. Das Endziel liegt darin, dass der Ball N das Glas berührt. 

Um das Endziel zu erzielen, muss der Agent die Objekte an die richtigen Stellen stellen und warten, bis alle Objekte stillstehen. Zum Beispiel, um den Inhalt eines Glases ins andere Glas zu übertragen, das sich unten befindet, muss man den Ball so werfen, dass er den Inhalt des oberen Glases umwirft.

Warum ist das nicht so einfach?

Die Anzahl der potenziellen Handlungen, die in Rätseln vorgenommen werden können, liegt im zweistelligen Millionenbereich. In Go beträgt die Anzahl der möglichen Handlungen einige Hunderte. Die Systeme, die StarCraft oder DoTA spielen, benötigen Millionen oder Milliarden von Versuchen, um eine Lösung zu finden. 

Die Agenten bei PHYRE können ihre Belohnung maximieren, wenn sie die Anzahl der erfolglosen Versuche minimieren. Die Aufgaben bei PHYRE fördern das Lernen effektiver Strategien. Das Lösen der physischen Rätsel benötigt eine Handlung und das Ergebnis ist direkt erkennbar. Die Aufgaben (bei PHYRE) haben keine Probleme dem Agenten Belohnungen zuzuweisen.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410