OpenAI præsenterer ny læringsmetode til robotter med sparsomme belønninger
OpenAI har offentliggjort en ny teknik kaldet “Hindsight Experience Replay” (HER), der gør det muligt for robotter at lære komplekse opgaver, selv når de kun modtager minimale belønningssignaler under træningen.
En af de største udfordringer inden for reinforcement learning – den maskinlæringsmetode, hvor systemer lærer gennem forsøg og fejl – har været at håndtere såkaldte “sparse rewards”. Det betyder situationer, hvor robotten kun sjældent får feedback om, hvorvidt den gør det rigte.
Den nye HER-teknik løser dette problem ved at lade robotter lære af deres fejl på en ny måde. Metoden kan kombineres med eksisterende reinforcement learning-algoritmer og fungerer som en form for implicit læseplan, der gradvist øger sværhedsgraden.
Testet på robotarme
Forskerne fra OpenAI har demonstreret tilgangen på opgaver, hvor en robotarm skal manipulere objekter. De har gennemført eksperimenter med tre forskellige opgaver: skubbe, skyde og samle-og-placere objekter.
I alle tilfælde brugte systemet kun binære belønninger – altså simple ja/nej-signaler om, hvorvidt opgaven var fuldført eller ej. Dette eliminerer behovet for kompliceret “reward engineering”, hvor forskere ellers skal designe sofistikerede belønningssystemer.
Fra simulation til virkelighed
Studierne viser, at Hindsight Experience Replay er en afgørende ingrediens, der gør træning mulig i disse udfordrende miljøer. Forskerne har desuden demonstreret, at politikker trænet i fysiske simuleringer succesfuldt kan implementeres på fysiske robotter og gennemføre opgaverne i den virkelige verden.
Artiklen er publiceret på arXiv og er forfattet af et team af forskere fra OpenAI, herunder Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel og Wojciech Zaremba.
