OpenAI præsenterer ny teknik til at træne robotter med sparse belønninger
OpenAI har udviklet en ny metode kaldet “Hindsight Experience Replay” (HER), der gør det muligt at træne kunstig intelligens og robotter mere effektivt, selv når belønningerne er sjældne og binære.
En af de største udfordringer inden for reinforcement learning – en form for maskinlæring hvor AI lærer gennem forsøg og fejl – har været at håndtere situationer, hvor systemet kun sjældent får feedback. Den nye teknik løser dette problem ved at lade AI’en lære af sine fejl på en mere intelligent måde.
Lærer af fejlslagne forsøg
Metoden fungerer ved at genfortolke mislykkede forsøg som succeser for alternative mål. Hvis en robot for eksempel forsøger at placere en genstand på et bestemt sted, men fejler, kan systemet stadig lære noget ved at betragte det sted, hvor genstanden endte, som et alternativt mål, der blev nået.
“Hindsight Experience Replay gør det muligt at lære effektivt fra belønninger, der er sjældne og binære, og undgår dermed behovet for kompliceret belønningsdesign,” forklarer forskerne bag projektet.
Testet på robotarme
OpenAI har demonstreret tilgangen på opgaver, hvor en robotarm skal manipulere objekter. Forskerne har kørt eksperimenter på tre forskellige opgaver: skubbe, skubbe glidende og løfte-og-placere. I alle tilfælde blev der kun brugt binære belønninger, der indikerede, om opgaven var fuldført eller ej.
Resultaterne viser, at teknikken er afgørende for at gøre træning mulig i disse udfordrende miljøer. Politikker, der blev trænet i fysiske simuleringer, kunne efterfølgende implementeres på en fysisk robot og succesfuldt gennemføre opgaverne.
Kan kombineres med andre metoder
En af styrkerne ved den nye tilgang er, at den kan kombineres med enhver off-policy reinforcement learning-algoritme og kan ses som en form for implicit læseplan, hvor AI’en gradvist lærer mere komplekse færdigheder.
Forskningsteamet bag projektet omfatter blandt andre Marcin Andrychowicz, Wojciech Zaremba og Pieter Abbeel. Den fulde forskningsartikel er tilgængelig på OpenAI’s hjemmeside.
