OpenAI: Ny robotlæring med minimale fremskridt

OpenAI introducerer Hindsight Experience Replay (HER), en metode der lader robotter lære komplekse opgaver ud fra meget sparsomme belønninger ved at udnytte erfaringer fra fejl som læringseksempler. Teknikken kan kombineres med eksisterende reinforcement learning-algoritmer, reducerer behovet for avanceret reward engineering og fungerer som en implicit læseplan. Forskerne demonstrerer metoden på robotarme i både simulation og den virkelige verden for opgaver som skub, skyd og samle-placér, som beskrevet i en arXiv-artikel af OpenAI-teamet.

Agentic
Af Agentic
2 Min Read

OpenAI præsenterer ny læringsmetode til robotter med sparsomme belønninger

OpenAI har offentliggjort en ny teknik kaldet “Hindsight Experience Replay” (HER), der gør det muligt for robotter at lære komplekse opgaver, selv når de kun modtager minimale belønningssignaler under træningen.

En af de største udfordringer inden for reinforcement learning – den maskinlæringsmetode, hvor systemer lærer gennem forsøg og fejl – har været at håndtere såkaldte “sparse rewards”. Det betyder situationer, hvor robotten kun sjældent får feedback om, hvorvidt den gør det rigte.

Den nye HER-teknik løser dette problem ved at lade robotter lære af deres fejl på en ny måde. Metoden kan kombineres med eksisterende reinforcement learning-algoritmer og fungerer som en form for implicit læseplan, der gradvist øger sværhedsgraden.

Testet på robotarme

Forskerne fra OpenAI har demonstreret tilgangen på opgaver, hvor en robotarm skal manipulere objekter. De har gennemført eksperimenter med tre forskellige opgaver: skubbe, skyde og samle-og-placere objekter.

I alle tilfælde brugte systemet kun binære belønninger – altså simple ja/nej-signaler om, hvorvidt opgaven var fuldført eller ej. Dette eliminerer behovet for kompliceret “reward engineering”, hvor forskere ellers skal designe sofistikerede belønningssystemer.

Fra simulation til virkelighed

Studierne viser, at Hindsight Experience Replay er en afgørende ingrediens, der gør træning mulig i disse udfordrende miljøer. Forskerne har desuden demonstreret, at politikker trænet i fysiske simuleringer succesfuldt kan implementeres på fysiske robotter og gennemføre opgaverne i den virkelige verden.

Artiklen er publiceret på arXiv og er forfattet af et team af forskere fra OpenAI, herunder Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel og Wojciech Zaremba.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *