OpenAI lærer robotter at tilpasse sig virkeligheden gennem simulering
OpenAI har udviklet nye robotteknologier, der gør det muligt for robotter at reagere på uforudsete ændringer i deres omgivelser, mens de løser simple opgaver. Det særlige er, at robotterne trænes udelukkende i simulerede miljøer, før de indsættes i den virkelige verden.
Nøglen til gennembruddet ligger i, at simulatorerne ikke behøver at matche den virkelige verden præcist. I stedet randomiserer forskerne relevante aspekter af miljøet – fra friktion til forsinkelser i handlinger og sensorer støj. Dette gør robotterne i stand til at generalisere deres læring til virkelige situationer.
Dynamisk randomisering gør robotter adaptive
OpenAI har udviklet en metode kaldet “dynamics randomization”, hvor robotter trænes til at tilpasse sig ukendt dynamik i den virkelige verden. Under træningen randomiseres 95 forskellige egenskaber, der bestemmer miljøets dynamik, herunder massen af robotlemmerne, friktion, bordets højde og forsinkelser mellem handlinger.
Forskerne brugte denne tilgang til at træne en robot til at skubbe en hockeypuck rundt på et bord. Almindelige feed-forward netværk fejlede ved denne opgave, mens LSTM-baserede systemer kunne bruge tidligere observationer til at analysere verdenens dynamik og justere deres adfærd i overensstemmelse hermed.
Fra syn til handling
Teamet har også trænet en robot end-to-end i simulering ved hjælp af reinforcement learning (RL) og implementeret den resulterende politik på en fysisk robot. Det resulterende system kortlægger syn direkte til handling uden særlige sensorer og kan tilpasse sig visuel feedback.
For at løse udfordringen med binære belønningssignaler udviklede OpenAI en ny reinforcement learning-algoritme kaldet Hindsight Experience Replay (HER). Denne algoritme tillader agenter at lære af fejl ved at forestille sig, at en fejl var det, de ønskede at gøre hele tiden.
Beregningsomkostninger og fremtiden
Begge teknikker øger beregningskravene betydeligt. Dynamisk randomisering gør træningen tre gange langsommere, mens læring fra billeder i stedet for tilstande er omkring 5-10 gange langsommere.
OpenAI ser tre tilgange til at bygge robotter til generelle formål: træning på store flåder af fysiske robotter, at få simulatorer til at matche den virkelige verden bedre, eller at randomisere simulatoren for at tillade modellen at generalisere til den virkelige verden. Virksomheden tror i stigende grad, at den tredje tilgang vil være den vigtigste del af løsningen.
Resultaterne giver yderligere beviser for, at robotter til generelle formål kan bygges ved at træne udelukkende i simulering, efterfulgt af en lille mængde selvkalibrering i den virkelige verden.
