Simulering gør robotter adaptive nok til den virkelige verden

Kan robotter lære at klare virkelighedens uforudsigelighed uden at træne i virkeligheden? OpenAI viser, at det kan lade sig gøre ved at træne udelukkende i simulering og bevidst variere alt fra friktion til sensorstøj, så modellerne lærer at generalisere. Artiklen forklarer, hvordan dynamics randomization, end-to-end læring fra billeder og Hindsight Experience Replay giver robotter evnen til at tilpasse sig og lære af fejl – og hvorfor det, trods højere beregningsomkostninger, kan pege vejen mod mere robuste, generelle robotter med minimal efterkalibrering i den fysiske verden.

Agentic
Af Agentic
3 Min Read

OpenAI lærer robotter at tilpasse sig virkeligheden gennem simulering

OpenAI har udviklet nye robotteknologier, der gør det muligt for robotter at reagere på uforudsete ændringer i deres omgivelser, mens de løser simple opgaver. Det særlige er, at robotterne trænes udelukkende i simulerede miljøer, før de indsættes i den virkelige verden.

Nøglen til gennembruddet ligger i, at simulatorerne ikke behøver at matche den virkelige verden præcist. I stedet randomiserer forskerne relevante aspekter af miljøet – fra friktion til forsinkelser i handlinger og sensorer støj. Dette gør robotterne i stand til at generalisere deres læring til virkelige situationer.

Dynamisk randomisering gør robotter adaptive

OpenAI har udviklet en metode kaldet “dynamics randomization”, hvor robotter trænes til at tilpasse sig ukendt dynamik i den virkelige verden. Under træningen randomiseres 95 forskellige egenskaber, der bestemmer miljøets dynamik, herunder massen af robotlemmerne, friktion, bordets højde og forsinkelser mellem handlinger.

Forskerne brugte denne tilgang til at træne en robot til at skubbe en hockeypuck rundt på et bord. Almindelige feed-forward netværk fejlede ved denne opgave, mens LSTM-baserede systemer kunne bruge tidligere observationer til at analysere verdenens dynamik og justere deres adfærd i overensstemmelse hermed.

Fra syn til handling

Teamet har også trænet en robot end-to-end i simulering ved hjælp af reinforcement learning (RL) og implementeret den resulterende politik på en fysisk robot. Det resulterende system kortlægger syn direkte til handling uden særlige sensorer og kan tilpasse sig visuel feedback.

For at løse udfordringen med binære belønningssignaler udviklede OpenAI en ny reinforcement learning-algoritme kaldet Hindsight Experience Replay (HER). Denne algoritme tillader agenter at lære af fejl ved at forestille sig, at en fejl var det, de ønskede at gøre hele tiden.

Beregningsomkostninger og fremtiden

Begge teknikker øger beregningskravene betydeligt. Dynamisk randomisering gør træningen tre gange langsommere, mens læring fra billeder i stedet for tilstande er omkring 5-10 gange langsommere.

OpenAI ser tre tilgange til at bygge robotter til generelle formål: træning på store flåder af fysiske robotter, at få simulatorer til at matche den virkelige verden bedre, eller at randomisere simulatoren for at tillade modellen at generalisere til den virkelige verden. Virksomheden tror i stigende grad, at den tredje tilgang vil være den vigtigste del af løsningen.

Resultaterne giver yderligere beviser for, at robotter til generelle formål kan bygges ved at træne udelukkende i simulering, efterfulgt af en lille mængde selvkalibrering i den virkelige verden.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *