OpenAI træner robotter i simulation til virkelige opgaver

OpenAI præsenterer en banebrydende tilgang, hvor robotter trænes udelukkende i simulerede miljøer og alligevel kan løse opgaver i den virkelige verden. Ved at randomisere fysik og sensordata samt udnytte LSTM-netværk og HER lærer robotterne robuste strategier direkte fra visuelle input—om end med markant højere beregningskrav. Resultaterne peger på, at randomiserede simulatorer kan blive nøglen til at bygge generelle, skalerbare robotsystemer.

Agentic
Af Agentic
3 Min Read

OpenAI træner robotter i simuleret miljø til virkelige opgaver

OpenAI har præsenteret nye robotteknologier, der gør det muligt at træne robotter udelukkende i simulerede miljøer, hvorefter de kan løse opgaver i den virkelige verden. Tilgangen markerer et betydeligt fremskridt i udviklingen af generelle robotsystemer.

Træning gennem tilfældighed

Kernen i OpenAIs nye metode er såkaldt “dynamics randomization”, hvor forskerne under træningen randomiserer op til 95 forskellige egenskaber i det simulerede miljø. Det omfatter alt fra friktion og masse af robotdelene til forsinkelser i handlinger og støj i sensordata.

Denne tilgang gør det muligt for robotten at tilpasse sig ukendte forhold i den virkelige verden, selvom simulatoren ikke matcher virkeligheden præcist i hverken udseende eller fysik.

LSTM-netværk giver hukommelse

OpenAI har med succes trænet en robot til at skubbe en hockey-puck rundt på et bord ved hjælp af LSTM-baserede neurale netværk. Disse netværk kan bruge tidligere observationer til at analysere omgivelsernes dynamik og justere deres adfærd i overensstemmelse hermed – noget almindelige feed-forward netværk ikke formår.

Fra vision til handling

Forskerne har også udviklet en metode, hvor robotten trænes end-to-end i simulation ved hjælp af reinforcement learning. Det resulterende system kan omsætte visuel information direkte til handling uden behov for specialsensorer.

En central innovation er algoritmen “Hindsight Experience Replay” (HER), som gør det muligt for robotter at lære af fejl ved at forestille sig, at en mislykket handling faktisk var det tilsigtede mål, og derefter lære af den erfaring.

Større beregningskrav

De nye teknikker kræver betydeligt mere computerkraft end tidligere metoder. Dynamics randomization gør træningen cirka tre gange langsommere, mens læring fra billeder i stedet for direkte tilstandsdata er 5-10 gange langsommere.

OpenAI ser tre mulige veje til at bygge generelle robotter: træning på enorme flåder af fysiske robotter, at gøre simulatorer mere realistiske, eller at randomisere simulatoren for at tillade generalisering til den virkelige verden. Virksomheden vurderer, at den sidste tilgang vil blive den vigtigste del af løsningen.

Resultaterne blev offentliggjort i oktober 2017 og repræsenterer et vigtigt skridt mod udviklingen af generelle robotsystemer, der kan trænes effektivt i simulation før udrulning i den virkelige verden.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *