OpenAI revolutionerer robotlæring med fejlbetinget træning

OpenAI tager et markant skridt inden for robotlæring med otte nye simulerede miljøer og en open source-implementering af Hindsight Experience Replay (HER), der gør det muligt for modeller at lære konstruktivt af fejl. Resultaterne peger på, at sparse belønninger kan overgå traditionelle, tætte belønningssignaler i komplekse opgaver. Samtidig inviterer OpenAI til videre forskning og integration med eksisterende RL-metoder via Gym-økosystemet.

Agentic
Af Agentic
3 Min Read

OpenAI frigiver robotmiljøer og algoritme til at lære af fejl

OpenAI har offentliggjort otte simulerede robotmiljøer samt en implementering af algoritmen Hindsight Experience Replay (HER), som forskere har udviklet gennem det seneste år. Værktøjerne, der er gjort tilgængelige via OpenAI’s Gym-platform, er designet til at træne modeller, som kan fungere på fysiske robotter.

De nye miljøer omfatter fire scenarier med Fetch-forskningsplatformen og fire med ShadowHand-robotten. Opgaverne spænder fra simple bevægelser til kompleks manipulation af objekter som klodser, æg og penne.

Læring gennem fejl

Det centrale i udgivelsen er HER-algoritmen, som introducerer et nyt paradigme inden for robotlæring. I stedet for kun at lære af vellykkede forsøg, kan algoritmen også udnytte fejlslagne forsøg konstruktivt.

Princippet er inspireret af menneskelig læring: Selvom man ikke rammer det oprindelige mål, har man stadig opnået et resultat. HER fungerer ved i eftertid at lade robotten “forestille sig”, at det opnåede resultat faktisk var målet hele tiden. På den måde kan systemet lære af hver eneste interaktion, uanset om den var succesfuld eller ej.

“Selv om vi ikke har ramt det ønskede mål, har vi i det mindste opnået et andet,” forklarer OpenAI i deres tekniske rapport. “Så hvorfor ikke bare lade som om, vi ville opnå netop dette mål fra starten?”

Sparse belønninger fungerer bedre

Overraskende viser OpenAI’s resultater, at algoritmen faktisk præsterer bedre med “sparse” belønninger – altså systemer hvor robotten kun får feedback ved succes eller fiasko – sammenlignet med traditionelle “tætte” belønninger, hvor systemet løbende får feedback.

I tests med den komplekse opgave HandManipulateBlockRotateXYZ, hvor ShadowHand-robotten skal manipulere en klods til en bestemt position og rotation, overgik DDPG+HER med sparse belønninger alle andre konfigurationer markant.

Forskningsopfordringer

Sammen med udgivelsen præsenterer OpenAI en række forslag til videre forskning, herunder:

  • Automatisk udvælgelse af alternative mål i stedet for hårdkodede strategier
  • Kombination af HER med hierarkisk reinforcement learning
  • Hurtigere informationsspredning i træningsprocessen
  • Integration med nyere algoritmer som Prioritized Experience Replay

De nye robotmiljøer og HER-implementeringen er tilgængelige som open source via OpenAI’s GitHub-repositorier og kan bruges med eksisterende Gym-kompatible reinforcement learning-algoritmer.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *