OpenAI revolutionerer robotlæring med fejlbetinget træning

OpenAI frigiver robotmiljøer og algoritme til at lære af fejl

OpenAI har offentliggjort otte simulerede robotmiljøer samt en implementering af algoritmen Hindsight Experience Replay (HER), som forskere har udviklet gennem det seneste år. Værktøjerne, der er gjort tilgængelige via OpenAI’s Gym-platform, er designet til at træne modeller, som kan fungere på fysiske robotter.

De nye miljøer omfatter fire scenarier med Fetch-forskningsplatformen og fire med ShadowHand-robotten. Opgaverne spænder fra simple bevægelser til kompleks manipulation af objekter som klodser, æg og penne.

Læring gennem fejl

Det centrale i udgivelsen er HER-algoritmen, som introducerer et nyt paradigme inden for robotlæring. I stedet for kun at lære af vellykkede forsøg, kan algoritmen også udnytte fejlslagne forsøg konstruktivt.

Princippet er inspireret af menneskelig læring: Selvom man ikke rammer det oprindelige mål, har man stadig opnået et resultat. HER fungerer ved i eftertid at lade robotten “forestille sig”, at det opnåede resultat faktisk var målet hele tiden. På den måde kan systemet lære af hver eneste interaktion, uanset om den var succesfuld eller ej.

“Selv om vi ikke har ramt det ønskede mål, har vi i det mindste opnået et andet,” forklarer OpenAI i deres tekniske rapport. “Så hvorfor ikke bare lade som om, vi ville opnå netop dette mål fra starten?”

Sparse belønninger fungerer bedre

Overraskende viser OpenAI’s resultater, at algoritmen faktisk præsterer bedre med “sparse” belønninger – altså systemer hvor robotten kun får feedback ved succes eller fiasko – sammenlignet med traditionelle “tætte” belønninger, hvor systemet løbende får feedback.

I tests med den komplekse opgave HandManipulateBlockRotateXYZ, hvor ShadowHand-robotten skal manipulere en klods til en bestemt position og rotation, overgik DDPG+HER med sparse belønninger alle andre konfigurationer markant.

Forskningsopfordringer

Sammen med udgivelsen præsenterer OpenAI en række forslag til videre forskning, herunder:

Automatisk udvælgelse af alternative mål i stedet for hårdkodede strategier
Kombination af HER med hierarkisk reinforcement learning
Hurtigere informationsspredning i træningsprocessen
Integration med nyere algoritmer som Prioritized Experience Replay

De nye robotmiljøer og HER-implementeringen er tilgængelige som open source via OpenAI’s GitHub-repositorier og kan bruges med eksisterende Gym-kompatible reinforcement learning-algoritmer.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

OpenAI revolutionerer robotlæring med fejlbetinget træning

OpenAI frigiver robotmiljøer og algoritme til at lære af fejl

Skriv et svar Annuller svar

Related Strories

OpenAI DevDay 2025: Større, Bedre og Fuld af AI-Innovation

BBVA og OpenAI: AI-transformation af global banksektor

OpenAI lancerer nye, forbedrede embeddings til tekst og kode

OpenAI: Ny Robotttræning via Billedgenkendelse Simuleret

Quicklinks

Company

Follow Socials

Introducing AI for customer service

Top Stories

OpenAI revolutionerer robotlæring med fejlbetinget træning

OpenAI frigiver robotmiljøer og algoritme til at lære af fejl

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Skriv et svar Annuller svar

Related Strories

Get Insider Tips and Tricks in Our Newsletter!