OpenAI træner robotter med sparsomme belønninger via “Hindsight Experience Replay”

OpenAI præsenterer ny teknik til at træne robotter med sparse belønninger

OpenAI har udviklet en ny metode kaldet “Hindsight Experience Replay” (HER), der gør det muligt at træne kunstig intelligens og robotter mere effektivt, selv når belønningerne er sjældne og binære.

En af de største udfordringer inden for reinforcement learning – en form for maskinlæring hvor AI lærer gennem forsøg og fejl – har været at håndtere situationer, hvor systemet kun sjældent får feedback. Den nye teknik løser dette problem ved at lade AI’en lære af sine fejl på en mere intelligent måde.

Lærer af fejlslagne forsøg

Metoden fungerer ved at genfortolke mislykkede forsøg som succeser for alternative mål. Hvis en robot for eksempel forsøger at placere en genstand på et bestemt sted, men fejler, kan systemet stadig lære noget ved at betragte det sted, hvor genstanden endte, som et alternativt mål, der blev nået.

“Hindsight Experience Replay gør det muligt at lære effektivt fra belønninger, der er sjældne og binære, og undgår dermed behovet for kompliceret belønningsdesign,” forklarer forskerne bag projektet.

Testet på robotarme

OpenAI har demonstreret tilgangen på opgaver, hvor en robotarm skal manipulere objekter. Forskerne har kørt eksperimenter på tre forskellige opgaver: skubbe, skubbe glidende og løfte-og-placere. I alle tilfælde blev der kun brugt binære belønninger, der indikerede, om opgaven var fuldført eller ej.

Resultaterne viser, at teknikken er afgørende for at gøre træning mulig i disse udfordrende miljøer. Politikker, der blev trænet i fysiske simuleringer, kunne efterfølgende implementeres på en fysisk robot og succesfuldt gennemføre opgaverne.

Kan kombineres med andre metoder

En af styrkerne ved den nye tilgang er, at den kan kombineres med enhver off-policy reinforcement learning-algoritme og kan ses som en form for implicit læseplan, hvor AI’en gradvist lærer mere komplekse færdigheder.

Forskningsteamet bag projektet omfatter blandt andre Marcin Andrychowicz, Wojciech Zaremba og Pieter Abbeel. Den fulde forskningsartikel er tilgængelig på OpenAI’s hjemmeside.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

OpenAI træner robotter med sparsomme belønninger via “Hindsight Experience Replay”

Skriv et svar Annuller svar

Related Strories

OpenAI lancerer Deep Research: AI udfører timelang research på minutter

OpenAI lancerer o3 og o4-mini: Avanceret ræsonnement og sikkerhed i fokus

ChatGPT Enterprise: OpenAI’s vej til datadrevne medarbejdere

OpenAI revolutionerer robotlæring med fejlbetinget træning

Quicklinks

Company

Follow Socials

Introducing AI for customer service

Top Stories

OpenAI træner robotter med sparsomme belønninger via “Hindsight Experience Replay”

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Skriv et svar Annuller svar

Related Strories

Get Insider Tips and Tricks in Our Newsletter!