OpenAI’s AI-gennembrud: Hurtigere læring med POLO

OpenAI præsenterer POLO (Plan Online, Learn Offline) – en ny metode, der drastisk accelererer, hvordan AI lærer komplekse opgaver ved at kombinere planlægning og læring på en koordineret måde. Ved at forene lokal trajektorieoptimering, globale værdifunktioner og målrettet udforskning kan systemer mestre udfordringer som humanoid bevægelse og fingerfærdig manipulation på få minutters erfaring. Resultaterne peger mod mere ressourceeffektiv træning og gør avanceret maskinlæring mere anvendelig i virkelige scenarier.

Agentic
Af Agentic
2 Min Read

OpenAI præsenterer ny metode til effektiv læring i kunstig intelligens

OpenAI har offentliggjort en ny forskningsmetode, der kan lære komplekse opgaver på rekordtid ved at kombinere planlægning og læring på en ny måde.

Forskere fra OpenAI har udviklet en framework kaldet POLO (Plan Online, Learn Offline), som gør det muligt for AI-agenter at lære avancerede opgaver markant hurtigere end tidligere metoder. Den nye tilgang kombinerer tre centrale elementer: lokal modelbaseret kontrol, global værdibaseret læring og strategisk udforskning.

Hurtigere læring gennem bedre planlægning

POLO-metoden bygger på en synergistisk sammenhæng mellem, hvordan AI-systemer planlægger handlinger og lærer af deres erfaringer. I stedet for at skulle træne i timevis eller dagevis, kan systemet nu mestre komplekse opgaver på minutter.

Forskerne har demonstreret metodens effektivitet på særligt udfordrende simulerede opgaver, herunder humanoid bevægelse og fingerfærdig manipulation af objekter. I disse tests kunne AI-systemerne lære opgaverne på hvad der svarer til få minutters erfaring i den virkelige verden.

Tre centrale komponenter

Den nye metode består af tre sammenhængende dele:

Lokal trajektorieoptimering hjælper systemet med at håndtere unøjagtigheder i værdiestimeringer og kan stabilisere og accelerere læreprocessen.

Approksimative værdifunktioner gør det muligt at reducere planlægningshorisonten og finde bedre løsninger end blot lokale optimeringer.

Koordineret udforskning bruger trajektorieoptimering til at udforske miljøet på en tidsmæssigt koordineret måde, samtidig med at usikkerheden i værdiestimeringerne tages i betragtning.

Betydning for fremtidig AI-udvikling

Forskningen, som er udført af Kendall Lowrey, Aravind Rajeswaran, Sham Kakade, Emanuel Todorov og Igor Mordatch, repræsenterer et vigtigt skridt mod mere effektive læringsmetoder inden for kunstig intelligens.

Den hurtigere læringshastighed kan potentielt reducere de ressourcer, der kræves for at træne AI-systemer, og gøre det mere praktisk at anvende avanceret maskinlæring i virkelige scenarier, hvor træning direkte i miljøet er nødvendig.

Forskningsartiklen er tilgængelig på arXiv og blev offentliggjort den 5. november 2018.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *