OpenAI præsenterer ny metode til effektiv læring i kunstig intelligens
OpenAI har offentliggjort en ny forskningsmetode, der kan lære komplekse opgaver på rekordtid ved at kombinere planlægning og læring på en ny måde.
Forskere fra OpenAI har udviklet en framework kaldet POLO (Plan Online, Learn Offline), som gør det muligt for AI-agenter at lære avancerede opgaver markant hurtigere end tidligere metoder. Den nye tilgang kombinerer tre centrale elementer: lokal modelbaseret kontrol, global værdibaseret læring og strategisk udforskning.
Hurtigere læring gennem bedre planlægning
POLO-metoden bygger på en synergistisk sammenhæng mellem, hvordan AI-systemer planlægger handlinger og lærer af deres erfaringer. I stedet for at skulle træne i timevis eller dagevis, kan systemet nu mestre komplekse opgaver på minutter.
Forskerne har demonstreret metodens effektivitet på særligt udfordrende simulerede opgaver, herunder humanoid bevægelse og fingerfærdig manipulation af objekter. I disse tests kunne AI-systemerne lære opgaverne på hvad der svarer til få minutters erfaring i den virkelige verden.
Tre centrale komponenter
Den nye metode består af tre sammenhængende dele:
Lokal trajektorieoptimering hjælper systemet med at håndtere unøjagtigheder i værdiestimeringer og kan stabilisere og accelerere læreprocessen.
Approksimative værdifunktioner gør det muligt at reducere planlægningshorisonten og finde bedre løsninger end blot lokale optimeringer.
Koordineret udforskning bruger trajektorieoptimering til at udforske miljøet på en tidsmæssigt koordineret måde, samtidig med at usikkerheden i værdiestimeringerne tages i betragtning.
Betydning for fremtidig AI-udvikling
Forskningen, som er udført af Kendall Lowrey, Aravind Rajeswaran, Sham Kakade, Emanuel Todorov og Igor Mordatch, repræsenterer et vigtigt skridt mod mere effektive læringsmetoder inden for kunstig intelligens.
Den hurtigere læringshastighed kan potentielt reducere de ressourcer, der kræves for at træne AI-systemer, og gøre det mere praktisk at anvende avanceret maskinlæring i virkelige scenarier, hvor træning direkte i miljøet er nødvendig.
Forskningsartiklen er tilgængelig på arXiv og blev offentliggjort den 5. november 2018.
