OpenAI præsenterer ny AI-sikkerhedsteknik til komplekse opgaver
OpenAI har offentliggjort en ny tilgang til AI-sikkerhed kaldet “iterated amplification” (iterativ forstærkning), som potentielt kan løse et af de største problemer inden for maskinlæring: Hvordan træner man AI-systemer til at udføre opgaver, der er for komplekse til, at mennesker kan bedømme eller demonstrere dem direkte?
Udfordringen med træningssignaler
Traditionelt kræver maskinlæring et klart træningssignal – enten i form af mærkede data i supervised learning eller belønninger i reinforcement learning. Men mange virkelige opgaver er så komplicerede, at mennesker hverken kan udføre dem fuldstændigt eller bedømme AI’ens præstation præcist. Eksempler kunne være design af avancerede transitsystemer eller sikkerhedsstyring af store computernetværk.
“Hvis vi ikke har et træningssignal, kan vi ikke lære opgaven, og hvis vi har det forkerte træningssignal, kan vi få utilsigtet og nogle gange farlig adfærd,” forklarer forskerne bag projektet, Paul Christiano og Dario Amodei.
Sådan fungerer metoden
Iterated amplification bygger på en grundlæggende antagelse: Selvom et menneske ikke kan løse hele opgaven, kan mennesket identificere mindre komponenter, som opgaven består af, og løse meget små instanser af opgaven.
Metoden fungerer ved:
- At starte med små delopgaver, som mennesker kan demonstrere
- Træne AI-systemer til at løse disse små opgaver
- Gradvist øge kompleksiteten ved at lade mennesker opdele større opgaver i mindre dele, som AI’en nu kan løse
- Bruge løsningerne på disse sværere opgaver som træningssignal til næste niveau
- Iterativt bygge videre, indtil systemet kan løse højt sammensatte opgaver helt automatisk
Foreløbige resultater
OpenAI har testet metoden på fem simple algoritmiske opgaver, herunder korteste vej-problemer og søgeopgaver. I disse tests præsterede systemet på niveau med traditionel supervised learning – på trods af handicappet ved ikke at have direkte adgang til træningssignalet.
“Målet her er at matche supervised learning med mindre information, ikke at overgå det,” understreger forskerne.
Fremtidsperspektiver
Metoden er stadig i sin tidlige fase og er kun testet på simple opgaver. OpenAI har valgt at offentliggøre resultaterne tidligt, fordi de mener, tilgangen kan vise sig at være en skalerbar løsning på AI-sikkerhed.
Iterated amplification har ligheder med OpenAI’s tidligere arbejde med “AI safety via debate” og bygger videre på deres forskning i menneskelig feedback til AI-systemer.
OpenAI arbejder nu på at skalere metoderne op til at adressere mere interessante og realistiske problemer.
