OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI introducerer “iterated amplification” – en ny tilgang til AI-sikkerhed, der gør det muligt at træne systemer til opgaver, som mennesker ikke kan bedømme direkte. Ved at nedbryde komplekse problemer i små, menneskeligt håndterbare delopgaver skabes et mere pålideligt træningssignal, der kan bygges op trin for trin. De første resultater på simple algoritmiske opgaver er lovende, og målet er at skalere metoden til mere realistiske, komplekse anvendelser.

Agentic
Af Agentic
3 Min Read

OpenAI præsenterer ny AI-sikkerhedsteknik til komplekse opgaver

OpenAI har offentliggjort en ny tilgang til AI-sikkerhed kaldet “iterated amplification” (iterativ forstærkning), som potentielt kan løse et af de største problemer inden for maskinlæring: Hvordan træner man AI-systemer til at udføre opgaver, der er for komplekse til, at mennesker kan bedømme eller demonstrere dem direkte?

Udfordringen med træningssignaler

Traditionelt kræver maskinlæring et klart træningssignal – enten i form af mærkede data i supervised learning eller belønninger i reinforcement learning. Men mange virkelige opgaver er så komplicerede, at mennesker hverken kan udføre dem fuldstændigt eller bedømme AI’ens præstation præcist. Eksempler kunne være design af avancerede transitsystemer eller sikkerhedsstyring af store computernetværk.

“Hvis vi ikke har et træningssignal, kan vi ikke lære opgaven, og hvis vi har det forkerte træningssignal, kan vi få utilsigtet og nogle gange farlig adfærd,” forklarer forskerne bag projektet, Paul Christiano og Dario Amodei.

Sådan fungerer metoden

Iterated amplification bygger på en grundlæggende antagelse: Selvom et menneske ikke kan løse hele opgaven, kan mennesket identificere mindre komponenter, som opgaven består af, og løse meget små instanser af opgaven.

Metoden fungerer ved:

  1. At starte med små delopgaver, som mennesker kan demonstrere
  2. Træne AI-systemer til at løse disse små opgaver
  3. Gradvist øge kompleksiteten ved at lade mennesker opdele større opgaver i mindre dele, som AI’en nu kan løse
  4. Bruge løsningerne på disse sværere opgaver som træningssignal til næste niveau
  5. Iterativt bygge videre, indtil systemet kan løse højt sammensatte opgaver helt automatisk

Foreløbige resultater

OpenAI har testet metoden på fem simple algoritmiske opgaver, herunder korteste vej-problemer og søgeopgaver. I disse tests præsterede systemet på niveau med traditionel supervised learning – på trods af handicappet ved ikke at have direkte adgang til træningssignalet.

“Målet her er at matche supervised learning med mindre information, ikke at overgå det,” understreger forskerne.

Fremtidsperspektiver

Metoden er stadig i sin tidlige fase og er kun testet på simple opgaver. OpenAI har valgt at offentliggøre resultaterne tidligt, fordi de mener, tilgangen kan vise sig at være en skalerbar løsning på AI-sikkerhed.

Iterated amplification har ligheder med OpenAI’s tidligere arbejde med “AI safety via debate” og bygger videre på deres forskning i menneskelig feedback til AI-systemer.

OpenAI arbejder nu på at skalere metoderne op til at adressere mere interessante og realistiske problemer.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *