OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI præsenterer ny AI-sikkerhedsteknik til komplekse opgaver

OpenAI har offentliggjort en ny tilgang til AI-sikkerhed kaldet “iterated amplification” (iterativ forstærkning), som potentielt kan løse et af de største problemer inden for maskinlæring: Hvordan træner man AI-systemer til at udføre opgaver, der er for komplekse til, at mennesker kan bedømme eller demonstrere dem direkte?

Contents

OpenAI præsenterer ny AI-sikkerhedsteknik til komplekse opgaver

Udfordringen med træningssignaler
Sådan fungerer metoden
Foreløbige resultater
Fremtidsperspektiver

Udfordringen med træningssignaler

Traditionelt kræver maskinlæring et klart træningssignal – enten i form af mærkede data i supervised learning eller belønninger i reinforcement learning. Men mange virkelige opgaver er så komplicerede, at mennesker hverken kan udføre dem fuldstændigt eller bedømme AI’ens præstation præcist. Eksempler kunne være design af avancerede transitsystemer eller sikkerhedsstyring af store computernetværk.

“Hvis vi ikke har et træningssignal, kan vi ikke lære opgaven, og hvis vi har det forkerte træningssignal, kan vi få utilsigtet og nogle gange farlig adfærd,” forklarer forskerne bag projektet, Paul Christiano og Dario Amodei.

Sådan fungerer metoden

Iterated amplification bygger på en grundlæggende antagelse: Selvom et menneske ikke kan løse hele opgaven, kan mennesket identificere mindre komponenter, som opgaven består af, og løse meget små instanser af opgaven.

Metoden fungerer ved:

At starte med små delopgaver, som mennesker kan demonstrere
Træne AI-systemer til at løse disse små opgaver
Gradvist øge kompleksiteten ved at lade mennesker opdele større opgaver i mindre dele, som AI’en nu kan løse
Bruge løsningerne på disse sværere opgaver som træningssignal til næste niveau
Iterativt bygge videre, indtil systemet kan løse højt sammensatte opgaver helt automatisk

Foreløbige resultater

OpenAI har testet metoden på fem simple algoritmiske opgaver, herunder korteste vej-problemer og søgeopgaver. I disse tests præsterede systemet på niveau med traditionel supervised learning – på trods af handicappet ved ikke at have direkte adgang til træningssignalet.

“Målet her er at matche supervised learning med mindre information, ikke at overgå det,” understreger forskerne.

Fremtidsperspektiver

Metoden er stadig i sin tidlige fase og er kun testet på simple opgaver. OpenAI har valgt at offentliggøre resultaterne tidligt, fordi de mener, tilgangen kan vise sig at være en skalerbar løsning på AI-sikkerhed.

Iterated amplification har ligheder med OpenAI’s tidligere arbejde med “AI safety via debate” og bygger videre på deres forskning i menneskelig feedback til AI-systemer.

OpenAI arbejder nu på at skalere metoderne op til at adressere mere interessante og realistiske problemer.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”