OpenAI Lancerer Sikkerhedsbenchmark for AI-Læring

OpenAI lancerer et nyt benchmark og testmiljø, Safety Gym, der skal gøre det nemmere at måle og sammenligne, hvor sikkert AI-agenter udforsker deres omgivelser under læring. Projektet standardiserer “constrained RL” som metode til at begrænse risici og introducerer baseline-resultater for dybe RL-algoritmer, så forskere kan bygge videre på en fælles reference. Målet er at bane vejen for AI-systemer, der kan lære i og fra den virkelige verden uden at forårsage skade.

Agentic
Af Agentic
2 Min Read

OpenAI lancerer benchmark for sikker udforskning i dyb forstærkningslæring

OpenAI har offentliggjort et nyt forskningsprojekt, der fokuserer på at gøre kunstig intelligens sikrere, når den lærer gennem trial-and-error. Projektet introducerer en standardiseret måde at måle, hvor godt AI-systemer kan udforske deres omgivelser uden at forårsage skade.

Sikkerhed som kritisk fokusområde

Forstærkningslæring (reinforcement learning) er en AI-teknik, hvor systemer lærer optimale strategier ved at eksperimentere i deres miljø. Men i mange situationer kan fejl have alvorlige konsekvenser. For eksempel må robotsystemer, der interagerer med mennesker, aldrig forårsage skader, mens de lærer.

Selvom AI-agenter i dag primært trænes i simulerede miljøer, hvor sikkerhedsbekymringer er minimale, forventer OpenAI et skift mod træning direkte i den virkelige verden. Dette skyldes udfordringer med at simulere komplekse aspekter af virkeligheden, såsom interaktioner mellem mennesker og AI.

Tre centrale bidrag

OpenAI præsenterer tre væsentlige fremskridt inden for sikker AI-udforskning:

For det første foreslår forskerne at standardisere “constrained RL” (begrænset forstærkningslæring) som hovedmetoden til sikker udforskning. Dette bygger videre på tidligere forskning inden for sikker forstærkningslæring.

For det andet introducerer de Safety Gym – en ny pakke af testmiljøer designet til at måle fremskridt inden for begrænset forstærkningslæring. Disse miljøer involverer høj-dimensionel kontinuerlig kontrol og giver forskere standardiserede værktøjer til at evaluere deres algoritmer.

Endelig har teamet benchmarket flere algoritmer til begrænset dyb forstærkningslæring i Safety Gym-miljøerne for at etablere baseline-resultater, som fremtidig forskning kan bygge videre på.

Fremtidsperspektiv

Med dette arbejde positionerer OpenAI sikker udforskning som et kritisk fokusområde for AI-forskning. Projektet sigter mod at sikre, at AI-systemer kan lære og forbedre sig uden at udgøre risici for mennesker eller deres omgivelser – en afgørende forudsætning for bredere anvendelse af AI i den virkelige verden.

Forskningsartiklen er udarbejdet af Alex Ray, Joshua Achiam og Dario Amodei fra OpenAI.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *