OpenAI: Dybdegående Sikkerhedsrapport for GPT-4o Afslører Stemmerisici og Styrker

OpenAI har udgivet et detaljeret systemkort for GPT-4o, som giver et sjældent indblik i modellens sikkerhedsrisici og de tiltag, der skal håndtere dem. Rapporten fremhæver især udfordringer ved stemmefunktionen, resultater fra omfattende global red teaming og markante fremskridt på medicinske tests. Den vurderer lav risiko i de fleste katastrofekategorier, men peger på fortsatte problemfelter som misinformation, robusthed over for lydstøj og bias – og understreger en iterativ tilgang til AI-sikkerhed.

Agentic
Af Agentic
3 Min Read

OpenAI offentliggør omfattende sikkerhedsrapport for GPT-4o

OpenAI har netop udgivet et detaljeret systemkort for deres multimodale AI-model GPT-4o, der giver et sjældent indblik i de sikkerhedsudfordringer og risici, som følger med avancerede AI-systemer.

Stemmekapacitet skaber nye risici

Det mest markante ved GPT-4o er modellens evne til at behandle og generere tale, billeder og tekst i realtid. Men netop stemmekapaciteten har vist sig at rejse helt nye sikkerhedsmæssige bekymringer.

OpenAI identificerede risikoen for uautoriseret stemmegenerering som et centralt problem. Under testfasen observerede man sjældne tilfælde, hvor modellen utilsigtet begyndte at efterligne brugerens stemme. For at imødegå dette tillader OpenAI kun foruddefinerede stemmer skabt i samarbejde med professionelle stemmeskuespillere, og systemet overvåger løbende, om modellen afviger fra de godkendte stemmer.

Omfattende ekstern testning

Mere end 100 eksterne sikkerhedseksperter – såkaldte “red teamers” – har testet modellen på 45 forskellige sprog fra 29 lande. Testningen foregik i fire faser fra marts til juni 2024 og afslørede en række potentielle problemer, herunder risiko for følelsesmæssig afhængighed af AI-systemet.

“Under tidlig testning observerede vi brugere, der brugte sprog, som kunne indikere, at de dannede forbindelser med modellen,” skriver OpenAI i rapporten. Eksempler inkluderer sætninger som “Dette er vores sidste dag sammen.”

Stærk præstation på medicinske tests

På den positive side viser GPT-4o markante fremskridt inden for medicinsk viden. På den populære MedQA USMLE-test opnåede modellen 89,4% korrekte svar – en betydelig forbedring fra tidligere versioner og bedre end specialiserede medicinske AI-modeller.

Lave risici for katastrofale scenarier

Ifølge OpenAIs Preparedness Framework scorede GPT-4o “lav” risiko på tre ud af fire katastrofale risikokategorier: cybersikkerhed, biologiske trusler og modelautonomi. Kun kategorien “overtalelse” scorede “medium” risiko.

Uafhængige sikkerhedslaboratorier METR og Apollo Research har valideret, at modellen ikke besidder farlige autonome kapaciteter, der kunne føre til tab af kontrol.

Fortsatte udfordringer

OpenAI anerkender flere områder, hvor arbejdet fortsætter:

  • Robusthed over for lydstøj og forstyrrelser
  • Risiko for misinformation, særligt når information leveres via stemme
  • Potentiel bias i ikke-engelske accenter
  • Begrænsninger i håndtering af komplekse videnskabelige figurer

Systemkortet understreger OpenAIs iterative tilgang til AI-sikkerhed, hvor modeller kontinuerligt overvåges og opdateres efter udrulning. Rapporten opfordrer til yderligere forskning i antropomorfisering af AI, økonomiske konsekvenser og modellernes videnskabelige kapaciteter.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *