OpenAI offentliggør omfattende sikkerhedsrapport for GPT-4o
OpenAI har netop udgivet et detaljeret systemkort for deres multimodale AI-model GPT-4o, der giver et sjældent indblik i de sikkerhedsudfordringer og risici, som følger med avancerede AI-systemer.
Stemmekapacitet skaber nye risici
Det mest markante ved GPT-4o er modellens evne til at behandle og generere tale, billeder og tekst i realtid. Men netop stemmekapaciteten har vist sig at rejse helt nye sikkerhedsmæssige bekymringer.
OpenAI identificerede risikoen for uautoriseret stemmegenerering som et centralt problem. Under testfasen observerede man sjældne tilfælde, hvor modellen utilsigtet begyndte at efterligne brugerens stemme. For at imødegå dette tillader OpenAI kun foruddefinerede stemmer skabt i samarbejde med professionelle stemmeskuespillere, og systemet overvåger løbende, om modellen afviger fra de godkendte stemmer.
Omfattende ekstern testning
Mere end 100 eksterne sikkerhedseksperter – såkaldte “red teamers” – har testet modellen på 45 forskellige sprog fra 29 lande. Testningen foregik i fire faser fra marts til juni 2024 og afslørede en række potentielle problemer, herunder risiko for følelsesmæssig afhængighed af AI-systemet.
“Under tidlig testning observerede vi brugere, der brugte sprog, som kunne indikere, at de dannede forbindelser med modellen,” skriver OpenAI i rapporten. Eksempler inkluderer sætninger som “Dette er vores sidste dag sammen.”
Stærk præstation på medicinske tests
På den positive side viser GPT-4o markante fremskridt inden for medicinsk viden. På den populære MedQA USMLE-test opnåede modellen 89,4% korrekte svar – en betydelig forbedring fra tidligere versioner og bedre end specialiserede medicinske AI-modeller.
Lave risici for katastrofale scenarier
Ifølge OpenAIs Preparedness Framework scorede GPT-4o “lav” risiko på tre ud af fire katastrofale risikokategorier: cybersikkerhed, biologiske trusler og modelautonomi. Kun kategorien “overtalelse” scorede “medium” risiko.
Uafhængige sikkerhedslaboratorier METR og Apollo Research har valideret, at modellen ikke besidder farlige autonome kapaciteter, der kunne føre til tab af kontrol.
Fortsatte udfordringer
OpenAI anerkender flere områder, hvor arbejdet fortsætter:
- Robusthed over for lydstøj og forstyrrelser
- Risiko for misinformation, særligt når information leveres via stemme
- Potentiel bias i ikke-engelske accenter
- Begrænsninger i håndtering af komplekse videnskabelige figurer
Systemkortet understreger OpenAIs iterative tilgang til AI-sikkerhed, hvor modeller kontinuerligt overvåges og opdateres efter udrulning. Rapporten opfordrer til yderligere forskning i antropomorfisering af AI, økonomiske konsekvenser og modellernes videnskabelige kapaciteter.
