OpenAI styrker sikkerhedsøkosystem med ekstern testning af AI-modeller
OpenAI har offentliggjort en detaljeret beskrivelse af, hvordan virksomheden samarbejder med eksterne eksperter og organisationer om at teste og evaluere deres avancerede AI-modeller, før de lanceres til offentligheden.
Siden lanceringen af GPT-4 har OpenAI inviteret uafhængige eksperter til at gennemføre sikkerhedsvurderinger af deres frontier-modeller. Formålet er at validere virksomhedens egne sikkerhedsvurderinger, identificere blinde vinkler og øge gennemsigtigheden omkring AI-systemernes kapaciteter og potentielle risici.
Tre former for ekstern evaluering
OpenAI arbejder med eksterne partnere på tre forskellige måder:
Uafhængige evalueringer foretages af specialiserede organisationer, der tester modellerne inden for kritiske områder som biosikkerhed, cybersikkerhed, AI’s evne til selvforbedring og såkaldt “scheming” – hvor AI-systemer potentielt kunne handle mod deres programmerede formål.
For eksempel har eksterne eksperter fået adgang til tidlige versioner af GPT-5 for at teste modellens kapaciteter både med og uden sikkerhedsforanstaltninger. Nogle organisationer har endda fået direkte adgang til modellens ræsonnementer for at kunne identificere tilfælde, hvor modellen bevidst underperformer eller skjuler sine reelle kapaciteter.
Metodereview anvendes, når eksterne eksperter gennemgår OpenAI’s egne testmetoder og resultater. Dette var tilfældet ved lanceringen af gpt-oss, hvor OpenAI brugte adversarial fine-tuning til at estimere worst-case scenarier. Her var det mere produktivt at få eksterne eksperter til at validere metoderne frem for at gentage de ressourcekrævende tests.
Ekspertvurderinger indebærer, at fageksperter direkte tester modellerne med deres egne scenarier og giver struktureret feedback. For eksempel har biologiske eksperter testet, hvor meget ChatGPT Agent og GPT-5 kunne hjælpe en motiveret novice med at udføre biosikkerhedsrelaterede opgaver.
Gennemsigtighed med forbehold
OpenAI har også offentliggjort detaljer om de fortrolighedsaftaler, som eksterne testere skal underskrive. Virksomheden stræber efter at muliggøre offentliggørelse af testresultater, samtidig med at fortrolige oplysninger og intellektuel ejendomsret beskyttes.
Flere eksterne organisationer har allerede publiceret deres evalueringer efter OpenAI’s gennemgang, herunder METR’s GPT-5 rapport og Apollo Research’s vurdering af OpenAI o1.
OpenAI kompenserer alle eksterne testere økonomisk, enten gennem direkte betaling eller ved at subsidiere omkostningerne til modelanvendelse. Vigtigst er det, at ingen betaling nogensinde er betinget af testresultaterne.
Fremtiden for AI-sikkerhed
OpenAI understreger behovet for at fortsætte med at styrke økosystemet af organisationer, der kan foretage troværdige sikkerhedsvurderinger af avancerede AI-systemer. Dette kræver specialiseret ekspertise, stabil finansiering og metodologisk stringens.
Virksomheden fremhæver, at ekstern testning er én af flere måder, hvorpå de indhenter eksterne perspektiver på deres sikkerhedsarbejde. Dette suppleres af strukturerede red teaming-indsatser, samarbejde med amerikanske og britiske AI-sikkerhedsinstitutter samt rådgivende grupper som deres globale læge-netværk.
