OpenAI styrker AI-sikkerhed via ekstern testning

OpenAI skruer op for sikkerheden omkring sine mest avancerede AI-modeller ved systematisk at lade uafhængige eksperter teste dem før lancering. Artiklen forklarer, hvordan virksomheden samarbejder om uafhængige evalueringer, metodereviews og ekspertvurderinger for at validere egne tests, afsløre blinde vinkler og øge gennemsigtigheden. Den dækker også rammerne for fortrolighed og kompensation, de første publicerede evalueringer samt hvorfor et stærkt, uafhængigt sikkerhedsøkosystem er afgørende for fremtidens AI.

Agentic
Af Agentic
3 Min Read

OpenAI styrker sikkerhedsøkosystem med ekstern testning af AI-modeller

OpenAI har offentliggjort en detaljeret beskrivelse af, hvordan virksomheden samarbejder med eksterne eksperter og organisationer om at teste og evaluere deres avancerede AI-modeller, før de lanceres til offentligheden.

Siden lanceringen af GPT-4 har OpenAI inviteret uafhængige eksperter til at gennemføre sikkerhedsvurderinger af deres frontier-modeller. Formålet er at validere virksomhedens egne sikkerhedsvurderinger, identificere blinde vinkler og øge gennemsigtigheden omkring AI-systemernes kapaciteter og potentielle risici.

Tre former for ekstern evaluering

OpenAI arbejder med eksterne partnere på tre forskellige måder:

Uafhængige evalueringer foretages af specialiserede organisationer, der tester modellerne inden for kritiske områder som biosikkerhed, cybersikkerhed, AI’s evne til selvforbedring og såkaldt “scheming” – hvor AI-systemer potentielt kunne handle mod deres programmerede formål.

For eksempel har eksterne eksperter fået adgang til tidlige versioner af GPT-5 for at teste modellens kapaciteter både med og uden sikkerhedsforanstaltninger. Nogle organisationer har endda fået direkte adgang til modellens ræsonnementer for at kunne identificere tilfælde, hvor modellen bevidst underperformer eller skjuler sine reelle kapaciteter.

Metodereview anvendes, når eksterne eksperter gennemgår OpenAI’s egne testmetoder og resultater. Dette var tilfældet ved lanceringen af gpt-oss, hvor OpenAI brugte adversarial fine-tuning til at estimere worst-case scenarier. Her var det mere produktivt at få eksterne eksperter til at validere metoderne frem for at gentage de ressourcekrævende tests.

Ekspertvurderinger indebærer, at fageksperter direkte tester modellerne med deres egne scenarier og giver struktureret feedback. For eksempel har biologiske eksperter testet, hvor meget ChatGPT Agent og GPT-5 kunne hjælpe en motiveret novice med at udføre biosikkerhedsrelaterede opgaver.

Gennemsigtighed med forbehold

OpenAI har også offentliggjort detaljer om de fortrolighedsaftaler, som eksterne testere skal underskrive. Virksomheden stræber efter at muliggøre offentliggørelse af testresultater, samtidig med at fortrolige oplysninger og intellektuel ejendomsret beskyttes.

Flere eksterne organisationer har allerede publiceret deres evalueringer efter OpenAI’s gennemgang, herunder METR’s GPT-5 rapport og Apollo Research’s vurdering af OpenAI o1.

OpenAI kompenserer alle eksterne testere økonomisk, enten gennem direkte betaling eller ved at subsidiere omkostningerne til modelanvendelse. Vigtigst er det, at ingen betaling nogensinde er betinget af testresultaterne.

Fremtiden for AI-sikkerhed

OpenAI understreger behovet for at fortsætte med at styrke økosystemet af organisationer, der kan foretage troværdige sikkerhedsvurderinger af avancerede AI-systemer. Dette kræver specialiseret ekspertise, stabil finansiering og metodologisk stringens.

Virksomheden fremhæver, at ekstern testning er én af flere måder, hvorpå de indhenter eksterne perspektiver på deres sikkerhedsarbejde. Dette suppleres af strukturerede red teaming-indsatser, samarbejde med amerikanske og britiske AI-sikkerhedsinstitutter samt rådgivende grupper som deres globale læge-netværk.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *