OpenAI præsenterer omfattende sikkerhedsstrategi for avanceret AI
OpenAI har offentliggjort en detaljeret redegørelse for, hvordan virksomheden håndterer de potentielle risici ved stadig mere avancerede AI-modeller. Opdateringen kommer forud for det britiske AI Safety Summit og beskriver virksomhedens fremskridt siden de frivillige sikkerhedsforpligtelser, som blev indgået i juli 2023.
Nyt Preparedness Framework på vej
Centralt i OpenAIs tilgang står et kommende “Preparedness Framework” – en risikobaseret ramme for ansvarlig udvikling af avancerede AI-modeller. Rammen skal detaljere, hvordan virksomheden evaluerer og overvåger modellernes kapaciteter, særligt i forhold til katastrofale risici.
“Frontier AI-modeller har potentialet til at gavne hele menneskeheden, men udgør også stadig mere alvorlige risici,” skriver OpenAI i opdateringen.
Preparedness Framework vil fokusere på risici inden for cybersikkerhed, overtalelsesevne, kemiske og biologiske trusler samt autonomi. Et dedikeret team er blevet oprettet til at drive arbejdet frem.
Omfattende test før lancering
OpenAI har gennemført omfattende sikkerhedstest af sine nyeste modeller. Før lanceringen af GPT-4 blev modellen testet af eksterne eksperter for risici relateret til masseødelæggelsesvåben, cybertrusler og selvreplikation.
Ved test af billedgenereringsmodellen DALL-E 3 – den første store modeludgivelse under de frivillige forpligtelser – fandt forskerne minimal risiko. Testene viste, at selvom modellen kunne forkorte researchtiden for visse opgaver, var den ikke tilstrækkelig alene til at udgøre en proliferationsrisiko.
To nye specialiserede teams
OpenAI har etableret to nye teams til at håndtere fremtidens udfordringer:
Superalignment-teamet, ledet af medstifter Ilya Sutskever, skal løse det fundamentale problem med at kontrollere AI-systemer, der er klogere end mennesker. Virksomheden har afsat 20% af sin computerkraft til dette arbejde med målet om at udvikle en næsten menneskelig automatiseret alignment-forsker inden for fire år.
Preparedness-teamet skal identificere, spore og forberede sig på potentielle misbrugsrisici fra stadig mere avancerede modeller.
Øget transparens og sikkerhed
Som led i transparensarbejdet udgiver OpenAI nu “system cards” for nye AI-systemer, der beskriver vigtige faktorer for ansvarlig brug. Virksomheden har også lanceret et bug bounty-program, hvor sikkerhedsforskere kan få op til 20.000 dollar for at rapportere alvorlige sårbarheder.
OpenAI arbejder desuden på tekniske løsninger til at identificere AI-genereret indhold, herunder vandmærkning og klassificeringsværktøjer.
Virksomheden holder sine mest kraftfulde modeller som lukkede tjenester og distribuerer ikke modelvægtene uden for OpenAI og teknologipartneren Microsoft. Dette skal sikre, at følsom information forbliver kontrolleret.
Industri-samarbejde
OpenAI var med til at etablere Frontier Model Forum sammen med Microsoft, Google DeepMind og Anthropic – et brancheforum til at fremme AI-sikkerhedsforskning og ansvarlig udviklingspraksis.
Opdateringen understreger OpenAIs fokus på at balancere innovation med sikkerhed, mens AI-teknologien fortsætter sin hurtige udvikling.
