OpenAI lancerer open source-sikkerhedsmodeller med tilpassede politikker
OpenAI har frigivet en forskningsforhåndsvisning af gpt-oss-safeguard, en ny type open source AI-modeller designet specifikt til sikkerhedsklassificering. Modellerne, der kommer i to størrelser på 120 milliarder og 20 milliarder parametre, repræsenterer en ny tilgang til indholdssikkerhed på digitale platforme.
Fleksibel sikkerhed med egne politikker
Det revolutionerende ved gpt-oss-safeguard er, at udviklere kan definere deres egne sikkerhedspolitikker direkte under brug af modellen, i stedet for at skulle træne en helt ny klassifikator fra bunden. Modellen bruger en ræsonneringsbaseret tilgang, hvor den analyserer indhold ud fra den specifikke politik, udvikleren har defineret, og forklarer sin beslutningsproces trinvist.
Dette gør det muligt for eksempelvis en spilforum at screene for indhold om snyd i spillet, eller en produktanmeldelsesside at identificere falske anmeldelser – alt sammen uden at skulle investere måneder i at indsamle tusindvis af træningseksempler.
Frigivet under åben licens
Modellerne er tilgængelige under den permissive Apache 2.0-licens, hvilket betyder, at alle frit kan bruge, modificere og implementere dem. De kan downloades fra Hugging Face og er udviklet i samarbejde med sikkerhedsorganisationen ROOST.
Allerede i brug hos OpenAI
OpenAI har selv brugt denne tilgang internt i deres “Safety Reasoner”-værktøj, som er blevet en central del af deres sikkerhedsinfrastruktur. I nogle af deres seneste lanceringer har op til 16% af den samlede computerkraft været afsat til sikkerhedsræsonnering.
Modellerne anvendes blandt andet til at evaluere billedgenerering og Sora 2-videoer i realtid, samt til at klassificere output fra GPT-5 og ChatGPT Agent.
Stærk performance trods mindre størrelse
I test har gpt-oss-safeguard overraskende præsteret bedre end den meget større gpt-5-thinking-model på visse opgaver, hvilket OpenAI selv beskriver som bemærkelsesværdigt givet modellernes relativt lille størrelse.
Begrænsninger og fremtiden
OpenAI erkender dog, at traditionelle klassifikatorer trænet på titusindvis af eksempler stadig kan præstere bedre i visse situationer, og at modellen kan være beregningstung at køre på stor skala.
Som en del af lanceringen etablerer ROOST et nyt model-fællesskab, hvor sikkerhedspraktikere og forskere kan dele bedste praksis for implementering af open source AI-modeller i sikkerhedsarbejde.
