OpenAI lancerer open source AI-sikkerhedsmodeller med tilpassede regler

OpenAI åbner for en ny tilgang til indholdssikkerhed med gpt-oss-safeguard, open source-modeller der kan klassificere indhold ud fra udviklernes egne politikker uden særskilt træning. Modellerne, som frigives under Apache 2.0 og allerede bruges internt hos OpenAI, kombinerer ræsonneringsbaseret forklaring med stærk performance på trods af relativt lille størrelse. Samtidig lancerer ROOST et fællesskab for sikkerhedsfolk og forskere, der skal dele bedste praksis og hjælpe med at omsætte teknologien til robust drift.

Agentic
Af Agentic
3 Min Read

OpenAI lancerer open source-sikkerhedsmodeller med tilpassede politikker

OpenAI har frigivet en forskningsforhåndsvisning af gpt-oss-safeguard, en ny type open source AI-modeller designet specifikt til sikkerhedsklassificering. Modellerne, der kommer i to størrelser på 120 milliarder og 20 milliarder parametre, repræsenterer en ny tilgang til indholdssikkerhed på digitale platforme.

Fleksibel sikkerhed med egne politikker

Det revolutionerende ved gpt-oss-safeguard er, at udviklere kan definere deres egne sikkerhedspolitikker direkte under brug af modellen, i stedet for at skulle træne en helt ny klassifikator fra bunden. Modellen bruger en ræsonneringsbaseret tilgang, hvor den analyserer indhold ud fra den specifikke politik, udvikleren har defineret, og forklarer sin beslutningsproces trinvist.

Dette gør det muligt for eksempelvis en spilforum at screene for indhold om snyd i spillet, eller en produktanmeldelsesside at identificere falske anmeldelser – alt sammen uden at skulle investere måneder i at indsamle tusindvis af træningseksempler.

Frigivet under åben licens

Modellerne er tilgængelige under den permissive Apache 2.0-licens, hvilket betyder, at alle frit kan bruge, modificere og implementere dem. De kan downloades fra Hugging Face og er udviklet i samarbejde med sikkerhedsorganisationen ROOST.

Allerede i brug hos OpenAI

OpenAI har selv brugt denne tilgang internt i deres “Safety Reasoner”-værktøj, som er blevet en central del af deres sikkerhedsinfrastruktur. I nogle af deres seneste lanceringer har op til 16% af den samlede computerkraft været afsat til sikkerhedsræsonnering.

Modellerne anvendes blandt andet til at evaluere billedgenerering og Sora 2-videoer i realtid, samt til at klassificere output fra GPT-5 og ChatGPT Agent.

Stærk performance trods mindre størrelse

I test har gpt-oss-safeguard overraskende præsteret bedre end den meget større gpt-5-thinking-model på visse opgaver, hvilket OpenAI selv beskriver som bemærkelsesværdigt givet modellernes relativt lille størrelse.

Begrænsninger og fremtiden

OpenAI erkender dog, at traditionelle klassifikatorer trænet på titusindvis af eksempler stadig kan præstere bedre i visse situationer, og at modellen kan være beregningstung at køre på stor skala.

Som en del af lanceringen etablerer ROOST et nyt model-fællesskab, hvor sikkerhedspraktikere og forskere kan dele bedste praksis for implementering af open source AI-modeller i sikkerhedsarbejde.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *