OpenAI lancerer open source-modeller til indholdsmoderator
OpenAI har frigivet to nye open source AI-modeller, der er specialdesignet til at klassificere og moderere indhold baseret på specifikke retningslinjer. Modellerne, kaldet gpt-oss-safeguard-120b og gpt-oss-safeguard-20b, frigives under Apache 2.0-licensen.
De to nye modeller er udviklet på baggrund af OpenAI’s tidligere gpt-oss-modeller og er trænet til at vurdere indhold ud fra givne politikker. Modellerne er tekstbaserede og kan tilpasses specifikke behov, hvilket gør dem særligt velegnede til virksomheder og platforme, der har brug for at moderere brugerindhold.
Fuld gennemsigtighed i beslutningsprocessen
En af de centrale funktioner ved de nye modeller er, at de leverer fuld “chain-of-thought” (CoT), hvilket betyder, at brugerne kan se hele ræsonnementet bag modellernes beslutninger. Modellerne understøtter også forskellige niveauer af ræsonnementsintensitet – lav, mellem og høj – samt strukturerede outputs.
OpenAI understreger dog, at modellerne primært er designet til at klassificere indhold og ikke som kerneprodukt, som slutbrugere skal interagere direkte med. Til sådanne formål anbefaler virksomheden stadig de originale gpt-oss-modeller.
Sikkerhed i fokus
Selvom modellerne er open source og derfor kan bruges på måder, som ikke oprindeligt var tiltænkt, har OpenAI gennemført omfattende sikkerhedsevalueringer. Virksomheden har testet modellerne i chat-indstillinger for at sikre, at de lever op til OpenAI’s sikkerhedsstandarder, selv ved alternative anvendelser.
De nye gpt-oss-safeguard-modeller er fine-tunet versioner af deres gpt-oss-modvægter og er trænet uden yderligere biologiske eller cybersikkerhedsdata. OpenAI har derfor vurderet, at tidligere risikovurderinger fra gpt-oss-frigivelsen også gælder for disse nye modeller.
Modellerne er tilgængelige via OpenAI’s Responses API og er udviklet med feedback fra open source-fællesskabet.
