OpenAI styrker AI-sikkerhed med nyt instruktionshierarki

OpenAI lancerer en ny metode, “The Instruction Hierarchy”, der gør store sprogmodeller bedre til at modstå prompt-injektioner ved konsekvent at prioritere udviklerinstruktioner over potentielt ondsindede brugerkommandoer. I test på GPT-3.5 gav tilgangen markant højere robusthed – også mod ukendte angrebstyper – uden nævneværdigt tab af normal funktionalitet. Resultaterne kan få stor betydning for sikker brug af AI i forretningskritiske applikationer, hvor jailbreaks og manipulation er en reel risiko.

Agentic
Af Agentic
2 Min Read

OpenAI udvikler nyt sikkerhedssystem mod prompt-injektioner i AI-modeller

OpenAI har offentliggjort en ny forskningsmetode, der skal gøre store sprogmodeller (LLM’er) som ChatGPT langt mere robuste over for såkaldte prompt-injektioner og andre sikkerhedsangreb.

I en ny forskningspublikation præsenterer tech-giganten konceptet “The Instruction Hierarchy” – et hierarkisk system, der lærer AI-modeller at prioritere instruktioner fra udviklere højere end potentielt ondsindede kommandoer fra brugere eller tredjeparter.

Fundamentalt sikkerhedsproblem løst

Ifølge OpenAI er en af de primære sårbarheder ved nutidens AI-modeller, at de ofte behandler systemprompts fra applikationsudviklere på samme niveau som tekst fra ikke-betroede brugere. Dette åbner døren for angreb, hvor ondsindede aktører kan overskrive modellens oprindelige instruktioner med deres egne kommandoer.

“Vi foreslår et instruktionshierarki, der eksplicit definerer, hvordan modeller skal opføre sig, når instruktioner af forskellige prioriteter er i konflikt,” forklarer forskerne bag projektet, der inkluderer Eric Wallace, Kai Xiao, Reimar Leike og Lilian Weng.

Dramatisk forbedring af robustheden

Forskerne har udviklet en datagenereringsmetode, der demonstrerer denne hierarkiske instruktionsfølgende adfærd. Metoden lærer LLM’er selektivt at ignorere instruktioner med lavere prioritet.

Da metoden blev anvendt på GPT-3.5, viste resultaterne en drastisk stigning i robustheden – selv mod angrebstyper, som modellen ikke havde set under træningen. Samtidig var der kun minimale forringelser af modellens standardfunktioner.

Bred anvendelse

Forskningsresultaterne er særligt relevante i en tid, hvor AI-modeller i stigende grad integreres i forretningsapplikationer og systemer, hvor sikkerhed er kritisk. Metoden adresserer centrale udfordringer inden for AI-sikkerhed, herunder jailbreaks og andre former for manipulation.

Forskningsartiklen er nu tilgængelig og markerer endnu et skridt i OpenAI’s fortsatte arbejde med at gøre kunstig intelligens mere sikker og pålidelig.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *