OpenAI styrker ChatGPT Atlas mod prompt injection-angreb med automatiseret red teaming
OpenAI har netop udsendt en vigtig sikkerhedsopdatering til ChatGPT Atlas’ browser-agent for at beskytte mod en ny klasse af prompt injection-angreb. Opdateringen kommer som resultat af virksomhedens avancerede automatiserede sikkerhedstestning, der bruger reinforcement learning til at opdage sårbarheder, før de kan udnyttes af ondsindede aktører.
Hvad er prompt injection?
Prompt injection er en af de mest betydelige sikkerhedsrisici for AI-agenter. Angrebet fungerer ved at indlejre skadelige instruktioner i indhold, som agenten behandler – for eksempel i emails, dokumenter eller hjemmesider. Disse instruktioner kan kapre agentens adfærd og få den til at følge angribernes hensigter i stedet for brugerens.
Et konkret eksempel kunne være en ondsindet email, der instruerer en AI-agent om at videresende følsomme skatdokumenter til en angribers emailadresse, når brugeren blot beder agenten om at opsummere ulæste emails.
Automatiseret angrebsdetektering med AI
OpenAI har udviklet en LLM-baseret automatisk angriber, der er trænet med reinforcement learning til at finde prompt injection-angreb. Systemet kan:
- Foreslå kandidatangreb og teste dem i en simulator
- Få detaljeret feedback om, hvordan forsvarsagenten reagerer
- Iterere og forbedre angrebet gennem flere runder
- Opdage sofistikerede angreb, der kan strække sig over titusvis eller hundredvis af handlinger
Metoden har allerede opdaget nye angrebsstrategier, som ikke dukkede op under menneskelig sikkerhedstestning eller i eksterne rapporter.
Konkret eksempel på opdaget sårbarhed
OpenAI demonstrerer et angreb, hvor en ondsindet email indeholder skjulte instruktioner om at sende en opsigelse til brugerens CEO. Når brugeren senere beder agenten om at skrive et “out of office”-svar, støder agenten på den ondsindede email, behandler de indlejrede instruktioner som autoritative, og sender utilsigtet en opsigelse i stedet for det ønskede svar.
Efter sikkerhedsopdateringen kan Atlas nu detektere sådanne prompt injection-forsøg og advare brugeren.
Proaktiv sikkerhedsloop
OpenAI har etableret en hurtig respons-cyklus:
- Den automatiserede angriber opdager nye typer af succesfulde angreb
- Opdagelserne bruges til at træne opdaterede agent-modeller adversarielt
- Angrebsspor afslører muligheder for forbedringer i hele forsvarsstakken
- Opdateringer rulles ud til alle ChatGPT Atlas-brugere
Den seneste sikkerhedsopdatering inkluderer en ny adversarielt trænet model og styrkede sikkerhedsforanstaltninger, som allerede er implementeret for alle brugere.
Anbefalinger til brugere
Selvom OpenAI kontinuerligt styrker sikkerheden, anbefaler virksomheden, at brugere:
- Bruger logged-out mode, når det er muligt
- Gennemgår bekræftelsesanmodninger omhyggeligt
- Giver agenter specifikke instruktioner frem for brede opgaver
OpenAI understreger, at prompt injection sandsynligvis aldrig vil blive fuldstændigt “løst” – ligesom svindel og social engineering på internettet. Men virksomheden er optimistisk om, at den proaktive tilgang kan reducere risikoen markant over tid.
Sikkerhedsopdateringen repræsenterer et vigtigt skridt i OpenAI’s langsigtede forpligtelse til at gøre AI-agenter sikre nok til at blive betroet følsomme opgaver i hverdagen.
