OpenAI forstærker ChatGPT Atlas mod prompt injection med AI-drevet testning

OpenAI lancerer en vigtig sikkerhedsopdatering til ChatGPT Atlas’ browser-agent for at modstå en ny bølge af prompt injection-angreb. Med en automatiseret red teaming-tilgang drevet af reinforcement learning opdager virksomheden sårbarheder, før de kan udnyttes. Artiklen forklarer, hvad prompt injection er, viser et konkret angreb, og beskriver OpenAI’s proaktive sikkerhedsloop samt anbefalinger til brugere. Opdateringen markerer et væsentligt skridt mod mere pålidelige AI-agenter i følsomme hverdagsopgaver.

Agentic
Af Agentic
3 Min Read

OpenAI styrker ChatGPT Atlas mod prompt injection-angreb med automatiseret red teaming

OpenAI har netop udsendt en vigtig sikkerhedsopdatering til ChatGPT Atlas’ browser-agent for at beskytte mod en ny klasse af prompt injection-angreb. Opdateringen kommer som resultat af virksomhedens avancerede automatiserede sikkerhedstestning, der bruger reinforcement learning til at opdage sårbarheder, før de kan udnyttes af ondsindede aktører.

Hvad er prompt injection?

Prompt injection er en af de mest betydelige sikkerhedsrisici for AI-agenter. Angrebet fungerer ved at indlejre skadelige instruktioner i indhold, som agenten behandler – for eksempel i emails, dokumenter eller hjemmesider. Disse instruktioner kan kapre agentens adfærd og få den til at følge angribernes hensigter i stedet for brugerens.

Et konkret eksempel kunne være en ondsindet email, der instruerer en AI-agent om at videresende følsomme skatdokumenter til en angribers emailadresse, når brugeren blot beder agenten om at opsummere ulæste emails.

Automatiseret angrebsdetektering med AI

OpenAI har udviklet en LLM-baseret automatisk angriber, der er trænet med reinforcement learning til at finde prompt injection-angreb. Systemet kan:

  • Foreslå kandidatangreb og teste dem i en simulator
  • Få detaljeret feedback om, hvordan forsvarsagenten reagerer
  • Iterere og forbedre angrebet gennem flere runder
  • Opdage sofistikerede angreb, der kan strække sig over titusvis eller hundredvis af handlinger

Metoden har allerede opdaget nye angrebsstrategier, som ikke dukkede op under menneskelig sikkerhedstestning eller i eksterne rapporter.

Konkret eksempel på opdaget sårbarhed

OpenAI demonstrerer et angreb, hvor en ondsindet email indeholder skjulte instruktioner om at sende en opsigelse til brugerens CEO. Når brugeren senere beder agenten om at skrive et “out of office”-svar, støder agenten på den ondsindede email, behandler de indlejrede instruktioner som autoritative, og sender utilsigtet en opsigelse i stedet for det ønskede svar.

Efter sikkerhedsopdateringen kan Atlas nu detektere sådanne prompt injection-forsøg og advare brugeren.

Proaktiv sikkerhedsloop

OpenAI har etableret en hurtig respons-cyklus:

  1. Den automatiserede angriber opdager nye typer af succesfulde angreb
  2. Opdagelserne bruges til at træne opdaterede agent-modeller adversarielt
  3. Angrebsspor afslører muligheder for forbedringer i hele forsvarsstakken
  4. Opdateringer rulles ud til alle ChatGPT Atlas-brugere

Den seneste sikkerhedsopdatering inkluderer en ny adversarielt trænet model og styrkede sikkerhedsforanstaltninger, som allerede er implementeret for alle brugere.

Anbefalinger til brugere

Selvom OpenAI kontinuerligt styrker sikkerheden, anbefaler virksomheden, at brugere:

  • Bruger logged-out mode, når det er muligt
  • Gennemgår bekræftelsesanmodninger omhyggeligt
  • Giver agenter specifikke instruktioner frem for brede opgaver

OpenAI understreger, at prompt injection sandsynligvis aldrig vil blive fuldstændigt “løst” – ligesom svindel og social engineering på internettet. Men virksomheden er optimistisk om, at den proaktive tilgang kan reducere risikoen markant over tid.

Sikkerhedsopdateringen repræsenterer et vigtigt skridt i OpenAI’s langsigtede forpligtelse til at gøre AI-agenter sikre nok til at blive betroet følsomme opgaver i hverdagen.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *