OpenAI styrker ChatGPT Atlas mod prompt injection-angreb med automatiseret red teaming

OpenAI har netop udsendt en vigtig sikkerhedsopdatering til ChatGPT Atlas’ browser-agent for at beskytte mod en ny klasse af prompt injection-angreb. Opdateringen kommer som resultat af virksomhedens avancerede automatiserede sikkerhedstestning, der bruger reinforcement learning til at opdage sårbarheder, før de kan udnyttes af ondsindede aktører.

Contents

Hvad er prompt injection?
Automatiseret angrebsdetektering med AI
Konkret eksempel på opdaget sårbarhed
Proaktiv sikkerhedsloop
Anbefalinger til brugere

Hvad er prompt injection?

Prompt injection er en af de mest betydelige sikkerhedsrisici for AI-agenter. Angrebet fungerer ved at indlejre skadelige instruktioner i indhold, som agenten behandler – for eksempel i emails, dokumenter eller hjemmesider. Disse instruktioner kan kapre agentens adfærd og få den til at følge angribernes hensigter i stedet for brugerens.

Et konkret eksempel kunne være en ondsindet email, der instruerer en AI-agent om at videresende følsomme skatdokumenter til en angribers emailadresse, når brugeren blot beder agenten om at opsummere ulæste emails.

Automatiseret angrebsdetektering med AI

OpenAI har udviklet en LLM-baseret automatisk angriber, der er trænet med reinforcement learning til at finde prompt injection-angreb. Systemet kan:

Foreslå kandidatangreb og teste dem i en simulator
Få detaljeret feedback om, hvordan forsvarsagenten reagerer
Iterere og forbedre angrebet gennem flere runder
Opdage sofistikerede angreb, der kan strække sig over titusvis eller hundredvis af handlinger

Metoden har allerede opdaget nye angrebsstrategier, som ikke dukkede op under menneskelig sikkerhedstestning eller i eksterne rapporter.

Konkret eksempel på opdaget sårbarhed

OpenAI demonstrerer et angreb, hvor en ondsindet email indeholder skjulte instruktioner om at sende en opsigelse til brugerens CEO. Når brugeren senere beder agenten om at skrive et “out of office”-svar, støder agenten på den ondsindede email, behandler de indlejrede instruktioner som autoritative, og sender utilsigtet en opsigelse i stedet for det ønskede svar.

Efter sikkerhedsopdateringen kan Atlas nu detektere sådanne prompt injection-forsøg og advare brugeren.

Proaktiv sikkerhedsloop

OpenAI har etableret en hurtig respons-cyklus:

Den automatiserede angriber opdager nye typer af succesfulde angreb
Opdagelserne bruges til at træne opdaterede agent-modeller adversarielt
Angrebsspor afslører muligheder for forbedringer i hele forsvarsstakken
Opdateringer rulles ud til alle ChatGPT Atlas-brugere

Den seneste sikkerhedsopdatering inkluderer en ny adversarielt trænet model og styrkede sikkerhedsforanstaltninger, som allerede er implementeret for alle brugere.

Anbefalinger til brugere

Selvom OpenAI kontinuerligt styrker sikkerheden, anbefaler virksomheden, at brugere:

Bruger logged-out mode, når det er muligt
Gennemgår bekræftelsesanmodninger omhyggeligt
Giver agenter specifikke instruktioner frem for brede opgaver

OpenAI understreger, at prompt injection sandsynligvis aldrig vil blive fuldstændigt “løst” – ligesom svindel og social engineering på internettet. Men virksomheden er optimistisk om, at den proaktive tilgang kan reducere risikoen markant over tid.

Sikkerhedsopdateringen repræsenterer et vigtigt skridt i OpenAI’s langsigtede forpligtelse til at gøre AI-agenter sikre nok til at blive betroet følsomme opgaver i hverdagen.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

OpenAI forstærker ChatGPT Atlas mod prompt injection med AI-drevet testning

OpenAI styrker ChatGPT Atlas mod prompt injection-angreb med automatiseret red teaming

Hvad er prompt injection?

Automatiseret angrebsdetektering med AI

Konkret eksempel på opdaget sårbarhed

Proaktiv sikkerhedsloop

Anbefalinger til brugere

Skriv et svar Annuller svar

Related Strories

Google: 48 AI-tips til en stressfri jul

OpenAI’s Codex: AI-agenten der koder som et menneske

OpenAI foreslår ramme for AI-regulering

Gemini får turbo: Bedre lyd, flydende oversættelse

Quicklinks

Company

Follow Socials

Introducing AI for customer service

Top Stories

OpenAI forstærker ChatGPT Atlas mod prompt injection med AI-drevet testning

OpenAI styrker ChatGPT Atlas mod prompt injection-angreb med automatiseret red teaming

Hvad er prompt injection?

Automatiseret angrebsdetektering med AI

Konkret eksempel på opdaget sårbarhed

Proaktiv sikkerhedsloop

Anbefalinger til brugere

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Skriv et svar Annuller svar

Related Strories

Get Insider Tips and Tricks in Our Newsletter!