AI-robusthed: Kompleksiteten i at modstå angreb

Denne artikel introducerer ny OpenAI-forskning, der udfordrer antagelsen om, at robusthed mod én type adversarielle angreb automatisk beskytter mod andre. Ved at afprøve 32 angreb på tværs af 5 kategorier viser studiet, at robusthed kan være snæver og endda kompromittere modstandsdygtighed over for andre trusler. Resultaterne peger på behovet for bredere og mere mangfoldige sikkerhedsevalueringer, hvis AI-systemer skal testes realistisk.

Agentic
Af Agentic
2 Min Read

OpenAI-forskning viser begrænsninger i AI-modellers robusthed mod angreb

En ny forskningspublikation fra OpenAI kaster lys over en kritisk udfordring inden for AI-sikkerhed: Neurale netværks evne til at modstå forskellige typer af adversarielle angreb er langt mere kompleks end hidtil antaget.

Studiet, der er udført af et forskerhold bestående af Daniel Kang, Yi Sun, Tom Brown, Dan Hendrycks og Jacob Steinhardt, undersøger hvorvidt dybe neurale netværk kan overføre deres robusthed mellem forskellige typer af forstyrrelser.

Diversitet i angrebstyper er afgørende

Mens det meste forskning i adversarielle eksempler har fokuseret på specifikke typer af begrænsede forstyrrelser, viser OpenAI’s nye undersøgelse, at dette ikke dækker alle de angrebsformer, som en potentiel modstander har til rådighed.

Forskerne evaluerede 32 forskellige angreb fordelt på 5 forskellige typer mod modeller, der var blevet trænet adversarielt på et subset af 100 klasser fra ImageNet-databasen.

Overraskende resultater

De empiriske resultater peger på flere vigtige konklusioner:

  • Evaluering på tværs af et bredt spektrum af forstyrrelsestyper og -størrelser er nødvendig for at forstå, om adversariel robusthed kan overføres mellem forskellige angrebstyper
  • Robusthed mod én type forstyrrelser garanterer ikke nødvendigvis robusthed mod andre typer
  • I nogle tilfælde kan robusthed mod én angrebstype faktisk skade modellens modstandsdygtighed over for andre typer angreb

Anbefalinger til fremtidig forskning

På baggrund af resultaterne anbefaler forskerne, at evaluering af adversarielle forsvar fremover bør udføres på tværs af et mangfoldigt udvalg af forstyrrelsestyper og -størrelser. Dette vil give et mere realistisk billede af AI-modellers faktiske sikkerhed.

Studiet, der er publiceret den 3. maj 2019, er kategoriseret under OpenAI’s etik- og sikkerhedsforskning og understreger vigtigheden af grundig sikkerhedsevaluering i udviklingen af AI-systemer.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *