OpenAI-forskning viser begrænsninger i AI-modellers robusthed mod angreb
En ny forskningspublikation fra OpenAI kaster lys over en kritisk udfordring inden for AI-sikkerhed: Neurale netværks evne til at modstå forskellige typer af adversarielle angreb er langt mere kompleks end hidtil antaget.
Studiet, der er udført af et forskerhold bestående af Daniel Kang, Yi Sun, Tom Brown, Dan Hendrycks og Jacob Steinhardt, undersøger hvorvidt dybe neurale netværk kan overføre deres robusthed mellem forskellige typer af forstyrrelser.
Diversitet i angrebstyper er afgørende
Mens det meste forskning i adversarielle eksempler har fokuseret på specifikke typer af begrænsede forstyrrelser, viser OpenAI’s nye undersøgelse, at dette ikke dækker alle de angrebsformer, som en potentiel modstander har til rådighed.
Forskerne evaluerede 32 forskellige angreb fordelt på 5 forskellige typer mod modeller, der var blevet trænet adversarielt på et subset af 100 klasser fra ImageNet-databasen.
Overraskende resultater
De empiriske resultater peger på flere vigtige konklusioner:
- Evaluering på tværs af et bredt spektrum af forstyrrelsestyper og -størrelser er nødvendig for at forstå, om adversariel robusthed kan overføres mellem forskellige angrebstyper
- Robusthed mod én type forstyrrelser garanterer ikke nødvendigvis robusthed mod andre typer
- I nogle tilfælde kan robusthed mod én angrebstype faktisk skade modellens modstandsdygtighed over for andre typer angreb
Anbefalinger til fremtidig forskning
På baggrund af resultaterne anbefaler forskerne, at evaluering af adversarielle forsvar fremover bør udføres på tværs af et mangfoldigt udvalg af forstyrrelsestyper og -størrelser. Dette vil give et mere realistisk billede af AI-modellers faktiske sikkerhed.
Studiet, der er publiceret den 3. maj 2019, er kategoriseret under OpenAI’s etik- og sikkerhedsforskning og understreger vigtigheden af grundig sikkerhedsevaluering i udviklingen af AI-systemer.
