OpenAI fjernede voldelige og seksuelle billeder fra DALL-E 2’s træningsdata
OpenAI har offentliggjort detaljer om de omfattende sikkerhedsforanstaltninger, der blev implementeret for at reducere risici forbundet med AI-billedgeneratoren DALL-E 2, før systemet blev gjort tilgængeligt for offentligheden.
Virksomheden fjernede voldelige og seksuelle billeder fra de hundredvis af millioner af billeder, som DALL-E 2 blev trænet på. Uden denne filtrering ville modellen have lært at producere grafiske eller eksplicitte billeder, når brugere anmodede om dem, og kunne potentielt have returneret sådanne billeder utilsigtet som svar på tilsyneladende uskyldige forespørgsler.
Uventet bias-problem
Datafiltrering skabte imidlertid et uventet problem: Det forstærkede modellens bias over for visse demografiske grupper. Da OpenAI trænede to versioner af deres GLIDE-model – én på filtrerede og én på ufiltrerede data – opdagede de, at den filtrerede model producerede næsten udelukkende billeder af mænd som svar på prompts som “en CEO”.
Problemet opstod, fordi datasættet var biased mod at præsentere kvinder i mere seksualiserede kontekster. Filteret fjernede derfor flere billeder af kvinder end mænd, hvilket ændrede kønsfordelingen i træningsdataene. Konkret reducerede filteret frekvensen af ordet “kvinde” med 14%, mens ordet “mand” kun blev reduceret med 6%.
For at løse dette implementerede OpenAI en revægtningsmetode, der sikrede, at den filtrerede models fordeling bedre matchede fordelingen i de ufiltrerede billeder. Efter justeringen blev de relative frekvensreduktioner for “mand” og “kvinde” ændret til henholdsvis 1% og -1%.
Kopiering af træningsbilleder forhindret
OpenAI observerede også, at tidlige versioner af DALL-E 2 nogle gange reproducerede træningsbilleder ordret. Dette var problematisk både kreativt og juridisk, da det kunne rejse spørgsmål om ophavsret og privatlivets fred.
Undersøgelser viste, at alle de kopierede billeder havde mange næsten identiske duplikater i træningsdatasættet. Ved at fjerne duplikater – næsten en fjerdedel af hele datasættet – løste OpenAI problemet fuldstændigt. Overraskende nok foretrak menneskelige evaluatorer faktisk den model, der var trænet på de deduplikerede data, hvilket tyder på, at de redundante billeder faktisk havde skadet modellens ydeevne.
OpenAI understreger, at selvom disse tiltag repræsenterer betydelige fremskridt, er der stadig rum for forbedringer på alle områder, herunder bedre datafiltre, mere omfattende bias-evaluering og dybere forståelse af, hvordan og hvorfor AI-modeller memorerer træningsdata.
