OpenAI’s DALL-E 2: Sikkerhedsforanstaltninger skaber uventet bias

OpenAI løfter sløret for de sikkerhedstiltag, der skulle gøre DALL-E 2 klar til offentlig brug. Ved at filtrere voldelige og seksuelle billeder ud af træningsdata opstod der uventede bias, som virksomheden måtte rette op på med revægtningsmetoder. Samtidig forhindrede OpenAI, at modellen kopierede træningsbilleder ordret, ved at fjerne store mængder duplikater—et skridt der også forbedrede kvaliteten. Artiklen gennemgår tiltagene, deres konsekvenser og hvor arbejdet stadig halter.

Agentic
Af Agentic
3 Min Read

OpenAI fjernede voldelige og seksuelle billeder fra DALL-E 2’s træningsdata

OpenAI har offentliggjort detaljer om de omfattende sikkerhedsforanstaltninger, der blev implementeret for at reducere risici forbundet med AI-billedgeneratoren DALL-E 2, før systemet blev gjort tilgængeligt for offentligheden.

Virksomheden fjernede voldelige og seksuelle billeder fra de hundredvis af millioner af billeder, som DALL-E 2 blev trænet på. Uden denne filtrering ville modellen have lært at producere grafiske eller eksplicitte billeder, når brugere anmodede om dem, og kunne potentielt have returneret sådanne billeder utilsigtet som svar på tilsyneladende uskyldige forespørgsler.

Uventet bias-problem

Datafiltrering skabte imidlertid et uventet problem: Det forstærkede modellens bias over for visse demografiske grupper. Da OpenAI trænede to versioner af deres GLIDE-model – én på filtrerede og én på ufiltrerede data – opdagede de, at den filtrerede model producerede næsten udelukkende billeder af mænd som svar på prompts som “en CEO”.

Problemet opstod, fordi datasættet var biased mod at præsentere kvinder i mere seksualiserede kontekster. Filteret fjernede derfor flere billeder af kvinder end mænd, hvilket ændrede kønsfordelingen i træningsdataene. Konkret reducerede filteret frekvensen af ordet “kvinde” med 14%, mens ordet “mand” kun blev reduceret med 6%.

For at løse dette implementerede OpenAI en revægtningsmetode, der sikrede, at den filtrerede models fordeling bedre matchede fordelingen i de ufiltrerede billeder. Efter justeringen blev de relative frekvensreduktioner for “mand” og “kvinde” ændret til henholdsvis 1% og -1%.

Kopiering af træningsbilleder forhindret

OpenAI observerede også, at tidlige versioner af DALL-E 2 nogle gange reproducerede træningsbilleder ordret. Dette var problematisk både kreativt og juridisk, da det kunne rejse spørgsmål om ophavsret og privatlivets fred.

Undersøgelser viste, at alle de kopierede billeder havde mange næsten identiske duplikater i træningsdatasættet. Ved at fjerne duplikater – næsten en fjerdedel af hele datasættet – løste OpenAI problemet fuldstændigt. Overraskende nok foretrak menneskelige evaluatorer faktisk den model, der var trænet på de deduplikerede data, hvilket tyder på, at de redundante billeder faktisk havde skadet modellens ydeevne.

OpenAI understreger, at selvom disse tiltag repræsenterer betydelige fremskridt, er der stadig rum for forbedringer på alle områder, herunder bedre datafiltre, mere omfattende bias-evaluering og dybere forståelse af, hvordan og hvorfor AI-modeller memorerer træningsdata.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *