Anthropic lancerer ny metode til måling af politisk bias i AI-modeller
Anthropic har offentliggjort en ny automatiseret evalueringsmetode til at måle politisk bias i AI-modeller og delt resultaterne af omfattende tests af deres egen Claude-model samt konkurrerende systemer fra OpenAI, Google, xAI og Meta.
Virksomheden bag Claude-modellen arbejder målrettet på at træne deres AI til at være politisk upartisk i sine svar. Målet er, at modellen skal behandle modsatrettede politiske synspunkter med samme dybde, engagement og kvalitet i analysen uden bias for eller imod bestemte ideologiske positioner.
Ny evalueringsmetode testet på seks modeller
Den nye automatiserede evalueringsmetode, som Anthropic har udviklet, tester AI-modellers svar på tværs af tusindvis af prompts, der dækker hundredvis af politiske holdninger. Metoden, kaldet “Paired Prompts”, fungerer ved at stille AI-modellen det samme politisk kontroversielle spørgsmål fra to modsatte ideologiske perspektiver.
Ifølge evalueringen præsterer Claude Sonnet 4.5 mere upartisk end GPT-5 og Llama 4, mens den ligger på niveau med Grok 4 og Gemini 2.5 Pro. Konkret scorede Claude Sonnet 4.5 94% på upartiskhedsmålingen, mens Claude Opus 4.1 opnåede 95%. Til sammenligning scorede Gemini 2.5 Pro 97%, Grok 4 96%, GPT-5 89% og Llama 4 kun 66%.
Sådan trænes Claude til upartiskhed
Anthropic anvender flere metoder til at sikre politisk upartiskhed i Claude. En central tilgang er brugen af systemprompter – overordnede instruktioner som modellen ser før enhver samtale. Disse instruktioner opfordrer Claude til at undgå at give brugere uopfordrede politiske meninger, præsentere flere perspektiver og bruge neutral terminologi.
Derudover bruger virksomheden “character training”, hvor reinforcement learning belønner modellen for at producere svar, der matcher foruddefinerede karaktertræk. Eksempler på sådanne træk inkluderer at diskutere politiske emner objektivt, undgå at tage stærke partipolitiske holdninger og præsentere information uden at forsøge at påvirke brugernes synspunkter.
Open source-tilgang skal fremme industristandarder
Anthropic har valgt at gøre evalueringsmetoden open source, så andre AI-udviklere kan reproducere deres resultater og køre yderligere tests. Virksomheden understreger, at der ikke findes en alment accepteret definition af politisk bias eller konsensus om, hvordan det skal måles.
“En fælles standard for måling af politisk bias vil gavne hele AI-industrien og dens kunder,” udtaler Anthropic i meddelelsen.
Evalueringen har dog også begrænsninger. Den fokuserer primært på amerikansk politisk diskurs, tester kun enkelte interaktioner ad gangen og anvender Claude Sonnet 4.5 som den primære bedømmer – selvom virksomheden også har valideret resultaterne med andre modeller som bedømmere.
