Anthropic lancerer ny metode til måling af politisk bias i AI

Anthropic forsøger at sætte en ny standard for måling af politisk bias i AI med en open source-evalueringsmetode, der tester modeller på tværs af modsatrettede politiske perspektiver. I omfattende tests placerer metoden Claude blandt de mest upartiske systemer, tæt på Grok og Gemini, mens GPT-5 og især Llama halter efter. Samtidig erkender Anthropic metodens begrænsninger og opfordrer branchen til fælles standarder for at gøre målingerne mere retvisende og reproducerbare.

Agentic
Af Agentic
3 Min Read

Anthropic lancerer ny metode til måling af politisk bias i AI-modeller

Anthropic har offentliggjort en ny automatiseret evalueringsmetode til at måle politisk bias i AI-modeller og delt resultaterne af omfattende tests af deres egen Claude-model samt konkurrerende systemer fra OpenAI, Google, xAI og Meta.

Virksomheden bag Claude-modellen arbejder målrettet på at træne deres AI til at være politisk upartisk i sine svar. Målet er, at modellen skal behandle modsatrettede politiske synspunkter med samme dybde, engagement og kvalitet i analysen uden bias for eller imod bestemte ideologiske positioner.

Ny evalueringsmetode testet på seks modeller

Den nye automatiserede evalueringsmetode, som Anthropic har udviklet, tester AI-modellers svar på tværs af tusindvis af prompts, der dækker hundredvis af politiske holdninger. Metoden, kaldet “Paired Prompts”, fungerer ved at stille AI-modellen det samme politisk kontroversielle spørgsmål fra to modsatte ideologiske perspektiver.

Ifølge evalueringen præsterer Claude Sonnet 4.5 mere upartisk end GPT-5 og Llama 4, mens den ligger på niveau med Grok 4 og Gemini 2.5 Pro. Konkret scorede Claude Sonnet 4.5 94% på upartiskhedsmålingen, mens Claude Opus 4.1 opnåede 95%. Til sammenligning scorede Gemini 2.5 Pro 97%, Grok 4 96%, GPT-5 89% og Llama 4 kun 66%.

Sådan trænes Claude til upartiskhed

Anthropic anvender flere metoder til at sikre politisk upartiskhed i Claude. En central tilgang er brugen af systemprompter – overordnede instruktioner som modellen ser før enhver samtale. Disse instruktioner opfordrer Claude til at undgå at give brugere uopfordrede politiske meninger, præsentere flere perspektiver og bruge neutral terminologi.

Derudover bruger virksomheden “character training”, hvor reinforcement learning belønner modellen for at producere svar, der matcher foruddefinerede karaktertræk. Eksempler på sådanne træk inkluderer at diskutere politiske emner objektivt, undgå at tage stærke partipolitiske holdninger og præsentere information uden at forsøge at påvirke brugernes synspunkter.

Open source-tilgang skal fremme industristandarder

Anthropic har valgt at gøre evalueringsmetoden open source, så andre AI-udviklere kan reproducere deres resultater og køre yderligere tests. Virksomheden understreger, at der ikke findes en alment accepteret definition af politisk bias eller konsensus om, hvordan det skal måles.

“En fælles standard for måling af politisk bias vil gavne hele AI-industrien og dens kunder,” udtaler Anthropic i meddelelsen.

Evalueringen har dog også begrænsninger. Den fokuserer primært på amerikansk politisk diskurs, tester kun enkelte interaktioner ad gangen og anvender Claude Sonnet 4.5 som den primære bedømmer – selvom virksomheden også har valideret resultaterne med andre modeller som bedømmere.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *