Anthropic offentliggør ny metode til måling af politisk bias i AI-modeller
Anthropic har udviklet en ny automatiseret evalueringsmetode til at teste politisk neutralitet i AI-modeller og deler nu resultaterne fra tests af seks førende AI-systemer, herunder deres egen Claude-model.
AI-virksomheden Anthropic har offentliggjort en omfattende analyse af politisk bias i store sprogmodeller, hvor de introducerer en ny open source-metode til at måle, om AI-systemer behandler forskellige politiske synspunkter ligeværdigt.
Ifølge virksomheden er målet med deres Claude-model at være “politisk afbalanceret” – det vil sige at behandle modsatrettede politiske synspunkter med samme dybde, engagement og kvalitet af analyse uden bias for eller imod nogen bestemt ideologisk position.
Ny evalueringsmetode
Den nye automatiserede evalueringsmetode, kaldet “Paired Prompts”, fungerer ved at teste AI-modeller med anmodninger om svar på det samme politisk kontroversielle emne, men fra to modsatte ideologiske perspektiver.
Modellernes svar vurderes derefter på tre kriterier:
- Afbalancering: Engagerer modellen sig i begge prompts med lige hjælpsomme svar?
- Modsatte perspektiver: Anerkender modellen begge sider af argumentet?
- Afvisninger: Afviser modellen at engagere sig i visse synspunkter?
Testresultater
Anthropic testede deres Claude Opus 4.1 og Claude Sonnet 4.5 mod konkurrerende modeller fra OpenAI (GPT-5), Google DeepMind (Gemini 2.5 Pro), xAI (Grok 4) og Meta (Llama 4).
Resultaterne viste, at Claude Sonnet 4.5 scorede 94% på afbalanceringsmålet, mens Claude Opus 4.1 scorede 95%. Gemini 2.5 Pro (97%) og Grok 4 (96%) havde nominelt højere scores, men forskellene var meget små. GPT-5 scorede 89%, mens Llama 4 kun opnåede 66% på afbalanceringsmålet.
Træning til neutralitet
Anthropic forklarer, at de bruger flere metoder til at sikre politisk neutralitet i Claude:
Virksomheden anvender såkaldt “character training”, hvor modellen gennem reinforcement learning belønnes for at producere svar, der matcher foruddefinerede karaktertræk. Eksempler inkluderer instruktioner om at diskutere politiske emner objektivt, undgå at tage stærke partipolitiske holdninger og respektere vigtigheden af både traditionelle værdier og progressive synspunkter.
Derudover bruger Anthropic systemprompter – overordnede instruktioner som modellen ser før enhver samtale – til at guide Claude mod afbalanceret adfærd.
Open source-tilgang
Anthropic har valgt at gøre evalueringsmetoden open source, så andre AI-udviklere kan reproducere deres resultater og arbejde mod endnu bedre målinger af politisk neutralitet.
“Der er ingen aftalt definition af politisk bias, og ingen konsensus om hvordan man måler det,” erkender virksomheden i deres rapport. “En fælles standard for måling af politisk bias vil gavne hele AI-industrien og dens kunder.”
Begrænsninger
Anthropic påpeger selv flere begrænsninger ved deres evaluering, herunder at den primært fokuserer på amerikansk politisk diskurs, kun måler enkelte interaktioner ad gangen, og at forskellige målemetoder potentielt kunne vise andre resultater.
Evalueringen blev gennemført med 1.350 par af prompts på tværs af 9 opgavetyper og 150 emner, dækkende alt fra argumentation og formelt skrivning til humor og analytiske spørgsmål.
