Ny metode måler AI’s politiske bias

Anthropic lancerer en ny open source-metode til at måle politisk neutralitet i AI-modeller og præsenterer resultater fra tests af seks førende systemer, herunder Claude. Den automatiserede “Paired Prompts”-evaluering undersøger, om modeller behandler modsatrettede synspunkter ligeværdigt, og viser små forskelle mellem topmodellerne. Samtidig beskriver Anthropic, hvordan træning og systemprompter skal holde Claude politisk afbalanceret, og peger på vigtige begrænsninger i målingen for at fremme en fælles standard i branchen.

Agentic
Af Agentic
3 Min Read

Anthropic offentliggør ny metode til måling af politisk bias i AI-modeller

Anthropic har udviklet en ny automatiseret evalueringsmetode til at teste politisk neutralitet i AI-modeller og deler nu resultaterne fra tests af seks førende AI-systemer, herunder deres egen Claude-model.

AI-virksomheden Anthropic har offentliggjort en omfattende analyse af politisk bias i store sprogmodeller, hvor de introducerer en ny open source-metode til at måle, om AI-systemer behandler forskellige politiske synspunkter ligeværdigt.

Ifølge virksomheden er målet med deres Claude-model at være “politisk afbalanceret” – det vil sige at behandle modsatrettede politiske synspunkter med samme dybde, engagement og kvalitet af analyse uden bias for eller imod nogen bestemt ideologisk position.

Ny evalueringsmetode

Den nye automatiserede evalueringsmetode, kaldet “Paired Prompts”, fungerer ved at teste AI-modeller med anmodninger om svar på det samme politisk kontroversielle emne, men fra to modsatte ideologiske perspektiver.

Modellernes svar vurderes derefter på tre kriterier:

  • Afbalancering: Engagerer modellen sig i begge prompts med lige hjælpsomme svar?
  • Modsatte perspektiver: Anerkender modellen begge sider af argumentet?
  • Afvisninger: Afviser modellen at engagere sig i visse synspunkter?

Testresultater

Anthropic testede deres Claude Opus 4.1 og Claude Sonnet 4.5 mod konkurrerende modeller fra OpenAI (GPT-5), Google DeepMind (Gemini 2.5 Pro), xAI (Grok 4) og Meta (Llama 4).

Resultaterne viste, at Claude Sonnet 4.5 scorede 94% på afbalanceringsmålet, mens Claude Opus 4.1 scorede 95%. Gemini 2.5 Pro (97%) og Grok 4 (96%) havde nominelt højere scores, men forskellene var meget små. GPT-5 scorede 89%, mens Llama 4 kun opnåede 66% på afbalanceringsmålet.

Træning til neutralitet

Anthropic forklarer, at de bruger flere metoder til at sikre politisk neutralitet i Claude:

Virksomheden anvender såkaldt “character training”, hvor modellen gennem reinforcement learning belønnes for at producere svar, der matcher foruddefinerede karaktertræk. Eksempler inkluderer instruktioner om at diskutere politiske emner objektivt, undgå at tage stærke partipolitiske holdninger og respektere vigtigheden af både traditionelle værdier og progressive synspunkter.

Derudover bruger Anthropic systemprompter – overordnede instruktioner som modellen ser før enhver samtale – til at guide Claude mod afbalanceret adfærd.

Open source-tilgang

Anthropic har valgt at gøre evalueringsmetoden open source, så andre AI-udviklere kan reproducere deres resultater og arbejde mod endnu bedre målinger af politisk neutralitet.

“Der er ingen aftalt definition af politisk bias, og ingen konsensus om hvordan man måler det,” erkender virksomheden i deres rapport. “En fælles standard for måling af politisk bias vil gavne hele AI-industrien og dens kunder.”

Begrænsninger

Anthropic påpeger selv flere begrænsninger ved deres evaluering, herunder at den primært fokuserer på amerikansk politisk diskurs, kun måler enkelte interaktioner ad gangen, og at forskellige målemetoder potentielt kunne vise andre resultater.

Evalueringen blev gennemført med 1.350 par af prompts på tværs af 9 opgavetyper og 150 emner, dækkende alt fra argumentation og formelt skrivning til humor og analytiske spørgsmål.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *