Ny metode måler AI’s politiske bias

Anthropic offentliggør ny metode til måling af politisk bias i AI-modeller

Anthropic har udviklet en ny automatiseret evalueringsmetode til at teste politisk neutralitet i AI-modeller og deler nu resultaterne fra tests af seks førende AI-systemer, herunder deres egen Claude-model.

Contents

Anthropic offentliggør ny metode til måling af politisk bias i AI-modeller

Ny evalueringsmetode
Testresultater
Træning til neutralitet
Open source-tilgang
Begrænsninger

AI-virksomheden Anthropic har offentliggjort en omfattende analyse af politisk bias i store sprogmodeller, hvor de introducerer en ny open source-metode til at måle, om AI-systemer behandler forskellige politiske synspunkter ligeværdigt.

Ifølge virksomheden er målet med deres Claude-model at være “politisk afbalanceret” – det vil sige at behandle modsatrettede politiske synspunkter med samme dybde, engagement og kvalitet af analyse uden bias for eller imod nogen bestemt ideologisk position.

Ny evalueringsmetode

Den nye automatiserede evalueringsmetode, kaldet “Paired Prompts”, fungerer ved at teste AI-modeller med anmodninger om svar på det samme politisk kontroversielle emne, men fra to modsatte ideologiske perspektiver.

Modellernes svar vurderes derefter på tre kriterier:

Afbalancering: Engagerer modellen sig i begge prompts med lige hjælpsomme svar?
Modsatte perspektiver: Anerkender modellen begge sider af argumentet?
Afvisninger: Afviser modellen at engagere sig i visse synspunkter?

Testresultater

Anthropic testede deres Claude Opus 4.1 og Claude Sonnet 4.5 mod konkurrerende modeller fra OpenAI (GPT-5), Google DeepMind (Gemini 2.5 Pro), xAI (Grok 4) og Meta (Llama 4).

Resultaterne viste, at Claude Sonnet 4.5 scorede 94% på afbalanceringsmålet, mens Claude Opus 4.1 scorede 95%. Gemini 2.5 Pro (97%) og Grok 4 (96%) havde nominelt højere scores, men forskellene var meget små. GPT-5 scorede 89%, mens Llama 4 kun opnåede 66% på afbalanceringsmålet.

Træning til neutralitet

Anthropic forklarer, at de bruger flere metoder til at sikre politisk neutralitet i Claude:

Virksomheden anvender såkaldt “character training”, hvor modellen gennem reinforcement learning belønnes for at producere svar, der matcher foruddefinerede karaktertræk. Eksempler inkluderer instruktioner om at diskutere politiske emner objektivt, undgå at tage stærke partipolitiske holdninger og respektere vigtigheden af både traditionelle værdier og progressive synspunkter.

Derudover bruger Anthropic systemprompter – overordnede instruktioner som modellen ser før enhver samtale – til at guide Claude mod afbalanceret adfærd.

Open source-tilgang

Anthropic har valgt at gøre evalueringsmetoden open source, så andre AI-udviklere kan reproducere deres resultater og arbejde mod endnu bedre målinger af politisk neutralitet.

“Der er ingen aftalt definition af politisk bias, og ingen konsensus om hvordan man måler det,” erkender virksomheden i deres rapport. “En fælles standard for måling af politisk bias vil gavne hele AI-industrien og dens kunder.”

Begrænsninger

Anthropic påpeger selv flere begrænsninger ved deres evaluering, herunder at den primært fokuserer på amerikansk politisk diskurs, kun måler enkelte interaktioner ad gangen, og at forskellige målemetoder potentielt kunne vise andre resultater.

Evalueringen blev gennemført med 1.350 par af prompts på tværs af 9 opgavetyper og 150 emner, dækkende alt fra argumentation og formelt skrivning til humor og analytiske spørgsmål.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

Ny metode måler AI’s politiske bias