OpenAI introducerer ny metode til at måle AI-modellers gennemsigtighed

OpenAI har offentliggjort en ny forskningsrapport, der introducerer et omfattende framework til at evaluere, hvor godt man kan overvåge AI-modellers tankeprocesser. Forskningen fokuserer på såkaldt “chain-of-thought monitorability” – evnen til at forstå og forudsige, hvordan avancerede AI-modeller når frem til deres konklusioner.

Contents

Hvad er monitorability?
Nyt evalueringsframework
Centrale fund
Monitorability tax
Fremtidige perspektiver

Hvad er monitorability?

Monitorability handler om, hvor godt et overvågningssystem kan forudsige egenskaber ved en AI-agents adfærd. Dette kan omfatte både problematisk adfærd som bedrag eller bias, men også neutrale egenskaber som hvilken ræsonnementsvej modellen har fulgt.

Moderne ræsonneringsmodeller som GPT-5 Thinking genererer en eksplicit tankerække, før de producerer et svar. At overvåge disse tankerækker kan være langt mere effektivt end kun at overvåge modellens handlinger og endelige output.

Nyt evalueringsframework

Forskerne har udviklet en suite af 13 evalueringer fordelt på 24 forskellige miljøer, organiseret i tre kategorier:

Interventionsevalueringer introducerer kontrollerede ændringer i AI’ens miljø og tester, om et overvågningssystem kan opdage, hvorfor adfærden ændrede sig.

Procesevalueringer fokuserer på opgaver med et begrænset antal gyldige løsningsveje, hvor eksperter kan identificere, hvilke trin modellen faktisk tog.

Outcome-property evalueringer måler, om et overvågningssystem kan forudsige egenskaber ved modellens output baseret på dens ræsonnement.

Centrale fund

Undersøgelsen viser, at de fleste frontier-ræsonneringsmodeller er relativt overvågelige, selvom ikke perfekt. I næsten alle testede scenarier var overvågning af tankerækker væsentligt mere effektiv end kun at overvåge handlinger og output.

Forskerne fandt også, at modeller, der “tænker” længere, generelt er lettere at overvåge. Bemærkelsesværdigt viste resultaterne, at reinforcement learning-træning i nuværende skala ikke synes at forringe overvågbarheden betydeligt.

Monitorability tax

Et interessant fund er, at der eksisterer en afvejning mellem modelstørrelse og ræsonneringsindsats. En mindre model, der kører med højere ræsonneringsindsats, kan opnå sammenlignelig kapacitet med en større model, mens den er lettere at overvåge. Dette kommer dog til prisen af øget inference-beregning – det, forskerne kalder en “monitorability tax”.

Fremtidige perspektiver

OpenAI understreger, at chain-of-thought-overvågning bør ses som et supplement til mekanistisk fortolkning, ikke en erstatning. Virksomheden planlægger at udvide disse evalueringer og bruge dem til at informere fremtidige modelleringsbeslutninger.

Forskerne opfordrer hele branchen til at arbejde på at bevare chain-of-thought monitorability, efterhånden som modeller skalerer og implementeres i højere indsatsområder. Som de påpeger: “For at bevare monitorability skal vi kunne måle det.”

Rapporten er tilgængelig som preprint og repræsenterer et vigtigt skridt mod mere gennemsigtige og kontrollerbare AI-systemer.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

OpenAI lancerer nyt framework for AI-gennemsigtighed

OpenAI introducerer ny metode til at måle AI-modellers gennemsigtighed

Hvad er monitorability?

Nyt evalueringsframework

Centrale fund

Monitorability tax

Fremtidige perspektiver

Skriv et svar Annuller svar

Related Strories

OpenAI DevDay 2025: Større, Bedre og Fuld af AI-Innovation

OpenAI udlover dusør for at finde sikkerhedshuller i ChatGPT Agent

Zalando booster kundeengagement med GPT-4o mini AI-assistent

Accenture og OpenAI i historisk AI-partnerskab for virksomheder

Quicklinks

Company

Follow Socials

Introducing AI for customer service

Top Stories

OpenAI lancerer nyt framework for AI-gennemsigtighed

OpenAI introducerer ny metode til at måle AI-modellers gennemsigtighed

Hvad er monitorability?

Nyt evalueringsframework

Centrale fund

Monitorability tax

Fremtidige perspektiver

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Skriv et svar Annuller svar

Related Strories

Get Insider Tips and Tricks in Our Newsletter!