OpenAI tester AI’s videnskabelige evner med nyt benchmark

OpenAI lancerer nyt benchmark til måling af AI’s videnskabelige evner

OpenAI har introduceret FrontierScience, et nyt benchmark-system designet til at evaluere kunstig intelligens’ evne til at løse videnskabelige opgaver på ekspertniveau inden for fysik, kemi og biologi.

Benchmarket består af over 700 tekstbaserede spørgsmål, hvoraf 160 udgør det primære testsæt. FrontierScience er opdelt i to kategorier: En “Olympiade”-del med 100 opgaver skabt af internationale olympiademedaljevindere, og en “Research”-del med 60 originale forskningsopgaver udviklet af ph.d.-forskere.

GPT-5.2 præsterer bedst

I de første evalueringer opnåede OpenAI’s nyeste model, GPT-5.2, de højeste resultater med 77% korrekte svar på Olympiade-opgaverne og 25% på forskningsopgaverne. Det placerer modellen foran andre førende AI-systemer som Claude Opus 4.5 og Gemini 3 Pro, selvom sidstnævnte kom tæt på med 76% på Olympiade-delen.

Til sammenligning scorede GPT-4 kun 39% på det tidligere GPQA-benchmark i november 2023, mens GPT-5.2 nu opnår 92% på samme test – en markant forbedring, der har gjort det nødvendigt med sværere benchmarks.

Virkelighedsnære forskningsopgaver

FrontierScience adskiller sig fra tidligere tests ved at inkludere mere åbne og komplekse opgaver, der minder om det arbejde, forskere rent faktisk udfører. Research-opgaverne bedømmes efter en 10-punkts rubrik, der ikke kun vurderer det endelige svar, men også kvaliteten af mellemliggende ræsonnementer.

Alle opgaver er skrevet og verificeret af eksperter – enten internationale olympiademedaljevindere eller forskere med ph.d.-grader. I alt har 42 olympiademedaljevindere og 45 videnskabelige eksperter bidraget til udviklingen af benchmarket.

Stadig plads til forbedring

Selvom resultaterne viser betydelige fremskridt, erkender OpenAI, at der stadig er udfordringer. Modellerne begår fortsat fejl i logik og beregninger, mangler forståelse af nicheviden og laver faktuelle unøjagtigheder.

OpenAI understreger også, at FrontierScience har begrænsninger. Benchmarket måler primært evnen til at løse afgrænsede problemer og vurderer ikke AI’s evne til at generere genuint nye hypoteser eller interagere med fysiske eksperimenter – centrale dele af videnskabeligt arbejde.

Benchmarket frigives som open source for at hjælpe forskningssamfundet med at måle fremskridt i AI’s videnskabelige kapaciteter. OpenAI planer at udvide systemet til nye domæner og kombinere det med evalueringer af, hvad AI-systemer faktisk kan hjælpe forskere med at opnå i praksis.

SAP og OpenAI i partnerskab om tysk AI-suverænitet

Bag ChatGPT: En ingeniørs kamp med AI-supercomputere

DALL·E åbner for alle!

OpenAI’s første hackathon: En succesfuld AI-begivenhed med fokus på diversitet

AI-robusthed: Kompleksiteten i at modstå angreb

Minnesota bruger ChatGPT til sprogbro i offentlig service

OpenAI foreslår ramme for AI-regulering

Apple og OpenAI forener ChatGPT med iOS

OpenAI Fellows: Fra Ambition til Baneskabende AI-Gennembrud

AI redder liv: Healthify transformerer sundhed med OpenAI

OpenAI’s nye AI-sikkerhedsteknik til komplekse opgaver: “Iterativ forstærkning”

OpenAI intensiverer statssamarbejde, sikrer Pentagon-kontrakt

Introducing AI for customer service

Top Stories

ChatGPT: Nye AI-funktioner målrettet erhvervslivet

OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

AI forvandler kundefeedback til guld for virksomheder

OpenAI tester AI’s videnskabelige evner med nyt benchmark

OpenAI lancerer nyt benchmark til måling af AI’s videnskabelige evner

Skriv et svar Annuller svar

Related Strories

OpenAI Grove: Nyt program for spirende AI-iværksættere

Googles AI-shoppingrevolution til Black Friday

Island lancerer nationalt AI-pilotprojekt for lærere med Anthropic

AMD og OpenAI indgår kæmpe partnerskab om 6 GW GPU-kapacitet

Quicklinks

Company

Follow Socials

Introducing AI for customer service

Top Stories

OpenAI tester AI’s videnskabelige evner med nyt benchmark

OpenAI lancerer nyt benchmark til måling af AI’s videnskabelige evner

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Skriv et svar Annuller svar

Related Strories

Get Insider Tips and Tricks in Our Newsletter!