OpenAI lancerer nyt benchmark til måling af AI’s videnskabelige evner
OpenAI har introduceret FrontierScience, et nyt benchmark-system designet til at evaluere kunstig intelligens’ evne til at løse videnskabelige opgaver på ekspertniveau inden for fysik, kemi og biologi.
Benchmarket består af over 700 tekstbaserede spørgsmål, hvoraf 160 udgør det primære testsæt. FrontierScience er opdelt i to kategorier: En “Olympiade”-del med 100 opgaver skabt af internationale olympiademedaljevindere, og en “Research”-del med 60 originale forskningsopgaver udviklet af ph.d.-forskere.
GPT-5.2 præsterer bedst
I de første evalueringer opnåede OpenAI’s nyeste model, GPT-5.2, de højeste resultater med 77% korrekte svar på Olympiade-opgaverne og 25% på forskningsopgaverne. Det placerer modellen foran andre førende AI-systemer som Claude Opus 4.5 og Gemini 3 Pro, selvom sidstnævnte kom tæt på med 76% på Olympiade-delen.
Til sammenligning scorede GPT-4 kun 39% på det tidligere GPQA-benchmark i november 2023, mens GPT-5.2 nu opnår 92% på samme test – en markant forbedring, der har gjort det nødvendigt med sværere benchmarks.
Virkelighedsnære forskningsopgaver
FrontierScience adskiller sig fra tidligere tests ved at inkludere mere åbne og komplekse opgaver, der minder om det arbejde, forskere rent faktisk udfører. Research-opgaverne bedømmes efter en 10-punkts rubrik, der ikke kun vurderer det endelige svar, men også kvaliteten af mellemliggende ræsonnementer.
Alle opgaver er skrevet og verificeret af eksperter – enten internationale olympiademedaljevindere eller forskere med ph.d.-grader. I alt har 42 olympiademedaljevindere og 45 videnskabelige eksperter bidraget til udviklingen af benchmarket.
Stadig plads til forbedring
Selvom resultaterne viser betydelige fremskridt, erkender OpenAI, at der stadig er udfordringer. Modellerne begår fortsat fejl i logik og beregninger, mangler forståelse af nicheviden og laver faktuelle unøjagtigheder.
OpenAI understreger også, at FrontierScience har begrænsninger. Benchmarket måler primært evnen til at løse afgrænsede problemer og vurderer ikke AI’s evne til at generere genuint nye hypoteser eller interagere med fysiske eksperimenter – centrale dele af videnskabeligt arbejde.
Benchmarket frigives som open source for at hjælpe forskningssamfundet med at måle fremskridt i AI’s videnskabelige kapaciteter. OpenAI planer at udvide systemet til nye domæner og kombinere det med evalueringer af, hvad AI-systemer faktisk kan hjælpe forskere med at opnå i praksis.
