Sådan driver evalueringer næste kapitel af AI i erhvervslivet
Mens over en million virksomheder verden over nu anvender kunstig intelligens, kæmper mange organisationer stadig med at opnå de forventede resultater. OpenAI peger nu på en løsning: systematiske evalueringsmetoder, også kaldet “evals”.
Hvad er evals?
Evalueringer er metoder til at måle og forbedre et AI-systems evne til at opfylde forventninger. Ligesom produktkravsdokumenter gør evals vage mål og abstrakte idéer specifikke og eksplicitte.
OpenAI bruger selv to typer evalueringer: “frontier evals” til at måle deres modellers generelle præstationer på tværs af forskellige domæner, og “kontekstuelle evals” designet til specifikke workflows og produkter. Det er især de kontekstuelle evalueringer, som virksomhedsledere bør lære at implementere.
Tre trin til succes
OpenAI præsenterer en ramme baseret på tre faser:
1. Specificer: Definer hvad “fremragende” betyder for din organisation. Start med et lille, tværfagligt team, der kan beskrive AI-systemets formål i klare termer. Teamet skal skabe et “golden set” af eksempler, der viser, hvordan eksperter bedømmer kvalitet.
2. Mål: Test systemet under forhold, der ligner virkeligheden. Opret et dedikeret testmiljø og evaluer performance mod jeres golden set. Hold domæneeksperter i loopet gennem hele processen.
3. Forbedr: Etabler en proces for løbende forbedring. Adresser problemer opdaget af evalueringen gennem justering af prompts, datadgang eller selve evalueringen. Byg et “data-svinghjul” der logger input, output og resultater.
Konkurrencefordel i AI-æraen
Ifølge OpenAI bliver evals en naturlig udvidelse af måling i AI-alderen, ligesom OKR’er og KPI’er har hjulpet organisationer med at orientere sig i big data-æraen.
“I en verden hvor information er frit tilgængelig og ekspertise demokratiseres, afhænger din fordel af, hvor godt dine systemer kan eksekvere inden for din kontekst,” skriver OpenAI.
Virksomheden understreger, at ledelseskompetencer er AI-kompetencer: Klare mål, direkte feedback og god dømmekraft er vigtigere end nogensinde.
OpenAI opfordrer virksomheder til at eksperimentere med evalueringer og opdage, hvilke processer der fungerer bedst for deres behov. Første skridt er at identificere problemet, finde domæneeksperten og samle et lille team.
