OpenAI lancerer nye, forbedrede embeddings til tekst og kode

OpenAI har lanceret nye embeddings-modeller til både tekst og kode, som markant forbedrer semantisk søgning, clustering og klassificering. Modellerne overgår eksisterende benchmarks—særligt inden for kodesøgning—og udgives i tre optimerede varianter via en enkel /embeddings-endpoint. Teknologien er allerede taget i brug af virksomheder, der rapporterer tydelige gevinster i nøjagtighed og rækkevidde.

Agentic
Af Agentic
3 Min Read

OpenAI lancerer nye embeddings til tekst og kode

OpenAI har introduceret en ny embeddings-funktion i deres API, som gør det nemmere for udviklere at arbejde med opgaver inden for naturligt sprog og kodning, herunder semantisk søgning, clustering og klassificering.

Embeddings er numeriske repræsentationer af koncepter, der er konverteret til talsekvenser. Dette gør det betydeligt lettere for computere at forstå relationerne mellem forskellige begreber. Ifølge OpenAI overgår deres nye embeddings-modeller de førende modeller i tre standardbenchmarks, inklusive en relativ forbedring på 20 procent inden for kodesøgning.

Tre modeltyper til forskellige formål

OpenAI frigiver tre familier af embeddings-modeller, hver optimeret til specifikke funktioner:

  • Tekstligheds-modeller fanger den semantiske lighed mellem tekststykker og er nyttige til clustering, datavisualisering og klassificering
  • Tekstsøgningsmodeller muliggør storskalede søgeopgaver, som at finde relevante dokumenter ud fra en tekstforespørgsel
  • Kodesøgningsmodeller leverer kode- og tekstembeddings til kodesøgningsopgaver

Den nye /embeddings-endpoint i OpenAI API gør det muligt at generere embeddings med blot få linjer kode. Modellerne kan tage enten tekst eller kode som input og returnere en embedding-vektor.

Imponerende resultater i benchmarks

OpenAI’s tekstligheds-modeller opnår nye state-of-the-art resultater på lineær probe-klassificering i SentEval-benchmarket med en præcision på 92,2 procent, sammenlignet med den tidligere bedste score på 90,2 procent.

Tekstsøgningsmodellerne præsterer også bedre end tidligere metoder i BEIR-evalueringen med en gennemsnitlig nøjagtighed på 52,8 procent over 11 søgeopgaver, mod tidligere 50,2 procent.

Særligt imponerende er resultaterne for kodesøgning, hvor OpenAI’s modeller opnår 93,5 procent gennemsnitlig nøjagtighed over seks programmeringssprog – en markant forbedring fra de tidligere 77,4 procent.

Allerede i brug hos virksomheder

Flere organisationer har allerede taget teknologien i brug. JetBrains Research bruger embeddings til at søge efter astronomiske begivenheder på tværs af databaser, mens FineTune Learning har forbedret deres evne til at matche lærebogsmateriale med læringsmål fra 64,5 til 89,1 procent nøjagtighed.

Virksomheden Fabius rapporterer, at de med OpenAI’s embeddings kan finde dobbelt så mange eksempler generelt og 6-10 gange flere eksempler for funktioner med abstrakte use cases.

Alle API-kunder kan nu komme i gang med embeddings gennem OpenAI’s dokumentation.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *