Realtime API: OpenAIs Nye Stemmeteknologi Revolutionerer Samtaler

OpenAI lancerer Realtime API i offentlig beta og gør det muligt at bygge hurtige, naturlige stemme-til-stemme-oplevelser med et enkelt API-kald. Den nye streaming-arkitektur håndterer lyd ind og ud i realtid og klarer afbrydelser, så samtaler føles mere menneskelige uden at kæde flere modeller sammen. Førende apps som Healthify og Speak er allerede i gang, og API’et er nu åbent for betalende udviklere med forbrugsbaseret prissætning. OpenAI lægger vægt på sikkerhed og gennemsigtighed og varsler snart support for flere modaliteter som vision og video.

Agentic
Af Agentic
3 Min Read

OpenAI lancerer Realtime API til naturlige stemmesamtaler

OpenAI har introduceret Realtime API i offentlig beta, som giver udviklere mulighed for at bygge hurtige, naturlige stemme-til-stemme-oplevelser direkte ind i deres applikationer. Den nye teknologi minder om ChatGPT’s Advanced Voice Mode og markerer et betydeligt spring fremad i AI-drevne samtaleinterfaces.

Hurtigere og mere naturlige samtaler

Tidligere var udviklere nødt til at kombinere flere forskellige AI-modeller for at skabe stemmeassistenter: først transskribere lyd med en talegenkendelsesteknologi som Whisper, derefter sende teksten til en sprogmodel, og til sidst konvertere svaret tilbage til tale. Denne proces resulterede ofte i tab af følelser, betoning og accenter – samt mærkbar forsinkelse.

Med Realtime API kan udviklere nu håndtere hele processen med et enkelt API-kald. Systemet streamer lyd direkte ind og ud, hvilket muliggør samtaler, der føles langt mere naturlige og kan håndtere afbrydelser automatisk – ligesom mennesker gør i normale samtaler.

Allerede i brug hos førende apps

Flere virksomheder har allerede testet teknologien med lovende resultater. Sundhedsappen Healthify bruger Realtime API til at muliggøre naturlige samtaler med sin AI-coach Ria, mens sprogindlæringsappen Speak anvender det til rollespilsfunktioner, hvor brugere kan øve samtaler på et nyt sprog.

Priser og tilgængelighed

Realtime API er nu tilgængeligt for alle betalende udviklere. Prissætningen er baseret på både tekst- og lydtokens, hvor lydinput koster cirka 0,06 dollars per minut og lydoutput 0,24 dollars per minut.

OpenAI planlægger også at lancere lydmuligheder i deres Chat Completions API i de kommende uger, hvilket vil give udviklere endnu flere muligheder for at integrere stemmebaserede funktioner.

Sikkerhed i fokus

OpenAI understreger, at Realtime API er bygget på samme version af GPT-4o, som driver Advanced Voice Mode i ChatGPT, og at den er blevet grundigt testet for sikkerhed. Systemet anvender flere lag af sikkerhedsbeskyttelse, herunder automatisk overvågning og menneskelig gennemgang af markeret indhold.

Virksomheden har også klare retningslinjer for, at udviklere skal gøre det tydeligt for brugerne, når de interagerer med AI, medmindre det er indlysende fra konteksten.

Fremtidige udvidelser

OpenAI har annonceret planer om at udvide Realtime API med flere modaliteter som vision og video, øge hastighedsbegrænsninger for at understøtte større implementeringer, og tilføje support til GPT-4o mini-modellen.

Den nye teknologi åbner op for en bred vifte af anvendelsesmuligheder – fra uddannelse og oversættelse til kundeservice og tilgængelighedsløsninger.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *