OpenAI lancerer Realtime API til naturlige stemmesamtaler
OpenAI har introduceret Realtime API i offentlig beta, som giver udviklere mulighed for at bygge hurtige, naturlige stemme-til-stemme-oplevelser direkte ind i deres applikationer. Den nye teknologi minder om ChatGPT’s Advanced Voice Mode og markerer et betydeligt spring fremad i AI-drevne samtaleinterfaces.
Hurtigere og mere naturlige samtaler
Tidligere var udviklere nødt til at kombinere flere forskellige AI-modeller for at skabe stemmeassistenter: først transskribere lyd med en talegenkendelsesteknologi som Whisper, derefter sende teksten til en sprogmodel, og til sidst konvertere svaret tilbage til tale. Denne proces resulterede ofte i tab af følelser, betoning og accenter – samt mærkbar forsinkelse.
Med Realtime API kan udviklere nu håndtere hele processen med et enkelt API-kald. Systemet streamer lyd direkte ind og ud, hvilket muliggør samtaler, der føles langt mere naturlige og kan håndtere afbrydelser automatisk – ligesom mennesker gør i normale samtaler.
Allerede i brug hos førende apps
Flere virksomheder har allerede testet teknologien med lovende resultater. Sundhedsappen Healthify bruger Realtime API til at muliggøre naturlige samtaler med sin AI-coach Ria, mens sprogindlæringsappen Speak anvender det til rollespilsfunktioner, hvor brugere kan øve samtaler på et nyt sprog.
Priser og tilgængelighed
Realtime API er nu tilgængeligt for alle betalende udviklere. Prissætningen er baseret på både tekst- og lydtokens, hvor lydinput koster cirka 0,06 dollars per minut og lydoutput 0,24 dollars per minut.
OpenAI planlægger også at lancere lydmuligheder i deres Chat Completions API i de kommende uger, hvilket vil give udviklere endnu flere muligheder for at integrere stemmebaserede funktioner.
Sikkerhed i fokus
OpenAI understreger, at Realtime API er bygget på samme version af GPT-4o, som driver Advanced Voice Mode i ChatGPT, og at den er blevet grundigt testet for sikkerhed. Systemet anvender flere lag af sikkerhedsbeskyttelse, herunder automatisk overvågning og menneskelig gennemgang af markeret indhold.
Virksomheden har også klare retningslinjer for, at udviklere skal gøre det tydeligt for brugerne, når de interagerer med AI, medmindre det er indlysende fra konteksten.
Fremtidige udvidelser
OpenAI har annonceret planer om at udvide Realtime API med flere modaliteter som vision og video, øge hastighedsbegrænsninger for at understøtte større implementeringer, og tilføje support til GPT-4o mini-modellen.
Den nye teknologi åbner op for en bred vifte af anvendelsesmuligheder – fra uddannelse og oversættelse til kundeservice og tilgængelighedsløsninger.
