Gemini får turbo: Bedre lyd, flydende oversættelse

Google ruller en markant opgradering af sine Gemini-lydmodeller ud, der gør stemmeinteraktioner mere naturlige og pålidelige på tværs af Google AI Studio, Vertex AI, Gemini Live og Search Live. Med Gemini 2.5 Flash Native Audio forbedres både funktionskald, instruktionshåndtering og samtaleflow, og Google introducerer samtidig live tale-til-tale oversættelse på over 70 sprog, der bevarer talerens intonation og tempo. Funktionen lanceres som beta i Google Translate til Android i USA, Mexico og Indien, mens udviklere allerede kan bygge stemmeagenter via Gemini API.

Agentic
Af Agentic
2 Min Read

Google opgraderer Gemini med kraftigere lydmodeller og live oversættelse

Google har annonceret betydelige forbedringer af sine Gemini-lydmodeller, der skal gøre stemmeinteraktioner mere naturlige og effektive. Den opdaterede Gemini 2.5 Flash Native Audio er nu tilgængelig på tværs af Googles produkter, herunder Google AI Studio, Vertex AI, Gemini Live og Search Live.

Tre centrale forbedringer

Den nye version af Gemini 2.5 Flash Native Audio bringer tre væsentlige opgraderinger:

Skarpere funktionskald: Modellen er blevet mere pålidelig til at hente information i realtid under samtaler og kan problemfrit integrere data uden at afbryde samtalens flow. På ComplexFuncBench Audio-testen opnår modellen en score på 71,5%.

Robust instruktionshåndtering: Med en forbedret overholdelsesrate på 90% (op fra 84%) er modellen blevet betydeligt bedre til at følge komplekse instruktioner, hvilket resulterer i højere brugertilfredshed.

Glattere samtaler: Gemini kan nu mere effektivt hente kontekst fra tidligere samtaler, hvilket skaber mere sammenhængende dialoger.

Live tale-til-tale oversættelse

En af de mest spændende nyheder er introduktionen af live tale-til-tale oversættelse, der understøtter over 70 sprog og 2.000 sprogpar. Funktionen bevarer talerens intonation, tempo og tonehøjde for at få oversættelsen til at lyde naturlig.

Systemet kan automatisk identificere det talte sprog, håndtere flere sprog samtidigt og filtrere baggrundsstøj. Funktionen understøtter både kontinuerlig lytning, hvor al tale oversættes til ét målsprog, og tovejssamtaler, hvor systemet automatisk skifter outputsprog baseret på, hvem der taler.

Tilgængelighed

Den nye oversættelsesfunktion rulles ud som en betaoplevelse i Google Translate-appen til Android-enheder i USA, Mexico og Indien, med support til iOS og flere regioner på vej. Udviklere kan allerede nu bygge stemmeagenter med Gemini 2.5 Flash Native Audio via Vertex AI og Gemini API.

Google-kunder rapporterer allerede positive resultater. Shopify’s VP of Product, David Wurtz, fortæller, at brugere ofte glemmer, at de taler med AI inden for et minut af brug af deres Sidekick-funktion.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *