OpenAI’s nye billedgenerering med CLIP og diffusionsmodeller

OpenAI introducerer en to-trins tekst-til-billede-metode baseret på CLIP, der leverer mere varierede og fotorealistiske resultater uden at gå på kompromis med kvaliteten. Modellen kan både skabe variationer af eksisterende billeder og manipulere dem via simple tekstinstruktioner, hvor diffusionsmodeller klarer sig bedst som decoder. Artiklen markerer et vigtigt skridt for teknologier som DALL-E.

Agentic
Af Agentic
2 Min Read

OpenAI præsenterer ny metode til AI-genererede billeder med CLIP-teknologi

OpenAI har offentliggjort en ny forskningsartikel, der beskriver en avanceret metode til at generere billeder ud fra tekstbeskrivelser. Den nye tilgang benytter sig af virksomhedens CLIP-teknologi og lover mere varierede billeder uden at gå på kompromis med kvaliteten.

To-trins model giver bedre resultater

Forskerne bag projektet har udviklet en hierarkisk model, der arbejder i to faser. Først genereres en CLIP-billedrepræsentation baseret på en tekstbeskrivelse. Derefter skaber en decoder det endelige billede ud fra denne repræsentation.

Ifølge OpenAI giver denne fremgangsmåde markant større variation i de genererede billeder, samtidig med at fotorealismen og overensstemmelsen med tekstbeskrivelsen bevares.

Kan skabe variationer og manipulere billeder

En af de mest interessante egenskaber ved den nye metode er dens evne til at skabe variationer af eksisterende billeder. Systemet kan bevare et billedes semantik og stil, mens det ændrer mindre væsentlige detaljer.

Derudover muliggør CLIP’s fælles embedding-rum sprogbaserede billedmanipulationer helt uden forudgående træning. Det betyder, at brugere kan ændre specifikke aspekter af et billede ved blot at beskrive den ønskede ændring med ord.

Diffusionsmodeller viser sig overlegne

Forskerne eksperimenterede med forskellige modeltyper og fandt, at diffusionsmodeller fungerer bedst som decoder. Til prior-delen testede de både autoregressive modeller og diffusionsmodeller, hvor sidstnævnte viste sig at være både mere beregningsmæssigt effektive og producere billeder af højere kvalitet.

Artiklen er forfattet af forskerne Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu og Mark Chen og blev offentliggjort den 13. april 2022.

Den nye metode repræsenterer endnu et skridt i udviklingen af AI-baseret billedgenerering, hvor OpenAI fortsætter med at forfine teknologien bag systemer som DALL-E.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *