OpenAI præsenterer ny metode til AI-genererede billeder med CLIP-teknologi
OpenAI har offentliggjort en ny forskningsartikel, der beskriver en avanceret metode til at generere billeder ud fra tekstbeskrivelser. Den nye tilgang benytter sig af virksomhedens CLIP-teknologi og lover mere varierede billeder uden at gå på kompromis med kvaliteten.
To-trins model giver bedre resultater
Forskerne bag projektet har udviklet en hierarkisk model, der arbejder i to faser. Først genereres en CLIP-billedrepræsentation baseret på en tekstbeskrivelse. Derefter skaber en decoder det endelige billede ud fra denne repræsentation.
Ifølge OpenAI giver denne fremgangsmåde markant større variation i de genererede billeder, samtidig med at fotorealismen og overensstemmelsen med tekstbeskrivelsen bevares.
Kan skabe variationer og manipulere billeder
En af de mest interessante egenskaber ved den nye metode er dens evne til at skabe variationer af eksisterende billeder. Systemet kan bevare et billedes semantik og stil, mens det ændrer mindre væsentlige detaljer.
Derudover muliggør CLIP’s fælles embedding-rum sprogbaserede billedmanipulationer helt uden forudgående træning. Det betyder, at brugere kan ændre specifikke aspekter af et billede ved blot at beskrive den ønskede ændring med ord.
Diffusionsmodeller viser sig overlegne
Forskerne eksperimenterede med forskellige modeltyper og fandt, at diffusionsmodeller fungerer bedst som decoder. Til prior-delen testede de både autoregressive modeller og diffusionsmodeller, hvor sidstnævnte viste sig at være både mere beregningsmæssigt effektive og producere billeder af højere kvalitet.
Artiklen er forfattet af forskerne Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu og Mark Chen og blev offentliggjort den 13. april 2022.
Den nye metode repræsenterer endnu et skridt i udviklingen af AI-baseret billedgenerering, hvor OpenAI fortsætter med at forfine teknologien bag systemer som DALL-E.
