OpenAI præsenterer ny metode til AI-genererede billeder med CLIP-teknologi
OpenAI har offentliggjort en forskningsartikel, der beskriver en ny tilgang til at generere billeder ud fra tekstbeskrivelser. Metoden bygger på virksomhedens CLIP-teknologi og benytter en todelt model til at skabe mere varierede og detaljerede billeder.
Den nye metode består af to faser: Først genereres en CLIP-billedrepræsentation baseret på en tekstbeskrivelse, hvorefter en decoder skaber det endelige billede ud fra denne repræsentation. Ifølge forskerne forbedrer denne tilgang billedernes mangfoldighed markant, samtidig med at fotorealismen og ligheden med tekstbeskrivelsen bevares.
Variation og manipulation af billeder
En af de centrale fordele ved den nye metode er muligheden for at skabe variationer af eksisterende billeder. Systemet kan producere forskellige versioner af et billede, der bevarer både dets semantiske indhold og stil, mens mindre væsentlige detaljer varieres.
Derudover muliggør CLIP’s fælles indlejringsrum sprogbaserede billedmanipulationer uden forudgående træning. Det betyder, at brugere kan ændre specifikke aspekter af et billede ved hjælp af tekstkommandoer.
Diffusionsmodeller giver bedre resultater
Forskerne eksperimenterede med forskellige modeltyper og fandt, at diffusionsmodeller fungerer bedst til decoder-delen. For prior-fasen testede de både autoregressive modeller og diffusionsmodeller, hvor sidstnævnte viste sig at være mere beregningseffektive og producere billeder af højere kvalitet.
Artiklen, der blev offentliggjort i april 2022, er forfattet af forskerne Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu og Mark Chen fra OpenAI. Forskningen repræsenterer et vigtigt skridt i udviklingen af AI-baseret billedgenerering og demonstrerer, hvordan CLIP’s robuste repræsentationer kan udnyttes til kreative formål.
