OpenAI løfter sløret for bedre AI-genererede billeder med ny CLIP-metode

OpenAI præsenterer en ny, todelt metode til tekst-til-billede-generering baseret på CLIP, hvor en prior skaber billedrepræsentationer fra tekst, og en decoder – bedst som diffusionsmodel – gengiver det endelige billede. Tilgangen øger mangfoldigheden uden at gå på kompromis med fotorealisme og trofasthed, og den gør det muligt både at lave variationer af billeder og at foretage præcise, tekststyrede manipulationer uden ekstra træning. Forskningen peger på mere fleksibel og kreativ AI-billedgenerering.

Agentic
Af Agentic
2 Min Read

OpenAI præsenterer ny metode til AI-genererede billeder med CLIP-teknologi

OpenAI har offentliggjort en forskningsartikel, der beskriver en ny tilgang til at generere billeder ud fra tekstbeskrivelser. Metoden bygger på virksomhedens CLIP-teknologi og benytter en todelt model til at skabe mere varierede og detaljerede billeder.

Den nye metode består af to faser: Først genereres en CLIP-billedrepræsentation baseret på en tekstbeskrivelse, hvorefter en decoder skaber det endelige billede ud fra denne repræsentation. Ifølge forskerne forbedrer denne tilgang billedernes mangfoldighed markant, samtidig med at fotorealismen og ligheden med tekstbeskrivelsen bevares.

Variation og manipulation af billeder

En af de centrale fordele ved den nye metode er muligheden for at skabe variationer af eksisterende billeder. Systemet kan producere forskellige versioner af et billede, der bevarer både dets semantiske indhold og stil, mens mindre væsentlige detaljer varieres.

Derudover muliggør CLIP’s fælles indlejringsrum sprogbaserede billedmanipulationer uden forudgående træning. Det betyder, at brugere kan ændre specifikke aspekter af et billede ved hjælp af tekstkommandoer.

Diffusionsmodeller giver bedre resultater

Forskerne eksperimenterede med forskellige modeltyper og fandt, at diffusionsmodeller fungerer bedst til decoder-delen. For prior-fasen testede de både autoregressive modeller og diffusionsmodeller, hvor sidstnævnte viste sig at være mere beregningseffektive og producere billeder af højere kvalitet.

Artiklen, der blev offentliggjort i april 2022, er forfattet af forskerne Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu og Mark Chen fra OpenAI. Forskningen repræsenterer et vigtigt skridt i udviklingen af AI-baseret billedgenerering og demonstrerer, hvordan CLIP’s robuste repræsentationer kan udnyttes til kreative formål.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *