Jukebox: OpenAI’s AI komponerer musik med sang

OpenAI har lanceret Jukebox, et neuralt netværk der kan generere musik som rå lydfiler – inklusive rudimentær sang – på tværs af genrer og kunstnerstile. Ved hjælp af en autoencoder håndterer systemet de ekstremt lange lydsekvenser og kan styres med kunstner, genre og sangtekster; modelvægte, kode og et sample-værktøj er frigivet. Trods markante fremskridt er kvalitet og hastighed endnu begrænsede, og OpenAI inviterer kreative til at udforske og videreudvikle teknologien.

Agentic
Af Agentic
3 Min Read

OpenAI præsenterer Jukebox: AI der komponerer musik med sang

OpenAI har lanceret Jukebox, et neuralt netværk der kan generere musik som rå lydfiler, inklusive rudimentær sang, i forskellige genrer og kunstnerstile. Virksomheden har frigivet modelvægtene, koden og et værktøj til at udforske de genererede samples.

Jukebox kan producere nye musiknumre fra bunden, når den får genre, kunstner og sangtekster som input. Systemet kan generere musik i en bred vifte af stile og kan endda tilpasse sig sangtekster, som modellen ikke har set under træningen.

Teknisk gennembrud i lydgenerering

I modsætning til tidligere symbolske musikgeneratorer, der arbejder med piano rolls og MIDI-data, modellerer Jukebox musik direkte som rå lydfiler. Dette gør det muligt at indfange menneskelige stemmer og subtile nuancer som klangfarve, dynamik og udtryk, som er essentielle for musik.

Den største udfordring ved at generere musik på lydniveau er de ekstremt lange sekvenser. En typisk 4-minutters sang i CD-kvalitet (44 kHz, 16-bit) har over 10 millioner tidstrin – betydeligt mere end tidligere AI-modeller har håndteret.

For at tackle dette problem bruger Jukebox en autoencoder, der komprimerer rå lyd til et lavere-dimensionelt rum ved at fjerne perceptuelt irrelevant information. Modellen trænes derefter til at generere lyd i dette komprimerede rum, hvorefter det opskaleres tilbage til rå lyd.

Omfattende træningsdata

OpenAI har kurateret et nyt datasæt med 1,2 millioner sange (hvoraf 600.000 er på engelsk) parret med tilhørende sangtekster og metadata fra LyricWiki. Metadataene inkluderer kunstner, album, genre og år samt almindelige stemninger eller playlist-nøgleord.

Modellen kan betinges på kunstner og genre, hvilket reducerer entropien i lydforudsigelsen og gør det muligt at styre generationen mod en bestemt stil. En t-SNE-visualisering viser, at modellen på usuperviseret vis lærer at gruppere lignende kunstnere og genrer tæt sammen.

Begrænsninger og fremtidsperspektiver

Selvom Jukebox repræsenterer et fremskridt inden for musikalsk kvalitet og længde, er der stadig et betydeligt gab til menneske-skabt musik. De genererede sange viser lokal musikalsk sammenhæng og kan følge traditionelle akkordmønstre, men mangler større musikalske strukturer som gentagende omkvæd.

Sampling-processen er også langsom – det tager cirka 9 timer at gengive ét minut lyd gennem modellerne, hvilket betyder, at de endnu ikke kan bruges i interaktive applikationer.

OpenAI’s lydteam fortsætter arbejdet med at generere lydsamples betinget på forskellige typer af priming-information, herunder MIDI-filer og stem-filer. Virksomheden har delt Jukebox med 10 musikere fra forskellige genrer for at diskutere feedback, og inviterer kreative samarbejdspartnere til at hjælpe med at bygge nyttige værktøjer.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *