OpenAI præsenterer Sparse Transformer: Gennembrud i generativ AI
OpenAI har udviklet en ny type kunstig intelligens kaldet Sparse Transformer, der sætter nye standarder for at forudsige, hvad der kommer næst i en sekvens – uanset om det er tekst, billeder eller lyd. Den nye teknologi kan behandle sekvenser, der er 30 gange længere end tidligere muligt.
Revolutionerende tilgang til opmærksomhedsmekanisme
Sparse Transformer bygger videre på den eksisterende Transformer-arkitektur, men med en afgørende forbedring. Hvor traditionelle Transformers kræver enorme mængder hukommelse til at forbinde hvert output-element med hvert input-element, har OpenAI udviklet en mere effektiv tilgang.
Den nye model reducerer kompleksiteten fra O(N²) til O(N√N), hvilket gør det muligt at behandle sekvenser med titusindvis af elementer gennem hundredvis af lag. Dette er en markant forbedring sammenlignet med tidligere modeller, der havde svært ved at håndtere sekvenser på mere end få tusinde elementer.
Dyb opmærksomhed og hukommelsesoptimering
For at tackle hukommelsesudfordringen har forskerne implementeret to strategier. Den første involverer genberegning af opmærksomhedsmatricen fra kontrolpunkter under træningen, hvilket reducerer hukommelsesforbruget betydeligt. Dette gør det muligt at træne netværk med op til 128 lag – væsentligt dybere end tidligere muligt.
Den anden strategi er selve den sparsomme opmærksomhed, hvor hver output-position kun beregner vægtninger fra en mindre delmængde af input-positioner. Dette reducerer den algoritmiske kompleksitet drastisk.
Imponerende resultater på tværs af domæner
Sparse Transformer har sat nye rekorder inden for flere områder:
- Billedgenerering: Modellen opnåede state-of-the-art resultater på CIFAR-10 (2.80 bits per dimension) og ImageNet 64×64 (3.44 bits per dimension)
- Tekstbehandling: På Enwik8-datasættet matchede modellen de bedste eksisterende resultater med 0.99 bits per byte
- Lydgenerering: Modellen kan generere råt audio med sekvenser på 65.000 elementer, svarende til cirka 5 sekunders klassisk musik
Visualisering af lærte mønstre
Et interessant aspekt ved forskningen er visualiseringen af de lærte opmærksomhedsmønstre. Forskerne fandt, at mange lag udviklede fortolkelige og strukturerede sparsomhedsmønstre. Nogle lag lærte at opsummere information for hver række i et billede, mens andre aggregerede disse opsummeringer efter kolonner.
Open source-bidrag
For at lette eksperimenter med sparsom opmærksomhed har OpenAI frigivet et sæt block-sparse kernels, der effektivt udfører disse operationer på GPU’er. Koden er tilgængelig som open source.
Fremtidige perspektiver
Forskerne anerkender, at der stadig er udfordringer. Autoregressive sekvensgenerering virker stadig upraktisk for meget høje opløsninger eller video. Men de optimerede opmærksomhedsoperationer kan være nyttige byggesten til at kombinere med andre tilgange til modellering af højdimensionelle data.
OpenAI ser de introducerede sparsomme opmærksomhedsmønstre som foreløbige skridt mod effektiv modellering af lange sekvenser, og forskerne mener, at læring af sparsomme mønstre er en særligt lovende forskningsretning for næste generation af neurale netværksarkitekturer.
