OpenAI’s Sparse Transformer: Længere, hurtigere, smartere AI

Denne artikel introducerer OpenAI’s Sparse Transformer – en ny opmærksomhedsmodel, der kan håndtere sekvenser 30 gange længere end tidligere og reducerer beregningskompleksiteten fra O(N²) til O(N√N). Teknologien sætter nye rekorder inden for billed-, tekst- og lydgenerering, afslører fortolkelige sparsomme opmærkningsmønstre og kommer med open source-kernels til effektiv GPU-afvikling. Artiklen gennemgår de centrale tekniske greb, resultaterne på tværs af domæner og de lovende perspektiver for næste generation af neurale netværk.

Agentic
Af Agentic
3 Min Read

OpenAI præsenterer Sparse Transformer: Gennembrud i generativ AI

OpenAI har udviklet en ny type kunstig intelligens kaldet Sparse Transformer, der sætter nye standarder for at forudsige, hvad der kommer næst i en sekvens – uanset om det er tekst, billeder eller lyd. Den nye teknologi kan behandle sekvenser, der er 30 gange længere end tidligere muligt.

Revolutionerende tilgang til opmærksomhedsmekanisme

Sparse Transformer bygger videre på den eksisterende Transformer-arkitektur, men med en afgørende forbedring. Hvor traditionelle Transformers kræver enorme mængder hukommelse til at forbinde hvert output-element med hvert input-element, har OpenAI udviklet en mere effektiv tilgang.

Den nye model reducerer kompleksiteten fra O(N²) til O(N√N), hvilket gør det muligt at behandle sekvenser med titusindvis af elementer gennem hundredvis af lag. Dette er en markant forbedring sammenlignet med tidligere modeller, der havde svært ved at håndtere sekvenser på mere end få tusinde elementer.

Dyb opmærksomhed og hukommelsesoptimering

For at tackle hukommelsesudfordringen har forskerne implementeret to strategier. Den første involverer genberegning af opmærksomhedsmatricen fra kontrolpunkter under træningen, hvilket reducerer hukommelsesforbruget betydeligt. Dette gør det muligt at træne netværk med op til 128 lag – væsentligt dybere end tidligere muligt.

Den anden strategi er selve den sparsomme opmærksomhed, hvor hver output-position kun beregner vægtninger fra en mindre delmængde af input-positioner. Dette reducerer den algoritmiske kompleksitet drastisk.

Imponerende resultater på tværs af domæner

Sparse Transformer har sat nye rekorder inden for flere områder:

  • Billedgenerering: Modellen opnåede state-of-the-art resultater på CIFAR-10 (2.80 bits per dimension) og ImageNet 64×64 (3.44 bits per dimension)
  • Tekstbehandling: På Enwik8-datasættet matchede modellen de bedste eksisterende resultater med 0.99 bits per byte
  • Lydgenerering: Modellen kan generere råt audio med sekvenser på 65.000 elementer, svarende til cirka 5 sekunders klassisk musik

Visualisering af lærte mønstre

Et interessant aspekt ved forskningen er visualiseringen af de lærte opmærksomhedsmønstre. Forskerne fandt, at mange lag udviklede fortolkelige og strukturerede sparsomhedsmønstre. Nogle lag lærte at opsummere information for hver række i et billede, mens andre aggregerede disse opsummeringer efter kolonner.

Open source-bidrag

For at lette eksperimenter med sparsom opmærksomhed har OpenAI frigivet et sæt block-sparse kernels, der effektivt udfører disse operationer på GPU’er. Koden er tilgængelig som open source.

Fremtidige perspektiver

Forskerne anerkender, at der stadig er udfordringer. Autoregressive sekvensgenerering virker stadig upraktisk for meget høje opløsninger eller video. Men de optimerede opmærksomhedsoperationer kan være nyttige byggesten til at kombinere med andre tilgange til modellering af højdimensionelle data.

OpenAI ser de introducerede sparsomme opmærksomhedsmønstre som foreløbige skridt mod effektiv modellering af lange sekvenser, og forskerne mener, at læring af sparsomme mønstre er en særligt lovende forskningsretning for næste generation af neurale netværksarkitekturer.

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *