OpenAI-forskere afdækker styrker og svagheder ved Neural GPU-modellen
Ny forskning fra OpenAI viser, at kunstige neurale netværk kan lære komplekse matematiske operationer, men stadig fejler på overraskende simple opgaver.
I en forskningsartikel fra november 2016 præsenterer OpenAI-forskerne Eric Price, Wojciech Zaremba og Ilya Sutskever nye indsigter i den såkaldte Neural GPU-model – et neuralt netværk designet til at lære algoritmer som flerciffer addition og multiplikation.
Forskerne har fundet to enkle metoder til at forbedre Neural GPU’s præstationer markant: ved omhyggeligt at designe en læseplan for træningen og ved at øge modellens størrelse. Sidstnævnte krævede dog udvikling af en mere hukommelseseffektiv implementering, da den oprindelige version var meget ressourcekrævende.
Gennembrud med decimal-aritmetik
Med disse forbedringer lykkedes det forskerne at træne Neural GPU til at udføre alle grundlæggende regneoperationer med decimaltal – noget der overraskende nok ikke havde været muligt før. Modellen kan generalisere til tal af vilkårlig længde, hvilket betyder, at den kan håndtere beregninger med både små og ekstremt store tal.
Forskerne opnåede også delvis succes med at træne modellen til at evaluere lange aritmetiske udtryk med flere operander, hvor rækkefølgen af operationerne skal respekteres. Dette fungerede dog kun med binær repræsentation og ikke med perfekt nøjagtighed.
Mystiske fejlmønstre
Den mest interessante opdagelse er måske Neural GPU’s uventede fejlmønstre. Forskerne fandt, at selv modeller, der generaliserer korrekt til vilkårligt lange tal, kan fejle på meget symmetriske, atypiske input.
Et slående eksempel: En Neural GPU, der opnåede næsten perfekt præcision ved multiplikation af decimaltal op til 100 cifre, kunne fejle ved den simple beregning 000000…002×000000…002, mens den samtidig løste 2×2 korrekt.
Disse fejlmønstre minder ifølge forskerne om såkaldte “adversarial examples” – et fænomen inden for maskinlæring, hvor små, specifikke ændringer i input kan få ellers velfungerende modeller til at begå grove fejl.
Forskningen giver værdifuld indsigt i både potentialet og begrænsningerne ved neurale netværk til algoritmisk læring og peger på vigtigheden af at teste AI-systemer grundigt, også på atypiske input.
