OpenAI-ingeniør afslører hverdagen bag verdens største AI-supercomputere
En sjælden indsigt i det komplekse maskinrum bag ChatGPT og andre AI-modeller viser, hvordan OpenAI kæmper med tekniske udfordringer, som ingen andre har mødt før.
I et interview fra december 2022 giver en unavngiven backend-ingeniør hos OpenAI et fascinerende indblik i arbejdet med at holde nogle af verdens største supercomputere kørende – maskiner, der træner AI-modeller til milliarder af dollars.
Skala uden sidestykke
“Den skala, vi opererer på, er ærligt talt forbløffende,” fortæller ingeniøren, der arbejder med OpenAIs supercomputing-klynger. “Hardware-leverandører fortæller rutinemæssigt, at vi støder på problemer, de aldrig har set før.”
Problemet er ofte simpelt: OpenAI har simpelthen mere hardware samlet i én enkelt supercomputer end leverandørernes andre kunder. Men det handler også om performance-forventninger. Da AI-modeltræning kræver synkronisering, kører hele klyngen reelt med hastigheden af den langsomste node.
Når én kodelinje sparer millioner
Det ekstreme fokus på performance giver overraskende resultater. Ingeniøren beskriver, hvordan en enkelt linjes kodeændring i Linux-kernen kan spare cirka seks dages beregning om ugen på tværs af hele OpenAIs flåde.
“Det er spændende at se noget som en én-linjes ændring ramme hovedkernen, vel vidende at det vil spare omkring seks dages beregning på tværs af vores flåde per uge,” forklarer han.
Fra lommeregner-programmering til AI-infrastruktur
Ingeniørens vej til OpenAI startede i mellemskolen med BASIC-programmering på Texas Instruments-lommeregnere – komplet med “umaintainable” kode og tung brug af GOTO-statements. Via tekstbaserede eventyrspil og orbitberegninger for planeter fandt han sin passion for backend-systemer.
“På mit sidste job havde jeg bevæget mig fra en backend-rolle til en full-stack-position, kun for at opdage en modvilje mod frontend-arbejde og UX-design,” fortæller han. OpenAI tilbød præcis den ændring, han søgte – og meget mere.
Detektivarbejde i milliardklassen
En typisk arbejdsdag består af en blanding af kodning, fejlfinding og møder. Problemerne varierer fra det vage (“mit job ser ud til at køre langsommere end i går”) til det skræmmende specifikke (“jeg tror, at hvis jeg pusher mere end 30Gbps over Ethernet NIC’en, forårsager jeg et kernel panic?”).
Motivationen finder han i den umiddelbare påvirkning af arbejdet: “OpenAI er den største arbejdsgiver, jeg har arbejdet for, og at have en øjeblikkelig forståelse af virkningen af mit arbejde er afgørende for min daglige motivation.”
Inspiration fra fremskridt
Den største inspiration kommer fra at se forskerteamene gøre fremskridt. Mange grupper opsætter Slack-bots eller simple playgrounds, hvor man kan interagere med modeller under udvikling.
“Intet er så inspirerende som at se vores forskerteams gøre fremskridt med at forbedre deres modeller,” siger ingeniøren, der siden 2020 har tagget over 400 inspirerende opslag i Slack – næsten fire om ugen.
Interviewet giver et sjældent indblik i det tekniske fundament, der muliggør AI-revolutionen, og viser, hvordan OpenAI opererer på en skala, der konstant presser grænserne for, hvad moderne hardware kan klare.
