Jesse Burger
Terug naar blog
Technologie·Analyse

De Kosten van AI: Wat Het Echt Kost om Modellen te Draaien

Jesse Burger··11 min leestijd
§

GPT-4 kostte naar schatting meer dan honderd miljoen dollar om te trainen. Gemini Ultra zat waarschijnlijk in dezelfde orde van grootte. Meta's trainingsrun voor Llama 3 405B vergde duizenden high-end GPU's die maandenlang aanstonden. En toch is het product dat aan de gebruiker wordt gepresenteerd gratis, of vijftien dollar per maand.

Die discrepantie is geen toeval. Het is een bewuste bedrijfsstrategie, en het heeft gevolgen voor iedereen die AI gebruikt of er op rekent.

Wat het kost om een model te trainen

De meest zichtbare kosten in AI zijn de trainingskosten. Dit zijn de eenmalige uitgaven om een basismodel te bouwen.

Voor frontier-modellen, de absolute top van wat beschikbaar is, liggen die kosten tegenwoordig in de honderden miljoenen dollars. Sommige schattingen voor GPT-4 liepen op tot tweehonderd miljoen dollar. Voor de modellen die in 2025 en 2026 zijn getraind, liggen de getallen waarschijnlijk hoger. De trainingsrun voor OpenAI's nieuwste modellen vergt compute die in de miljarden loopt als je er alle infrastructuurkosten bij optelt.

Die kosten bestaan grofweg uit drie componenten. De hardware, vrijwel altijd Nvidia GPU's (de H100 of de nieuwere H200), kost al snel een paar duizend dollar per stuk en je hebt er duizenden van nodig. De energie om ze te laten draaien. En de tijd: trainingsruns duren weken tot maanden en moeten zorgvuldig worden gemanaged om niet te falen.

Trainingskosten zijn ook sterk gestegen. Vijf jaar geleden kostte een voortreffelijk model een paar miljoen dollar om te trainen. De reden is simpel: de modellen zijn groter geworden, de datasets zijn groter geworden, en de infrastructuur om dat te ondersteunen is duurder geworden. Er is een industriebreed geloof dat schaal tot betere modellen leidt, en alle grote labs investeren dienovereenkomstig.

Interessant is dat dit patroon de laatste tijd wordt uitgedaagd. DeepSeek trainde eind 2024 een model dat vergelijkbaar presteert met topmodellen van OpenAI en Anthropic, voor een fractie van de kosten. Officieel zo'n vijf tot zes miljoen dollar voor de trainingsrun. Dat getal is omstreden en vermoedelijk niet volledig kostendekkend, maar de directie van het bewijs is wel duidelijk: slimmere algoritmes kunnen soms de brute compute-investering deels vervangen.

Inference: de kosten die nooit stoppen

Trainingskosten zijn groot, maar ze zijn eenmalig. Inference-kosten zijn dat niet.

Inference is wat er gebeurt als jij een vraag stelt aan een taalmodel. Het model verwerkt jouw input, genereert een antwoord token voor token, en stuurt dat terug. Elke aanvraag kost stroom, CPU-tijd, GPU-geheugen en bandbreedte. Vermenigvuldig dat met honderden miljoenen gebruikers die dagelijks vragen stellen, en je hebt een rekening die elke maand opnieuw betaald wordt.

De inference-kosten per aanvraag zijn in de afgelopen drie jaar dramatisch gedaald. Wat in 2022 een dollar per duizend tokens kostte, kost nu een paar cent voor vergelijkbare kwaliteit. Dat heeft te maken met betere hardware, efficiëntere software zoals betere kwantisatietechnieken, en schaalvoordelen in de datacenter-infrastructuur.

Maar de totale inference-rekening is ook gegroeid, want het gebruik is exponentieel gestegen. OpenAI's datacenters draaien op elk moment van de dag op volle capaciteit. Microsoft heeft voor honderden miljarden aan nieuwe datacenters aangekondigd, grotendeels voor AI-inference. Google heeft hetzelfde gedaan.

Wat inference in de praktijk kost

Via de OpenAI API betaal je voor GPT-4o momenteel zo'n 2,50 dollar per miljoen invoertokens en 10 dollar per miljoen uitvoertokens. Een uitgebreid gesprek van duizend woorden heen-en-weer kost ruwweg een cent of twee. Dat klinkt goedkoop totdat je bedenkt dat miljoenen mensen dat dagelijks doen, en dat de gratis ChatGPT-versie diezelfde rekening binnenbrengt bij het bedrijf zonder dat jij betaalt.

Energie en milieu

De energierekening van AI is een onderwerp dat moeilijk concreet te maken is, maar het is reeel.

Trainingsruns verbruiken enorme hoeveelheden elektriciteit. Een schatting voor de training van GPT-3 was zo'n 1.300 megawattuur, vergelijkbaar met het jaarlijkse elektriciteitsverbruik van honderd Amerikaanse huishoudens. Nieuwere, grotere modellen verbruiken navenant meer. Google rapporteerde dat zijn totale energieverbruik in 2023 met 48 procent steeg ten opzichte van 2019, en gaf AI-workloads als voornaamste reden.

Voor inference geldt hetzelfde. Een enkele zoekvraag aan Google kost naar schatting zo'n 0,3 wattuur. Een vergelijkbare vraag aan ChatGPT kost misschien tienmaal zoveel, omdat het genereren van tekst token voor token veel intensiever is dan het ophalen van bestaande webpagina's. Als AI-zoekopdrachten traditionele webzoekopdrachten in aantallen evenaren, heeft dat een directe impact op het wereldwijde energieverbruik.

De grote labs investeren wel in duurzame energie. Google, Microsoft en Amazon hebben allemaal klimaatdoelen en kopen groene energie via Power Purchase Agreements. Maar de totale vraag groeit sneller dan de groene capaciteit. Datacenters hebben een groot waterverbruik voor koeling. Er worden nieuwe kerncentrale-contracten getekend, deels vanwege AI-vraag. De energiedimensie van AI is geen abstracte zorgenoverweging meer, het is een concrete planningsfactor voor energienetwerkbeheerders.

De GPU-schaarste

De Nvidia H100 GPU is het product van het afgelopen decennium. In 2023 was hij nauwelijks te krijgen. Wachttijden van zes tot negen maanden waren normaal. Tweedehands H100's werden verhandeld voor twee à drie keer de catalogusprijs.

Die schaarste was niet toevallig. TSMC, de Taiwanese chipfabrikant die vrijwel alle geavanceerde AI-chips produceert, draaide op volledige capaciteit. Het bouwen van een nieuwe chipfabriek kost tien tot vijftien miljard dollar en duurt vijf jaar. Productiecapaciteit verhogen gaat niet snel.

De gevolgen waren voelbaar. Startups die een model wilden trainen kwamen terecht in een wachtrij of betaalden premiumtarieven aan cloudproviders. Landen zonder toegang tot Nvidia-hardware konden eenvoudigweg niet meedoen in de frontier-modelrace. De VS introduceerde exportcontroles om te voorkomen dat geavanceerde chips naar China gingen, en China investeerde miljarden in het bouwen van een eigen chipindustrie.

Er zijn tekenen dat de acute schaarste afneemt. Nvidia's productievolume is gestegen, de H200 en de Blackwell-architectuur zijn uitgerold, en AMD en Intel proberen met eigen AI-chips marktaandeel te veroveren. Maar structurele afhankelijkheid van een handvol fabrikanten voor de hardware die AI mogelijk maakt, blijft een kwetsbaarheid in de keten.

Wie betaalt voor 'gratis' AI

De meest gestelde vraag over AI is waarom het zo duur is om te bouwen maar zo goedkoop om te gebruiken.

Het antwoord is gelaagd. Deels is het cross-subsidie: gebruikers die betalen voor een Plus-abonnement of een enterprise-contract subsidiëren de gratis gebruikers. Deels is het data: gratis gebruikers genereren waardevolle informatie over hoe mensen modellen gebruiken, wat trainingsdata oplevert. Deels is het marktaandeel: bedrijven als OpenAI en Anthropic geloven dat als je groot genoeg bent en vroeg genoeg, je op termijn de kosten kunt terugverdienen.

Maar deels is het ook verliesgevend. OpenAI meldde in 2024 een operationeel verlies van meerdere miljarden dollar, ondanks inkomsten van meerdere miljarden. De aanname is dat de verliezen tijdelijk zijn en dat de weg naar winstgevendheid via schaal en nieuwe producten loopt.

Voor gebruikers heeft dit praktische gevolgen. Gratis AI-tools bestaan bij de gratie van investeerdersgeld, en dat geld heeft een tijdshorizon. Niet elk bedrijf dat nu gratis aanbiedt, kan dat blijven doen als de kapitaalmarkt strenger wordt. De bedrijven en individuen die volledig afhankelijk zijn geworden van één gratis tool, lopen een reeel risico op prijsschokken.

Gratis heeft een houdbaarheidsdatum

Veel gratis AI-producten draaien op investeringsgeld, niet op inkomsten. Als het marktklimaat verandert en funding moeilijker wordt, stijgen prijzen of verdwijnen diensten. Wie AI serieus inzet in een werkproces, doet er goed aan te begrijpen hoe het product waar hij op vertrouwt zijn geld verdient. API-toegang met vaste prijsafspraken is voorspelbaarder dan een gratis product waarvan het businessmodel onduidelijk is.

API-prijzen en hoe ze werken

Voor ontwikkelaars en bedrijven die AI inbouwen in producten is de API het relevante aanknopingspunt. En de prijsstructuur is interessant genoeg om even bij stil te staan.

Alle grote labs hanteren een prijs per token, waarbij een token ruwweg een woord of een woorddeel is. De prijs verschilt per model en per richting: input (wat jij naar het model stuurt) is goedkoper dan output (wat het model terugstuurt). Grotere, capabelere modellen kosten meer per token dan kleinere, snellere varianten.

Dat maakt het kiezen van het juiste model voor een taak ook een economische beslissing. Voor een eenvoudige classificatietaak of een samenvatting van een kort stuk tekst is het duurste frontier-model overkill. Een kleiner model dat sneller en goedkoper is, presteert voor die taak vergelijkbaar. De organisaties die AI het meest kostenefficiënt inzetten, evalueren per use case welk model nodig is, in plaats van altijd het krachtigste model in te zetten.

Prijzen zijn de afgelopen jaren ook sterk gedaald. De prijs voor GPT-3.5-equivalente kwaliteit is in drie jaar met een factor tien of meer gedaald. Dat maakt toepassingen economisch haalbaar die eerder te duur waren. Een startup die in 2022 honderd dollar per dag uitgaf aan API-kosten voor een redelijke productervaring, kan dat nu voor tien dollar.

Waarom kleinere modellen steeds interessanter worden

De dominante narratief in AI-land gaat over grotere modellen, meer parameters, meer compute. Maar er is een stille tegenstroom die economisch interessanter is.

Kleinere, gespecialiseerde modellen zijn voor veel toepassingen goedkoper, sneller en goed genoeg. Modellen als Phi-3 van Microsoft, Mistral 7B, of de kleinere Claude- en Gemini-varianten presteren op specifieke taken verrassend goed in verhouding tot hun omvang.

De reden is fine-tuning. Een klein basismodel dat je traint op duizenden voorbeelden van jouw specifieke taak kan een groot generalistisch model verslaan voor die taak, terwijl het een fractie van de inference-kosten kost. Een medische organisatie die documenten wil classificeren, heeft geen model nodig dat ook Spaanse poëzie kan schrijven. Ze hebben een model nodig dat hun specifieke classificatie goed doet.

Er is ook een beweging richting edge-inference: modellen die op het apparaat zelf draaien, zonder internet. Apple's on-device modellen, Llama-varianten die op een MacBook of telefoon draaien via Ollama. De inference-kosten zijn dan nul, de latency is laag, en data verlaat het apparaat niet. Voor privacy-gevoelige toepassingen is dat aantrekkelijk los van de kosten.

De economie van kleinere modellen is ook relevant voor startups. Een startup die een AI-product bouwt op de API van OpenAI of Anthropic, heeft een kostenstructuur die volledig afhankelijk is van die leverancier. Als de prijs stijgt of de API verandert, verandert het businessmodel mee. Wie zijn eigen klein model fine-tunet en host, heeft meer controle over die kostenstructuur.

Wat dit betekent voor de gemiddelde gebruiker

De meeste mensen die AI gebruiken denken weinig na over de kosten achter het scherm. Dat is begrijpelijk, maar er zijn een paar dingen die het weten waard zijn.

Ten eerste: de prijs die je betaalt voor een abonnement dekt de werkelijke kosten niet altijd. Als je intensief gebruik maakt van een gratis tier, word je gecross-subsidied door anderen. Dat is prima, maar het betekent ook dat gratis producten niet structureel gratis kunnen blijven als het gebruik blijft groeien.

Ten tweede: de keuze welk model je gebruikt heeft milieu-implicaties. Een simpele vraag aan een groot model verbruikt meer energie dan dezelfde vraag aan een kleiner model. Voor de meeste individuele gebruikers is dat verwaarloosbaar, maar als AI-gebruik op schaal groeit, telt het aggregaat.

Ten derde: de vrije markt voor AI-diensten is in flux. Prijzen dalen, modellen verbeteren, en nieuwe spelers komen bij. Wie nu vastloopt op één platform of één betaalde dienst, loopt het risico een betere of goedkopere optie te missen die over zes maanden beschikbaar is.

Wat dit betekent voor startups

Voor bedrijven die AI inbouwen in hun product is de economie concreter en urgenter.

De grootste valkuil is het bouwen op een frontier-API zonder na te denken over kosten op schaal. Een product dat per gebruikerssessie tien cent aan API-kosten maakt, heeft bij tienduizend sessies per dag een dagtarief van duizend dollar. Bij een miljoen sessies is dat honderdduizend dollar per dag. Die getallen veranderen het businessmodel fundamenteel.

Startups die dit goed aanpakken, doen het volgende. Ze beginnen met het duurste, capabelste model om de user experience te bewijzen. Zodra het werkt, profilen ze welke calls echt het grote model nodig hebben en welke met een kleiner model prima werken. Ze fine-tunen op hun eigen data waar het kan. Ze bouwen caching in zodat dezelfde aanvraag niet twee keer betaald wordt. En ze monitoren kosten per functie zodat ze weten welke onderdelen van het product de grootste rekening genereren.

De startups die dit niet doen, lopen bij succes vast. Snel groeien met hoge AI-kosten per gebruiker is geen weg naar winstgevendheid, het is een weg naar een gesprek met je investeerders over waarom de marges negatief zijn.

De langere termijn

Er zijn redenen om aan te nemen dat de totale kosten van AI de komende jaren zullen blijven dalen, maar de totale vraag ook zal blijven stijgen. Goedkopere inference per aanvraag wordt gecompenseerd door meer aanvragen. Efficiëntere trainingsmethoden worden gecompenseerd door grotere modellen.

De vraag wie de rekening uiteindelijk betaalt, is niet volledig beantwoord. Op dit moment betaalt een combinatie van investeerders (via verliezen bij de AI-labs), consumenten (via abonnementen en data), en indirect via publieke gelden (via energie-infrastructuur die datacenters mogelijk maakt).

Als AI inderdaad zo productief en waardevol wordt als de optimisten verwachten, zal de waarde die het genereert uiteindelijk de kosten overstijgen. Als dat niet gebeurt, is er een correctiemoment op komst waarbij de rekening ergens anders terecht komt.

Het is geen alarmistische observatie. Het is gewoon de economie.


Heb jij je ooit afgevraagd wat jouw dagelijks gebruik van AI je zou kosten als je het zelf zou moeten betalen?

§
JB

Jesse Burger

Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.