De Grote Taalmodel Race: Wie Wint en Waarom Het Ertoe Doet
Wie de beste AI bouwt, bepaalt ook wie de meeste invloed heeft op hoe die technologie zich ontwikkelt en wie er toegang toe krijgt. Dat gegeven maakt de strijd tussen de grote labs meer dan een techbedrijvenstrijd.
De spelers zijn OpenAI, Anthropic, Google, Meta, Mistral, DeepSeek en een handvol kleinere labs. Ze strijden om parameters, rekenkracht en trainingsdata, en ze omschrijven hun doel allemaal anders maar willen allemaal hetzelfde: het best presterende model ter wereld.
Wat volgt is een overzicht van wie goed bezig is, wie het belooft maar niet altijd nakomt, en wat het voor jou als gebruiker betekent.
OpenAI: de koploper met een dubbelzinnige positie
OpenAI heeft de race gedefinieerd. ChatGPT zorgde voor honderd miljoen gebruikers in twee maanden, een groeisnelheid die Netflix, Instagram en TikTok in de schaduw stelde. GPT-4 was bij release het capabelste model op de markt, en voor ruim een jaar was "gewoon ChatGPT gebruiken" het meest voor de hand liggende advies.
Maar OpenAI heeft een structureel probleem, en het is grotendeels zelfgemaakt. Het bedrijf dat werd opgericht met de belofte van veilige, open AI voor de mensheid is inmiddels een commercieel bedrijf met een waardering van meer dan honderd miljard dollar, gesteund door Microsoft met tientallen miljarden. De naam "Open" in OpenAI is steeds moeilijker serieus te nemen: de modellen zijn gesloten, de trainingsdata is geheim, de architectuurkeuzes worden zorgvuldig bewaakt. Zakelijk gezien logisch. Maar het staat haaks op de founding mission.
Sam Altman navigeert dit met de geloofwaardigheid van iemand die twee dingen tegelijk beweert die niet allebei waar kunnen zijn: de publieke overtuiging dat AGI het grootste risico is voor de mensheid, gecombineerd met het gedrag van een bedrijf dat genadeloos concurreert, agressief fondsenwerving doet, en de veiligheidsafdeling relatief kleiner maakt terwijl de ambities groter worden.
Wat OpenAI goed doet: Productkwaliteit en consistentie. De GPT-4o-versies zijn snel, veelzijdig en goed geïntegreerd in tools die mensen al gebruiken. De API is volwassen, betrouwbaar en heeft de beste developer experience van de grote labs. De introductie van o1 en later o3 was een echte methodologische stap: modellen die expliciet stap voor stap redeneren voor ze antwoorden, en daardoor categorisch beter zijn op wiskundige en logische vraagstukken.
Waar het wringt: De veiligheidsbeloftes worden vager naarmate de commerciële druk toeneemt. Een aantal prominente veiligheidswetenschappers vertrok publiek, met als toelichting dat de organisatiecultuur was verschoven. De concurrent die de veiligheidsvlag consequenter draagt, is opgericht door mensen die bij OpenAI weggingen vanwege precies die zorgen.
Anthropic: de meest coherente langetermijnstrategie
Claude is het model dat dagelijks het meest wordt gebruikt in mijn werk, en niet alleen omdat ik het schrijf met Claude Code. Maar laat me uitleggen waarom Anthropic de meest coherente langetermijnstrategie heeft van alle spelers, en waarom dat meer is dan een productvoorkeur.
Anthropic is opgericht door Dario Amodei, Daniela Amodei en een groep voormalige OpenAI-medewerkers die geloofden dat veiligheid een kerncompetentie moet zijn, geen PR-strategie. Het bedrijf investeert serieus in interpretability research: het begrijpen van wat er binnen een neuraal netwerk gebeurt op het niveau van individuele circuits en features. Dat klinkt abstract, maar het is fundamenteel. Je kunt een systeem pas echt veilig maken als je begrijpt hoe het denkt, niet alleen hoe het gedraagt in tests.
Constitutional AI, hun aanpak voor alignment, is methodologisch degelijker dan wat de meeste labs publiek maken. In plaats van handmatig te labelen wat goed en fout is, leren ze het model een set principes en laten ze het zijn eigen gedrag evalueren aan de hand van die principes. Het resultaat schaalt beter dan pure human feedback.
Claude als product weerspiegelt dat: minder snel te verleiden tot onzin, beter in het herkennen van nuance, en consequenter in het toegeven van onzekerheid in plaats van zelfverzekerd het verkeerde antwoord te geven. Claude 3.5 Sonnet was op het moment van release het beste model voor de meeste praktische taken. Claude 3.5 Haiku laat zien dat je ook snel en goedkoop kunt zijn zonder aan karakter in te boeten. De lange context windows die Anthropic heeft geïntroduceerd zijn niet alleen een marketingcijfer: de kwaliteit van de verwerking van lange documenten is merkbaar beter dan bij de meeste concurrenten.
Wat Anthropic goed doet: Redeneren, lange contexten productief gebruiken, schrijven en analyse waarbij je wilt dat het model nadenkt voor het antwoordt. De API is uitstekend voor developers en de documentatie is eerlijk over beperkingen.
De zwakke plek: Minder naamsbekendheid in de consumentenmarkt dan OpenAI, en de producten buiten de API zijn minder uitgepolijst. Anthropic is een AI-veiligheidsbedrijf dat toevallig ook buitengewoon goede producten maakt. Die verhouding is soms voelbaar.
Veiligheid als concurrentievoordeel
Anthropics weddenschap is dat veiligheid op de lange termijn een concurrentievoordeel wordt, geen kostenpost. Als AI-systemen machtiger worden en er meer misgaat in de branche, zullen organisaties kiezen voor de leverancier die aantoonbaar serieus is over alignment. Als Anthropic gelijk heeft, wint iedereen. Als ze ongelijk hebben en de rest raast vooruit zonder guardrails, wint niemand.
Google: de slapende reus die wakker is geworden
Als je in 2023 had gevraagd welk bedrijf het beste gepositioneerd was om deze race te winnen, was het antwoord voor elke eerlijke waarnemer: Google. Ze hadden de Transformer-architectuur uitgevonden. Ze hadden DeepMind. Ze hadden TPUs. Ze hadden de meeste data en de meeste AI-onderzoekers op de loonlijst.
En toch verloren ze tijdelijk het initiatief aan een startup.
De reden was institutionele terughoudendheid. Google had veel te verliezen: de zoekadvertentiemarkt die miljarden per kwartaal genereert. Een product dat dat businessmodel kon ondermijnen lanceer je niet lichtzinnig. ChatGPT dwong hun hand. De lancering van Bard was gehaast, en dat was zichtbaar. De eerste demovideo bevatte een feitelijke fout die direct door astronomen werd opgemerkt, en de beurswaarde daalde met meer dan honderd miljard dollar op de dag na de aankondiging.
Google heeft zich hersteld. Gemini 1.5 Pro met zijn context window van een miljoen tokens (later twee miljoen) is een andere categorie van gebruik die eerder niet bestond. Een heel boek ingooien en zinvolle vragen stellen. Honderden pagina's code analyseren. De integratie van Gemini in Google Workspace is de meest praktisch bruikbare AI-integratie in kantooromgevingen op dit moment. Als je al in het Google-ecosysteem leeft, Gmail, Docs, Sheets, Drive, snapt Gemini de context van je werk op een manier die externe tools niet kunnen evenaren.
Google heeft ook iets wat niemand anders heeft: infrastructuur op een schaal die moeilijk te evenaren is. Eigen TPU-chips, datacenters wereldwijd, distributienetwerken voor miljarden gebruikers. Als het hen lukt hun onderzoeksuitkomsten consequenter om te zetten naar productkwaliteit, zijn ze een serieuze concurrent voor de lange termijn.
Wat Google goed doet: Multimodaliteit, lange contexten, integraties in bestaande productiviteitstools, en toegang tot realtimewebsearch in de modellen.
De structurele zorg: Een bedrijf met een advertentiemodel heeft een inherent spanningsveld als het gaat om betrouwbare AI-informatievoorziening. En grote organisaties hebben de neiging hun beste onderzoek niet altijd in het beste product te laten landen. Dat is een cultuurprobleem, en dat is moeilijker te fixen dan een technisch probleem.
Meta: de onverwachte democratiseerder
Mark Zuckerberg heeft zijn AI-strategie genuanceerder uitgelegd dan de meeste mensen hem gunnen. Meta heeft geen direct AI-product om een abonnement op te verkopen. Hun AI zit ingebakken in Instagram, WhatsApp en Facebook, advertentiegedreven. Dus heeft open source voor Meta weinig te verliezen en potentieel veel te winnen: als Llama de industriestandaard wordt waarop iedereen bouwt, heeft Meta invloed op het hele ecosysteem.
Of die redenering cynisch is of oprecht doet er eigenlijk niet toe. Het effect is hetzelfde: Llama heeft de open source AI-gemeenschap getransformeerd, en dat is een feit met concrete gevolgen.
Llama 2 was goed. Llama 3 was heel goed. Llama 3.1 405B is een model dat competitief is met de gesloten topmodellen voor de meeste taken, en het is vrij beschikbaar om te downloaden, te draaien en aan te passen. Dit heeft een cascade van innovatie in gang gezet: duizenden fine-tuned versies voor specifieke domeinen, gespecialiseerde medische modellen, codeermodellen, juridische modellen. De mogelijkheid voor individuen en kleine bedrijven om zware taalmodellen lokaal te draaien zonder te betalen per token.
Voor organisaties met stricte datavereisten is de open source dimensie ook relevant: een model dat lokaal draait heeft geen dataoverdracht naar een Amerikaans bedrijf. Een ziekenhuis met patiëntdata, een advocatenkantoor met vertrouwelijke documenten, een overheidsinstelling met gevoelige informatie. Voor al die partijen opent Llama deuren die bij gesloten modellen gesloten blijven.
Wat Meta goed doet: Open source release met een brede licentie, goede prestaties per parameter-eenheid, en het ecosysteem dat daaromheen via de community is gegroeid.
De beperking: Meta is geen AI-veiligheidsbedrijf en presenteert zich er ook niet als zodanig. De modellen worden getest, maar de diepte van safety research die Anthropic of DeepMind doet, is afwezig. Dat is een bewuste keuze, maar het is wel een keuze met gevolgen naarmate de modellen krachtiger worden.
Mistral: het Europese antwoord
Mistral AI uit Parijs is het meest interessante kleine bedrijf in deze race. Met een team van minder dan tweehonderd mensen en een fractie van de middelen van de Amerikaanse giganten leveren ze modellen die per parameter efficiënt zijn. Mixtral 8x7B was een demonstratie van hoe een Mixture-of-Experts-architectuur een model veel groter kan laten presteren dan zijn feitelijke actieve parametergrootte suggereert: je activeert niet alle parameters bij elke forward pass, maar routeert de input naar de meest relevante experts.
Mistral is ook het enige echte Europese verhaal van betekenis in dit veld. In een landschap gedomineerd door Amerikaanse bedrijven en uitgedaagd door Chinese, is er iets concreets te zeggen voor een AI-lab dat opereert binnen de EU-regelgeving, Europese privacy-normen serieus neemt, en niet onderhevig is aan dezelfde geopolitieke fricties als alternatieven aan beide kanten van de Atlantische Oceaan.
Voor Europese bedrijven die AI willen gebruiken zonder hun data naar een Amerikaans datacenter te sturen en zonder afhankelijk te zijn van Chinese alternatieven, is Mistral de logische eerste optie om te evalueren.
Wat Mistral goed doet: Efficiëntie, Europese juridische positionering, en het toegankelijk maken van krachtige modellen via open gewichten.
De realiteit: Ze zijn klein. De resource gap met OpenAI, Anthropic en Google is niet een factor twee of drie, waarschijnlijk een factor tien of meer in rekenkracht en menselijk talent. Zonder continue kapitaalstroom is de vraag hoe lang ze het tempo kunnen bijhouden in een race die steeds compute-intensiever wordt.
DeepSeek: de Chinese schokgolf
Begin 2025 deed DeepSeek iets wat de AI-gemeenschap verraste: ze lanceerden DeepSeek R1, een model dat competitief was met de beste westerse topmodellen op reasoning-benchmarks, met een fractie van de trainingscompute, en als open source release.
De reactie in Silicon Valley was onthullend. Aandelenkoersen daalden. Nvidia verloor honderden miljarden aan beurswaarde op één dag. Niet omdat DeepSeek een betere GPU had gebouwd, maar omdat de aanname dat het gooien van meer geld en meer GPU-rekenkracht automatisch tot betere modellen leidt, ter discussie werd gesteld.
DeepSeeks methodologische aanpak, voor zover die te beoordelen is want de volledige technische details zijn niet gepubliceerd, was het gebruik van reinforcement learning vanuit nul voor reasoning op een schaal die eerder niet werkbaar leek, gecombineerd met trainingstrucks die de compute-efficiëntie verbeterden. Ze produceerden reasoning-capabilities voor minder geld.
Dit heeft een bredere implicatie die de headlines meestal missen: de compute-race is misschien minder lineair dan iedereen had gedacht. Slimme algoritmes en betere architectuurkeuzes kunnen de hardware-gap deels compenseren. Dat verlaagt de drempel voor wie mee kan doen.
De geopolitieke dimensie van DeepSeek
DeepSeeks modellen worden ontwikkeld door een Chinees bedrijf en zijn onderhevig aan Chinese wetgeving. Dat heeft concrete gevolgen: bepaalde onderwerpen worden anders behandeld dan in westerse modellen, en voor productieinzet rijzen er vragen over datasoevereiniteit en lange-termijn betrouwbaarheid van de licentievoorwaarden. Voor experimenteel gebruik en persoonlijke projecten zijn de open gewichten uitstekend. Voor kritieke bedrijfsprocessen verdient de geopolitieke context expliciete afweging.
De compute-race: geld, chips en geopolitiek
De grote labs geven in 2025 bedragen uit op trainingscompute die vijf jaar geleden ondenkbaar waren. Microsoft investeert honderden miljarden in OpenAI-infrastructuur. Google bouwt haar eigen TPU-clusters uit. Anthropic heeft commitments van Amazon Web Services voor miljarden.
Dit creëert een structurele toegangsdrempel die de democratisering van AI-ontwikkeling tegengaat. Kleine labs kunnen innoveren op algoritmes en architectuur, zoals DeepSeek bewees, maar kunnen niet concurreren op brute schaal. De top van de ranglijst blijft waarschijnlijk stabiel bij de spelers met de diepste zakken.
Nvidia is in deze context de enige winnaar zonder verliezersrisico. Ze verkopen scheppen aan alle kanten van de mijn. De H100 en H200 GPU's zijn de de facto standaard voor LLM-training. TSMC in Taiwan is de andere onmisbare schakel: zij fabriceren de chips die iedereen nodig heeft.
De geopolitieke dimensie is aanzienlijk. De VS beschouwt chipexportcontroles als instrument om Chinese AI-ontwikkeling te vertragen. China beschouwt AI-dominantie als nationale prioriteit en investeert dienovereenkomstig. DeepSeeks succes met beperktere hardware laat zien dat exportcontroles niet waterdicht werken, maar ze vertragen zeker.
Europa staat grotendeels aan de zijlijn. We hebben de AI Act, wetgeving die internationaal invloedrijk kan zijn als norm, maar die zelf geen GPU aanschaft, en een handvol kleinere labs. De vraag voor de komende jaren is of de politieke wil bestaat om er serieus in te investeren. Zo niet, dan wordt structurele technologische afhankelijkheid van Amerika of China de norm.
Mijn persoonlijke ranglijst
Na alles wat ik heb gebruikt, geanalyseerd en gelezen, hier is hoe ik het veld op dit moment zie. Per gebruikssituatie, geen universele waarheid.
Voor diep werk en redeneren: Claude van Anthropic. Consistent, doordacht, en minder geneigd tot het met zelfvertrouwen produceren van plausibel klinkende onzin. Voor schrijven, analyse, en alles waarbij het model echt moet nadenken in plaats van snel een antwoord geven, is dit de standaardkeuze. De lange context wordt productief gebruikt, niet alleen opgeslagen.
Voor veelzijdig dagelijks gebruik en snelheid: GPT-4o van OpenAI. De snelheid en integraties zijn moeilijk te evenaren. Voor snelle vragen, code snippets, en iteratief werken is de gebruikerservaring soepeler dan de meeste alternatieven.
Voor reasoning en wiskundige taken: o3 van OpenAI of DeepSeek R1. Voor problemen waarbij je echt redeneerwerk nodig hebt, complexe wiskundekwesties, logische puzzels, stap-voor-stap probleemoplossing, zijn de reasoning-gerichte modellen in een andere categorie dan de algemene modellen.
Voor multimodale taken en lange documenten: Gemini 1.5 Pro van Google. Het context window en de integratie met Google Drive maken het voor bepaalde taken uniek nuttig. Een heel boek analyseren of een grote codebase doorvragen: dit is de logische keuze.
Voor lokaal gebruik en privacy-gevoelige toepassingen: Llama 3.1 via Ollama. Op een moderne MacBook draaibaar zonder internetverbinding, geen datauitwisseling, en de kwaliteit is verrassend goed voor de meeste alledaagse taken.
Voor Europese zakelijke toepassingen: Mistral Large via hun API of via open gewichten. Als EU-compliance serieus genomen wordt en geopolitieke afhankelijkheid geminimaliseerd moet worden, is dit de logische eerste evaluatiekandidaat.
De eerlijke conclusie is dat er niet één winnaar is. Elk model heeft sterke punten die de anderen niet hebben. De intelligente aanpak is leren welk gereedschap voor welke klus werkt, in plaats van trouw te zweren aan één platform.
Waarom de competitie zelf de echte winnaar is
Competitie is de reden dat we zo snel vooruitgaan, en dat verdient een moment van aandacht.
De reden dat de modellen van december 2025 zo veel beter zijn dan die van december 2022 is niet omdat één bedrijf geniaal werk heeft geleverd. Het is omdat er vijf of tien bedrijven zijn die elkaar genadeloos pushen. Elke doorbraak van de één dwingt de anderen te reageren. Elke prijsverlaging trekt anderen mee. Elke nieuwe mogelijkheid zet de lat hoger voor iedereen.
De API-prijzen zijn in drie jaar met een factor tien of meer gedaald. Wat twee jaar geleden honderden dollars per miljoen tokens kostte, kost nu een paar dollar. Context windows zijn van een paar duizend tokens naar een paar miljoen gegaan. Dit zijn geen marginale verbeteringen.
Open source heeft hier een essentiële rol gespeeld. Meta's beslissing om Llama open te maken heeft neerwaartse druk op prijzen en opwaartse druk op kwaliteit gecreëerd. De aanwezigheid van goede open alternatieven is de beste marktwerking die er momenteel is.
Tegelijkertijd zijn er grenzen aan dit optimisme. Als de markt consolideert naar twee of drie spelers, wat de dynamiek van de compute-race mogelijk aanmoedigt, verdwijnt de competitiedruk. Dan zit je vast aan de prioriteiten van een klein aantal bedrijven met enorme macht over hoe AI zich ontwikkelt en wie er toegang toe heeft.
Wat te verwachten in 2026
Op basis van de huidige trajecten zijn dit de ontwikkelingen die het meest in de gaten worden gehouden.
Reasoning wordt de standaard, geen uitzondering. De aanpak die o1 en DeepSeek R1 introduceerden, modellen die expliciet stap voor stap redeneren voor ze antwoorden, zal de komende twaalf maanden standaard worden in alle topmodellen. Complexe meerstapsproblemen die eerder betrouwbaar mislukten, worden haalbaar.
Agenten gaan de testfase voorbij. We bewegen van "dit is indrukwekkend in demo's" naar "dit draait stabiel in echte werkprocessen bij echte bedrijven". De eerste organisaties die AI-agenten succesvol in productie hebben, bouwen een productiviteitsvoordeel op dat moeilijk in te halen is.
De compute-efficiëntie-race versnelt. DeepSeeks resultaten hebben aangetoond dat slimme algoritmes de hardware-gap kunnen verkleinen. Dit zal meer onderzoek uitlokken in dezelfde richting. De asymmetrie tussen wie een goed model kan bouwen en wie het kan gebruiken wordt kleiner.
Geopolitieke fragmentatie neemt toe. Landen en regio's zullen steeds vaker eigen AI-beleid ontwikkelen, eigen modellen subsidiëren, en afhankelijkheid van buitenlandse AI-infrastructuur expliciet als veiligheidsrisico behandelen. Europa kan hier een serieuze strategische keuze maken. Of dat ook gebeurt, is de open vraag.
De maatstaf verschuift van benchmarks naar betrouwbaarheid. Modelkwaliteit op gestandaardiseerde benchmarks convergeert. De differentiator wordt betrouwbaarheid in echte productiesituaties: hoe stabiel gedraagt een model zich over duizenden aanvragen, hoe graceful faalt het aan de rand van zijn capabilities, hoe consistent is het over tijd?
De race is nog lang niet voorbij. Er zijn waarschijnlijk doorbraken op komst die niemand nu voorziet. Dat is het meest eerlijke wat te zeggen is: de kaart verandert snel, en bescheidenheid over wat het volgende jaar brengt is gepast.
De richting is wel helder. AI-modellen worden beter, goedkoper, toegankelijker en capabeler. De vraag is niet meer of dit een fundamentele technologie wordt. De vraag is wie er controle over heeft, op welke waarden het gebouwd is, en of de vruchten ervan breed gedeeld worden of geconcentreerd blijven bij een handvol spelers.
Welk model gebruik jij het meest, en waarvoor? Heb je een andere ranglijst, of zie je spelers die ik heb onderschat? Stuur gerust een bericht.
Jesse Burger
Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.