Kleine Taalmodellen: Waarom Groter Niet Altijd Beter Is
De berichtgeving over AI draait bijna altijd om grootte. Meer parameters, meer rekenkracht, betere scores op benchmarks. Maar er is een andere ontwikkeling die minder aandacht krijgt en minstens zo interessant is: kleine taalmodellen die steeds capabeler worden, steeds zuiniger zijn, en op steeds meer apparaten draaien.
Small Language Models, of SLM's, zijn modellen met grofweg 1 tot 13 miljard parameters. Ter vergelijking: GPT-4 wordt geschat op honderden miljarden parameters. Een SLM past op een gewone laptop, soms zelfs op een telefoon. Ze zijn sneller, goedkoper en verbruiken veel minder energie. En voor een groeiende groep taken leveren ze kwaliteit die niet onderdoet voor hun grote broers.
Wat er veranderd is
Een paar jaar geleden was de vuistregel simpel: groter is beter. Meer parameters betekende betere antwoorden, en de enige manier om een bruikbaar model te krijgen was een datacenter met dure GPU's.
Dat klopt inmiddels niet meer zonder nuances. De reden zit in een combinatie van factoren.
Ten eerste zijn de trainingstechnieken verbeterd. Labs hebben geleerd om modellen efficiënter te trainen: betere selectie van trainingsdata, slimmere architectuurkeuzes, en technieken zoals knowledge distillation, waarbij een kleiner model leert van de output van een groter model. Phi-3 van Microsoft, een model met 3,8 miljard parameters, scoort op bepaalde benchmarks vergelijkbaar met modellen die tien keer zo groot zijn. Dat was vijf jaar geleden ondenkbaar.
Ten tweede is er meer aandacht voor de kwaliteit van trainingsdata boven de kwantiteit. Phi-modellen van Microsoft zijn hier een goed voorbeeld van: ze zijn getraind op zorgvuldig geselecteerde, hoogkwalitatieve tekst in plaats van ruwe dumps van het internet. Minder ruis betekent dat een kleiner model toch veel leert.
Ten derde zijn de optimalisatietechnieken sterk verbeterd. Kwantisatie speelt daarin een centrale rol.
Kwantisatie: meer doen met minder
Een onbewerkt taalmodel slaat zijn parameters op als 32-bit of 16-bit getallen. Dat vraagt veel geheugen. Een model van 7 miljard parameters in 16-bit precisie neemt ongeveer 14 GB in beslag, meer dan de meeste laptops als GPU-geheugen hebben.
Kwantisatie reduceert de precisie van die getallen. In de meest gebruikte variant, 4-bit kwantisatie, sla je elke parameter op als een 4-bit getal in plaats van 16-bit. Het model wordt daarmee vier keer kleiner. Datzelfde model van 7 miljard parameters past nu in 3,5 tot 4 GB.
Wat is de prijs die je betaalt? Minder dan je zou verwachten. Bij goed uitgevoerde kwantisatie is de kwaliteitsachteruitgang voor de meeste taken minimaal. Het model maakt iets vaker kleine fouten in complexe redenering, maar voor tekstsamenvatting, vertaling, eenvoudige code en instructies opvolgen merk je het amper.
De meest gebruikte kwantisatieformaten op dit moment zijn GGUF-bestanden, die draaien via tools zoals Ollama en llama.cpp. De naamgeving vertelt iets over de compressiegraad: Q4_K_M is 4-bit met een specifieke gemiddelde kwaliteit, Q8_0 is 8-bit met hogere precisie. Hogere bit-waarden zijn beter maar groter.
Kwantisatie in één zin
Een 7B model in Q4_K_M kwantisatie past in ongeveer 4 GB RAM, draait op een gewone laptop met Apple Silicon of een moderne Intel/AMD chip, en presteert voor de meeste dagelijkse taken vrijwel even goed als de volledige versie. Je hoeft geen server of externe GPU voor nodig.
De modellen die er nu toe doen
Een overzicht van kleine modellen die op dit moment relevant zijn.
Phi-3 en Phi-4 (Microsoft) zijn de bekendste voorbeelden van het "klein maar capabel" principe. Phi-3 Mini heeft 3,8 miljard parameters en past op een telefoon. Phi-4 heeft 14 miljard parameters en behaalt resultaten die lange tijd alleen voor grote modellen bereikbaar waren. De sleutel zit in de trainingsdata: Microsoft heeft bewust gekozen voor kwaliteit boven kwantiteit.
Gemma 2 (Google DeepMind) is beschikbaar in 2B, 9B en 27B varianten. De 2B versie is specifiek ontworpen voor edge-apparaten en mobiele toepassingen. Gemma-modellen zijn volledig open en goed gedocumenteerd, wat ze populair maakt voor onderzoekers en ontwikkelaars.
Qwen2.5 (Alibaba) blinkt uit in meertalige taken. De 7B en 14B varianten zijn bijzonder sterk in Aziatische talen maar presteren ook goed in Nederlands en andere Europese talen. Voor wie multilinguaal werkt, zijn Qwen-modellen een logische keuze.
Llama 3.2 (Meta) in de 1B en 3B variant is expliciet ontworpen voor mobiele apparaten. Meta heeft deze modellen specifiek geoptimaliseerd voor inferentie op edge-hardware, met kortere laadtijden en lager energieverbruik. De 3B variant draait op nieuwere Android-telefoons en recente iPhones.
Mistral 7B blijft een referentiepunt. Al iets ouder, maar nog steeds een van de meest gebruikte lokale modellen vanwege de goede balans tussen grootte, snelheid en kwaliteit bij instructies opvolgen en redeneren.
Wanneer een klein model beter werkt
Beter is contextafhankelijk. Er zijn situaties waarin een SLM de betere keuze is, ook als je toegang hebt tot grotere alternatieven.
Privacygevoelige taken. Als je tekst niet je apparaat mag verlaten, is een lokaal draaiend klein model de enige optie. Juridische documenten samenvatten, interne bedrijfsdata analyseren, persoonlijke notities verwerken: dit soort taken past goed bij lokale SLM's.
Hoge volumes bij lage kosten. API-kosten voor grote cloudmodellen lopen snel op als je duizenden of tienduizenden verzoeken per dag doet. Een lokaal of zelf gehost klein model kost na de infrastructuurinvestering niets per verzoek. Voor applicaties die AI embedded hebben, is dat een enorm verschil.
Lage latentie. Een groot cloudmodel heeft netwerkvertraging. Een model dat direct op de chip van een apparaat draait, heeft die niet. Voor toepassingen waarbij snelheid telt, zoals real-time suggesties in een editor of directe feedback in een app, kan een kleiner lokaal model sneller aanvoelen dan een groot cloudmodel.
Gespecialiseerde taken. Een groot generalistisch model hoeft niet per se beter te zijn voor een specifieke taak. Een klein model dat specifiek is gefinetuned op juridische teksten, medische terminologie of een bepaalde codeertaal, kan een groot generalistisch model overtreffen op die specifieke taak.
Offline gebruik. Op locaties zonder betrouwbaar internet, in vliegtuigen, of in omgevingen waar cloudverbindingen beperkt zijn, is lokaal de enige optie.
Draaien op telefoons en laptops
De hardware die vereist is voor SLM's is in de afgelopen twee jaar sterk verbeterd, en niet alleen door betere modellen.
Apple Silicon, de M-chips in MacBooks en iPhones, heeft een architectuur die bijzonder goed geschikt is voor AI-inferentie. De chip combineert CPU, GPU en een Neural Engine in één pakket, met gedeeld geheugen dat veel sneller beschikbaar is dan in traditionele architecturen. Een MacBook Pro met M3 en 16 GB geheugen draait een 7B model soepel en een 13B model op acceptabele snelheid.
Op Android-zijde zetten Qualcomm en MediaTek in op gespecialiseerde AI-accelerators in hun chips. Qualcomm's Snapdragon Elite heeft een NPU (Neural Processing Unit) die specifiek geoptimaliseerd is voor modelinferentie op het apparaat. Meta's Llama 3.2 1B en 3B zijn hier expliciet voor geoptimaliseerd.
De praktische drempel is lager dan veel mensen denken. Met tools zoals Ollama op macOS of Linux, of LM Studio voor een grafische interface, draai je binnen een kwartier een lokaal model zonder technische achtergrond. Op telefoons zijn apps zoals Pocket Palanca en PocketAI beschikbaar die kleine modellen direct op het apparaat draaien.
Het milieuargument
Dit aspect wordt in discussies over AI-modellen vaak buiten beschouwing gelaten, maar het is relevant.
Het trainen van een groot frontier-model zoals GPT-4 of Gemini Ultra verbruikt naar schatting miljoenen kilowattuur aan energie. Dat is een eenmalige kost voor het lab. Maar de inferentie, het daadwerkelijk genereren van antwoorden, herhaalt zich miljarden keren per dag.
Kleine modellen zijn hier substantieel zuiniger. Een 7B model genereert een antwoord met een fractie van de energie die een 100B+ model nodig heeft. Als een aanzienlijk deel van AI-gebruik verschuift naar kleinere, lokaal draaiende modellen, is de cumulatieve energiebesparing aanzienlijk.
Daarbij komt dat grote datacenters voor AI-inferentie vaak op locaties zitten met relatief groene stroom, wat de vergelijking complexer maakt. Maar een model dat op een laptop draait die op zonnestroom werkt, wint dat argument altijd.
De energieverdeling van AI
Niet alle AI-gebruik is gelijk qua energieverbruik. Een eenvoudige tekstsamenvatting via een lokaal 3B model verbruikt misschien een factor 50 tot 100 minder energie dan dezelfde taak via een groot cloudmodel. Voor incidenteel gebruik maakt dat weinig uit. Voor applicaties op schaal maakt het een groot verschil.
Waar kleine modellen nog moeite mee hebben
Het eerlijke verhaal vraagt ook om de beperkingen.
Complexe meerstapsredenering. Taken waarbij je meerdere stappen moet afwegen, tegenstrijdige informatie moet evalueren, of lange causale ketens moet volgen, gaan beter bij grote modellen. Een SLM kan hier de bal laten vallen zonder het zelf te merken.
Lange context. Grotere modellen hebben grotere contextvensters en gaan er beter mee om. Een SLM die wordt gevraagd een document van honderd pagina's te samenvatten en er vragen over te beantwoorden, heeft het zwaarder dan een groot cloudmodel.
Kennis. Grote modellen zijn getraind op meer data en hebben bredere feitenkennis. Een SLM weet minder over obscure onderwerpen, minder populaire talen, en gespecialiseerde vakgebieden.
Multimodaliteit. De meeste kleine modellen zijn taalmodellen en kunnen geen afbeeldingen verwerken. Er zijn multimodale SLM's in opkomst, zoals Phi-3-vision en Llama 3.2 Vision, maar dit is nog minder volwassen dan bij grote modellen.
Praktische aanbevelingen: welke maat voor welke taak
Een vuistregel op basis van taaktype.
Gebruik een klein model (1B tot 7B) voor:
- Tekst samenvatten of herformuleren
- Eenvoudige vertaaltaken
- Vraag-antwoord over documenten die je aanlevert
- Code-autocomplete en eenvoudige functies schrijven
- Classificatie en extractie van gestructureerde data
Gebruik een middelgroot lokaal model (13B tot 32B) voor:
- Complexere redenering en analyse
- Schrijftaken die nuance vereisen
- Code-review en debugging
- Meertalig werk met hoge kwaliteitseisen
Gebruik een groot cloudmodel voor:
- Complexe, meerstapsredeneringen waarbij fouten niet acceptabel zijn
- Taken die een zeer lang contextvenster vragen
- Multimodaliteit met hoge kwaliteitseisen
- Taken waarbij absolute kwaliteit boven kosten en privacy gaat
De praktijk leert dat de meeste dagelijkse AI-taken in de eerste of tweede categorie vallen. Een 7B model dat lokaal draait, verwerkt de meeste vraag-antwoord taken, samenvattingen en schrijfhulp even goed als een groot cloudmodel. Voor gevallen waarbij de kwaliteit echt tegenvalt, is opschalen altijd nog een optie.
De richting is duidelijk
Het veld beweegt snel, en de beweging gaat twee kanten tegelijk op. Grote labs bouwen steeds krachtigere frontier-modellen. Maar tegelijk investeren dezelfde labs steeds meer in kleine, efficiënte modellen voor edge-toepassingen.
Dat is geen toeval. De markt voor AI op apparaten is enorm. Elke smartphone is een potentieel platform voor lokale AI-functies. Elke laptop kan een privacyvriendelijke assistent draaien. Bedrijven die afhankelijk zijn van cloudinfrastructuur voor elke AI-aanroep hebben hogere kosten en minder controle dan bedrijven die slim gebruik maken van lokale capaciteit.
De vuistregel "groter is beter" is niet verdwenen, maar is genuanceerder geworden. Groter is beter voor de moeilijkste taken. Kleiner is beter voor alles wat past binnen de capaciteiten van een goed geoptimaliseerd, compact model, en dat is meer dan de meeste mensen verwachten.
Heb je al eens een klein model lokaal gedraaid, en wat viel je op vergeleken met de grote cloudversies?
Jesse Burger
Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.