Jesse Burger
Terug naar blog
Analyse·Technologie

Wat AI Niet Kan (en Voorlopig Niet Zal Kunnen)

Jesse Burger··15 min leestijd
§

Vraag een taalmodel wat de hoofdstad van Peru is en je krijgt Lima. Vraag het om een Python-functie te schrijven die de Fibonacci-reeks berekent en je krijgt werkende code. Vraag het om een stuk tekst samen te vatten en het doet dat snel en adequaat.

Tot zover de successen. En die zijn echt. Maar er is een andere kant, een die minder vaak op de voorpagina staat. De dingen die AI niet kan, slecht doet, of structureel verkeerd doet. Die kant is minstens zo interessant, en zeker zo nuttig om te begrijpen als je van plan bent AI serieus in te zetten.

Dit is geen anti-AI betoog. Het is een poging tot eerlijkheid over wat er nu is, in tegenstelling tot wat er vaak wordt beweerd.

Redeneren versus patroonherkenning

Er is een onderscheid dat mensen regelmatig verkeerd begrijpen, en dat centraal staat in bijna elke discussie over AI-beperkingen.

Een taalmodel redeneert niet op de manier waarop mensen dat doen. Het is een extreem verfijnde patroonherkenner, getraind op zoveel tekst dat het patronen heeft geleerd die eruitzien als redenering. Voor veel doeleinden is dat onderscheid niet relevant. Maar soms is het precies het onderscheid dat er toe doet.

Stel je een vraag die nog nooit eerder op precies die manier is gesteld. Een probleem dat nieuw is, dat niet past in de patronen die het model heeft geleerd. Dan loopt het systeem in de problemen. Niet omdat het dom is, maar omdat het letterlijk geen patroon heeft om op terug te vallen.

Mensen doen dit anders. Als je een probleem tegenkomt dat je nooit eerder hebt gezien, kun je redeneren vanuit principes, analogieën opbouwen naar aangrenzende domeinen, en een oplossing construeren die je nog nooit hebt gezien. AI kan iets dat hierop lijkt, maar het is fundamenteel anders. Het is interpolatie en extrapolatie vanuit gezien materiaal, geen redenering vanuit eerste principes.

Dit klinkt abstract. Het wordt concreet als je een taalmodel vraagt om iets te analyseren waar de juiste aanpak afhangt van causale structuren in plaats van correlaties.

Oorzaken en gevolgen begrijpen

Causaliteit is een bijzonder helder voorbeeld van wat AI structureel mist.

Een taalmodel weet dat regen en paraplu's veel samen voorkomen in tekst. Maar het begrijpt niet dat regen paraplu's veroorzaakt en niet andersom. Beide correlaties zijn aanwezig in de trainingsdata. Het causale onderscheid is er niet op de manier waarop het in menselijk begrip zit.

Voor de meeste taken maakt dat niets uit. Samenvatten, vertalen, code schrijven: die taken vereisen geen diep causaal begrip van de wereld. Maar voor taken waarbij je wil weten wat er werkelijk gebeurt als je iets verandert in een systeem, wat de echte oorzaak is van een bepaald patroon, of welk beleid het gewenste effect zal hebben, is dit relevant.

In de praktijk geeft een taalmodel bij zulke vragen antwoorden die kloppen voor de veelvoorkomende gevallen en soms mis gaan bij de niet-veelvoorkomende. En het model weet zelf niet wanneer het welke categorie is.

Common sense heeft een definitieprobleem

Er is een veelgebruikt argument dat AI geen common sense heeft, en dat klopt, maar op een manier die genuanceerder is dan het klinkt.

Voor veel "common sense"-vragen presteert AI prima. Dat een glas water omgooien nat maakt, dat je je jas aantrekt als het koud is, dat iemand die schreeuwt waarschijnlijk boos of bang is: die patronen zitten in de trainingsdata en het model past ze correct toe.

Maar er zijn categorieën van praktisch menselijk begrip die anders zijn. Intuïtie over hoe een fysiek object aanvoelt. Begrip van wat een ruimte inhoudt als je erin staat. Het soort oordeel dat je alleen hebt als je daadwerkelijk in een bepaalde situatie bent geweest.

Er is een klassiek voorbeeld uit de AI-onderzoekswereld: de "frame problem". Als je een robot instrueert om een object te verplaatsen, hoe weet hij dan welke andere dingen in de kamer onveranderd blijven? Voor een mens is dat triviaal. Je verplaatst de vaas, en je weet impliciet dat de stoel daarna nog steeds een stoel is, dat de deur nog steeds op dezelfde plek zit, dat het licht niet is veranderd. Die impliciete kennis over wat stabiel blijft is zo vanzelfsprekend dat we het nauwelijks opmerken. Voor AI-systemen is het een fundamenteel moeilijk probleem.

Wanneer een taalmodel zegt dat een bepaald scenario "onrealistisch" is of "waarschijnlijk zo werkt", baseert het dat op wat er in tekst over vergelijkbare situaties is gezegd. Niet op directe ervaring met de wereld. Die afstand heeft gevolgen die subtiel maar reëel zijn, vooral bij situaties die zeldzaam zijn in tekst maar normaal in het echte leven.

Wiskunde: beter dan het was, slechter dan je denkt

Er is goed nieuws en minder goed nieuws op dit front.

Het goede nieuws: moderne taalmodellen zijn aanzienlijk beter geworden in wiskundig redeneren dan eerdere versies. Ze kunnen complexe algebraïsche problemen oplossen, vergelijkingen manipuleren en redenen over wiskundige structuren. Dat is een echte verbetering.

Het minder goede nieuws: ze rekenen niet. Ze produceren tekst die op rekenwerk lijkt. Dat is een fundamenteel andere activiteit.

Voor eenvoudige berekeningen werkt dat prima, de tekst die op rekenwerk lijkt geeft het juiste antwoord. Voor langere berekeningen, of voor berekeningen waarbij kleine fouten groot effect hebben, kan het subtiel of spectaculair misgaan. En het model geeft geen foutmelding als het mis gaat. Het presenteert de uitkomst met hetzelfde zelfvertrouwen als wanneer het goed gaat.

De praktische implicatie: gebruik AI niet als rekenmachine voor iets wat er daadwerkelijk toe doet, tenzij je ook een echte rekenmachine in de loop hebt zitten. Moderne systemen kunnen code uitvoeren en dan is dit deels opgelost. Maar in een puur talige context is voorzichtigheid op zijn plaats.

Wiskundig zelfvertrouwen is geen wiskundige correctheid

Een taalmodel dat een berekening presenteert, klinkt net zo zeker als wanneer het klopt als wanneer het mis gaat. Er is geen ingebouwde indicatie van onzekerheid op numeriek vlak. Als je een specifieke berekening nodig hebt en er hangt iets van af, controleer dan altijd onafhankelijk. Dit geldt ook voor kleine sommen; de kans op een fout is lager maar de kans is er.

Consistentie over langere gesprekken

Een van de minder besproken maar praktisch relevante beperkingen is consistentie in langdurige interacties.

Aan het begin van een lang gesprek kan een taalmodel een aanpak kiezen, een stijl aannemen, of een specifieke richting inslaan. Tien berichten verder kan het ongemerkt een andere positie innemen, een andere schrijfstijl gebruiken, of een eerder gemaakte keuze vergeten. Niet altijd, niet altijd opvallend, maar vaker dan je zou verwachten van een systeem dat ogenschijnlijk alles verwerkt.

Dit heeft een technische oorzaak: taalmodellen hebben een contextvenster, een maximum aan tekst dat ze tegelijk kunnen "zien". In een lang gesprek valt vroegere context buiten dat venster, en is het voor het model letterlijk niet meer zichtbaar. Het model weet dan niet meer precies wat er is gezegd, ook al is het logisch gezien hetzelfde gesprek.

Moderne modellen hebben steeds grotere contextvensters, en dit probleem vermindert met de verbetering van die technologie. Maar voor zeer lange gesprekken of documenten is het nog altijd relevant. De praktische aanpak: herhaal cruciale context periodiek in langere sessies, en vertrouw niet blindelings op consistentie over tientallen boodschappen.

Weten wat je niet weet

Dit is misschien de meest fundamentele beperking, en ook de meest onderschatte.

Een taalmodel heeft geen betrouwbaar zelfbegrip van zijn eigen kennisgrens. Als je iets vraagt over een onderwerp waarbij het model weinig trainingsdata heeft, een zeer recente gebeurtenis, een obscure specialistische kwestie, een fictieve entiteit die je zelf hebt verzonnen, dan produceert het systeem met vergelijkbaar zelfvertrouwen als bij vragen waarop het het antwoord weet.

Dit is niet oneerlijkheid. Het is een structurele eigenschap van hoe deze modellen werken. Ze zijn geoptimaliseerd om plausibele vervolgstokens te genereren, niet om te detecteren wanneer ze buiten hun kennisgebied treden.

Er zijn aanpassingen gemaakt aan de modellen om dit te verbeteren: ze zijn getraind om vaker "ik weet het niet" te zeggen en om onzekerheid uit te drukken. Dat helpt. Maar het is een gedragscorrectie, geen fundamentele oplossing voor het onderliggende probleem. En de zelfkalibratie is niet betrouwbaar: een model kan even zelfverzekerd klinken bij iets dat het goed kent als bij iets dat het fabriceert.

Het hallucinatieprobleem is structureel

Hallucinaties zijn het bekendste probleem van taalmodellen, en tegelijkertijd het meest verkeerd begrepen.

Ze zijn geen bugs die worden opgelost in de volgende versie. Ze zijn een eigenschap van de architectuur. Een systeem dat is getraind om de meest waarschijnlijke vervolgtoken te produceren, gebaseerd op patronen in tekst, zal soms plausibel klinkende dingen produceren die niet waar zijn. Dat is geen fout in het ontwerp. Dat is wat het ontwerp doet.

De afgelopen jaren zijn modellen substantieel beter geworden in het vermijden van flagrante hallucinaties. Maar "beter" betekent niet "opgelost". Voor veelgestelde vragen over populaire onderwerpen zijn de patronen robuust en is de output betrouwbaar. Voor obscure feiten, specifieke details over minder bekende entiteiten, of vragen over recent nieuws na de trainingsdatum van het model, zijn ze dat niet.

Het specifiek vervelende aan hallucinaties is dat ze niet aankondigen. Een gefabriceerde citaat van een wetenschapper klinkt net zo overtuigend als een echt citaat. Een niet-bestaand wetsartikel klinkt net zo officieel als een bestaand wetsartikel. Een incorrecte datum wordt gepresenteerd met hetzelfde zelfvertrouwen als een correcte datum.

Er zit ook een patroon in wat er wordt gefabriceerd. Modellen hallucineren het vaakst op het soort details dat in tekst op een herkenbare manier wordt ingevuld: namen van auteurs bij boektitels, artikelnummers bij wetsverwijzingen, datums bij historische gebeurtenissen, ISBN-nummers, DOI-codes. Precies de gegevens die je zou willen citeren. Precies de gegevens die het lastigst te onthouden zijn en dus het meest worden nagevraagd.

De enige betrouwbare verdediging is verificatie. Niet als je twijfelt, maar altijd, voor alles wat daadwerkelijk controleerbaar en relevant is. Dit klinkt als extra werk, en dat is het ook. Maar het is de prijs van de snelheid die AI biedt. Je krijgt een eerste versie in seconden; de controle kost tijd. Dat ruilpunt is voor veel taken gunstig. Maar het verdwijnt niet.

Langetermijnplanning en echte doelgerichtheid

AI-agenten, systemen die autonoom taken uitvoeren over meerdere stappen, zijn een van de spannendste en tegelijkertijd kwetsbaarste ontwikkelingen in het veld.

De belofte is aanzienlijk. Een systeem dat niet alleen antwoordt maar ook handelt, plannen maakt, stappen uitvoert, fouten corrigeert, en een doel over meerdere sessies na streeft.

De werkelijkheid is dat langetermijnplanning een van de moeilijkste dingen is voor huidige systemen. Een taalmodel heeft geen persistent doel dat het nastreeft. Het heeft geen werkgeheugen buiten de huidige context. Het heeft geen ingebouwde mechanismen om bij te houden of stappen zijn uitgevoerd, of doelen dichter zijn bereikt, of de initiële aanpak nog steeds geschikt is gezien nieuwe informatie.

Werkende AI-agenten zijn vandaag de dag minder het resultaat van inherente planningscapaciteit van het model en meer het resultaat van slimme engineering eromheen: tools die bijhouden wat er is gedaan, loops die het model periodiek heroriënteren, en architecturen die compenseren voor het gebrek aan intern doel.

Dat werkt voor veel taken. Maar het is anders dan wat mensen bedoelen als ze zeggen dat AI "plant".

De kloof tussen demo en productie

De meest indrukwekkende AI-agent demo's zijn zorgvuldig gecureerd op taken waar de systemen goed in zijn, met inputs die relatief voorspelbaar zijn. In productieomgevingen, met echte onverwachte situaties, complexe afhankelijkheden en lange tijdshorizonnen, presteren dezelfde systemen merkbaar minder consistent. Die kloof is reëel en relevant voor iedereen die overweegt AI te inzetten voor kritische autonome taken.

Creativiteit: het echte debat

Dit is een onderwerp waarbij mensen scherp van mening verschillen, en waar de discussie vaak minder helder is dan hij zou kunnen zijn.

Er zijn twee stellingen die allebei worden verdedigd. De eerste: AI is niet creatief, het combineert alleen bestaand materiaal op nieuwe manieren. De tweede: mensen doen precies hetzelfde, en dus is AI net zo creatief als wij.

Beide stellingen bevatten iets waars en verdienen nuance.

Het is correct dat taalmodellen en beeldgeneratoren nooit iets produceren dat volledig buiten hun trainingsdata valt. Ze interpoleren en extrapoleren. Ze leggen verbindingen tussen dingen die ze hebben gezien. Dat is een reële beperking als je creativiteit definieert als het produceren van iets fundamenteel nieuws.

Het is ook correct dat mensen grotendeels hetzelfde doen. Menselijke creativiteit is ook grotendeels recombinatie van invloeden, ervaringen en geleerde patronen. Niemand creëert volledig vanuit het niets.

Het verschil zit misschien minder in het mechanisme en meer in de grondslag. Menselijke creativiteit is geworteld in een levend, situationeel, lichamelijk bestaan. Een schrijver schrijft vanuit specifieke ervaringen die hem of haar hebben gevormd. Een muzikant klinkt op een bepaalde manier omdat zijn leven op een bepaalde manier was. Die wortels geven menselijke creativiteit een specificiteit die moeilijk na te bootsen is.

AI-output is herkenbaar, niet altijd, niet altijd expliciet, maar er zit een textuur aan AI-gegenereerde inhoud die mensen na verloop van tijd leren herkennen. Een volledigheid die net iets te systematisch aanvoelt. Een gebrek aan onverwachte wendingen. Zelden een moment van "wacht, dat had ik niet verwacht."

Of dat betekent dat AI "niet creatief" is of gewoon "anders creatief", is deels een semantisch debat. Wat praktisch relevanter is: voor taken waarbij specificiteit en een unieke stem cruciaal zijn, is AI-output nog altijd een startpunt of een hulpmiddel, geen eindproduct.

Waarom AGI "bijna hier" al jaren van toepassing is

Er is een opvallend patroon in de AI-wereld: de belofte dat Artificial General Intelligence, een systeem dat mensen in brede zin kan evenaren, "binnen vijf jaar" is. Die belofte wordt al meer dan dertig jaar gemaakt.

Dat is geen bewijs dat AGI onmogelijk is. Het is bewijs dat de tijdlijnen systematisch te optimistisch worden ingeschat, keer op keer, door mensen die er veel over weten.

Er zijn principiële redenen waarom dit zo moeilijk is.

De benchmarks waarop AI-systemen indrukwekkend presteren, zeggen minder dan ze lijken. Als een model een professioneel examen haalt, is dat indrukwekkend. Maar het haalt dat examen door te presteren op de manier waarop het systeem werkt, gebaseerd op patronen in tekst, niet door te begrijpen wat een arts begrijpt als die een diagnose stelt. Het onderscheid is subtiel in de uitkomst maar fundamenteel in de capaciteit.

Er is ook het fenomeen dat onderzoekers "benchmark contamination" noemen: de trainingssdata van grote modellen bevat steeds vaker de examens zelf, of teksten die er sterk op lijken. Een model dat goed scoort op een medisch examen kan dat deels doen omdat het de vragen en antwoorden al heeft gezien tijdens de training. Dat maakt de scores minder betekenisvol als maatstaf voor begrip.

Intelligentie in de brede zin is ook geworteld in iets wat taalmodellen niet hebben: een lichaam, een situationeel bestaan in de wereld, continuïteit over tijd, doelen die je zelf hebt ontwikkeld, angst en verlangen en al het andere dat menselijk begrip kleurt. Of die dingen noodzakelijk zijn voor AGI is een filosofische vraag waarover serieuze mensen van mening verschillen. Maar ze ontbreken in huidige systemen.

Dit wil niet zeggen dat de huidige modellen niet indrukwekkend zijn. Ze zijn buitengewoon capabel op specifieke taken. Maar de sprong van "buitengewoon capabel op veel taken" naar "algemeen intelligent" is geen incrementele stap. Het is iets anders, en niemand weet precies wat er voor nodig is.

Wie beweert te weten wanneer AGI er is, of dat het er bijna is, verdient extra scepsis. Niet omdat het onmogelijk is, maar omdat die voorspellingen zo consequent mis zijn gegaan. De eerlijkste uitspraak die je kunt doen over AGI-tijdlijnen is: het kan eerder zijn dan verwacht, het kan later zijn dan verwacht, en de kans dat de huidige aanpak volledig voldoende is om daar te komen is kleiner dan de discussie in de populaire pers suggereert.

Wat dit betekent voor hoe je AI gebruikt

Na dit alles is de praktische vraag: wat doe je ermee?

Het antwoord is niet "gebruik het minder" of "wantrouw het volledig". Het antwoord is eerder: gebruik het bewust, met begrip van waar de grenzen liggen.

Dat klinkt als een open deur, maar in de praktijk doen weinig mensen het. De meest voorkomende fout is niet scepticisme of te veel vertrouwen op zichzelf. Het is ongekalibreerd vertrouwen: blind vertrouwen op sommige taken en onnodige achterdocht op andere. Het begrijpen van de specifieke zwakke punten helpt je om dat beter te calibreren.

Een paar concrete richtingen:

Speel in op sterke punten. AI is buitengewoon goed in taken die taalgebonden zijn: samenvatten, herschrijven, vertalen, eerste drafts, code genereren voor veelvoorkomende patronen, brainstormen, uitleggen van complexe concepten in eenvoudige taal. Dat zijn reële, waardevolle capaciteiten. Gebruik ze.

Compenseer voor zwakke punten. Feitelijke claims controleer je altijd, zeker als ze specifiek zijn. Bij wiskunde gebruik je een rekenmachine of laat je code uitvoeren. Bij langere projecten herhaal je cruciale context. Bij juridische, medische of technisch kritische output verifieer je bij primaire bronnen.

Gebruik AI als startpunt, niet als eindpunt. Voor taken waarbij specificiteit, stem, en originaliteit er toe doen, is AI-output een hulpmiddel in het proces, niet het eindresultaat. De waarde zit in de snelheid waarmee je bij een bruikbaar beginpunt komt, niet in de output zelf.

Weet wanneer je het niet inschakelt. Er zijn taken waarbij AI meer ruis dan signaal toevoegt. Vroege, ongeformeerde ideeën die nog niet helder genoeg zijn om te filteren. Beslissingen waarbij de waarde zit in het zelf doordenken van de opties. Denkwerk waarbij de frictie van het zelf uitzoeken juist de waarde heeft.

Het is makkelijker om deze regels te formuleren dan om ze consistent toe te passen. Maar ze beginnen met eerlijkheid over wat AI is en wat het niet is. Een uitzonderlijk krachtig hulpmiddel met reële grenzen. Niet minder dan dat, maar ook niet meer.


Als je ergens een grens hebt gevonden waarvan je dacht dat die er niet was, of juist een beperking die hier ontbreekt, ben ik benieuwd wat je bent tegengekomen.

§
JB

Jesse Burger

Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.