AI in de Gezondheidszorg: Wat Werkt en Wat Niet
Elk jaar worden er in Nederland ongeveer 3,5 miljoen röntgenfoto's en CT-scans beoordeeld door radiologen. Dat is veel werk, het vereist hoge concentratie, en een menselijke beoordelaar heeft een slechte dag, heeft vermoeidheid, en kijkt de honderdste scan van de dag anders dan de eerste.
AI doet dat anders. Een model dat getraind is op honderdduizenden beelden met bekende diagnoses, kijkt de duizendste scan precies zo als de eerste. Het wordt niet moe. Het heeft geen slechte dag.
Dat is de reden dat radiologie de sector is waar AI in de gezondheidszorg het verst is. En het is ook de plek waar je het scherpst ziet wat werkt, wat nog niet werkt, en hoe groot de afstand is tussen wat er in een persbericht staat en wat er dagelijks in een ziekenhuis gebeurt.
Diagnostiek: waar het al echt werkt
De sterkste AI-toepassingen in de medische diagnostiek zijn geen algemene systemen die alles kunnen. Ze zijn smal, gespecialiseerd, en goed gedocumenteerd.
Radiologie is het meest volwassen domein. Een model als Annalise.ai, ontwikkeld in Australië en inmiddels actief in meerdere landen, detecteert honderden afwijkingen op borstfoto's en CT-scans, en doet dat op een niveau dat vergelijkbaar is met ervaren radiologen. In Nederland zijn er ziekenhuizen die werken met Calantic van Bayer en soortgelijke systemen, die scans prioriteren op basis van urgentie. Als een CT-scan tekenen van een herseninfarct laat zien, schuift die automatisch naar boven in de stapel van de radioloog.
Dat laatste punt is cruciaal en wordt vaak onderschat. AI in de radiologie vervangt niet de beoordeling. Het helpt de beoordelaar zijn aandacht te richten op wat urgent is. De uitkomst is niet minder werk voor de radioloog, maar de juiste volgorde van werk.
Pathologie volgt hetzelfde patroon. Pathologen beoordelen weefselmonsters onder de microscoop, soms duizenden cellen per preparaat. AI-modellen zijn in staat om kankercel-classificatie te doen met hoge nauwkeurigheid, met name bij prostaatkanker en borstkanker. Philips, een Nederlands bedrijf dat zich de afgelopen jaren sterk heeft gericht op digitale pathologie, heeft hierin geïnvesteerd. Het systeem helpt bij het signaleren van verdachte cellen, maar een patholoog stelt de diagnose.
Oogheelkunde is een ander voorbeeld waar de resultaten consistent zijn. Diabetische retinopathie (oogschade door diabetes) is vroeg detecteerbaar op foto's van het netvlies. Een model dat daarvoor getraind is, presteert inmiddels beter dan een doorsnee oogarts op dit specifieke onderdeel. In India worden dergelijke modellen al ingezet bij bevolkingsscreenings in regio's waar specialisten schaars zijn. In Nederland is de toepassing kleinschaliger, maar ze bestaat.
Smal is sterk
AI-modellen in de diagnostiek werken het beste als ze voor één specifieke taak zijn getraind op grote hoeveelheden gelabelde data. Een model dat borstkanker detecteert op mammogrammen is betrouwbaarder dan een generalistisch systeem dat beweert alles te kunnen. De kracht zit in specialisatie, niet in breedte.
Wat de hype nog inhaalt: de praktijk
Er zijn ook genoeg toepassingen die in theorie interessant zijn, maar in de dagelijkse praktijk van een ziekenhuis of huisartsenpraktijk nog nauwelijks functioneren.
Vroegdiagnostiek via vrije tekst is zo'n voorbeeld. De belofte: een model leest de patiëntendossiers en signaleert patronen die op een ernstige aandoening kunnen wijzen voordat de patiënt zelf symptomen merkt. De werkelijkheid: medische dossiers zijn een chaos. Ze bevatten afkortingen per afdeling, per ziekenhuis, soms per dokter anders. Ze bevatten fouten. Ze bevatten context die alleen begrijpelijk is als je de patiënt kent. Grote taalmodellen (LLMs) zijn goed in patroonherkenning in tekst, maar ze zijn ook goed in het produceren van plausibel klinkende onzin. Dat is in een medische context een probleem van een andere orde dan wanneer je een marketingtekst laat schrijven.
Er is ook een valideringsprobleem. Een model dat is getraind op data van grote Amerikaanse academische centra gedraagt zich anders op data uit een regionaal Nederlands streekziekenhuis, waar de patiëntenpopulatie, de documentatiestijl en de werkwijzen anders zijn. Generalisatie is in de geneeskunde geen vanzelfsprekendheid.
Klinische beslissingsondersteuning (het systeem dat de arts een behandeladvies geeft op basis van patiëntdata) is al tientallen jaren een belofte en nog altijd een beperkte realiteit. Er zijn systemen die werken, met name voor het signaleren van gevaarlijke medicatiecombinaties, maar de brede toepassing loopt aan op hetzelfde probleem als altijd: artsen vertrouwen systemen die ze niet begrijpen niet, en ze hebben gelijk om voorzichtig te zijn.
Een arts die een waarschuwing krijgt van een systeem en niet begrijpt waarom, heeft twee keuzes: de waarschuwing opvolgen zonder te begrijpen waarom, of hem negeren. Beide zijn problematisch. Dat is de kern van het explainability-probleem in medische AI: het model kan goed zijn, maar als de output niet inzichtelijk is, is het voor de arts niet bruikbaar als hulpmiddel en verandert het in een black box die verantwoordelijkheid van hem overneemt.
Generatieve AI als assistent voor medisch personeel is een categorie apart. Ambient voice-tools, waarbij een AI het gesprek tussen arts en patiënt omzet in een gestructureerde aantekening in het EPD (elektronisch patiëntendossier), zijn veelbelovend. Nuance DAX Copilot en vergelijkbare producten zijn in gebruik in enkele Nederlandse ziekenhuizen. De tijdsbesparing is meetbaar. Maar de juridische verantwoordelijkheid voor de correctheid van de aantekening blijft bij de arts, en fouten in een EPD kunnen grote gevolgen hebben.
Medicijnontwikkeling: echte versnelling, maar geen magie
Buiten de directe patiëntenzorg is medicijnontwikkeling een domein waar AI serieuze impact heeft.
De traditionele route van een nieuw medicijn naar de markt duurt gemiddeld tien tot vijftien jaar en kost meer dan een miljard euro. Een groot deel van die tijd gaat naar het identificeren van potentiële moleculen, het inschatten van hun werking en bijwerkingen, en het elimineren van kansloze kandidaten.
AI kan die selectie versnellen. AlphaFold van DeepMind (nu onderdeel van Google) heeft de structuurvoorspelling van eiwitten min of meer opgelost: een probleem dat decennialang als een van de moeilijkste problemen in de biologie gold. Als je weet hoe een eiwit vouwt, begrijp je beter hoe een molecuul eraan kan binden, en dus hoe een medicijn kan werken.
Dat betekent niet dat medicijnen nu tien keer sneller worden ontwikkeld. De klinische fase, het testen op mensen, verloopt op biologische tijd en dat verandert niet door betere software. Wat AI doet is de pre-klinische fase comprimeren: minder hopeloze kandidaten die jaren later in fase II-studies alsnog afvallen.
Bedrijven als Recursion Pharmaceuticals, BenevolentAI (mede-opgericht in Londen en met een Europese aanwezigheid) en het Nederlandse Genmab experimenteren actief met AI-gestuurde target discovery. Dat zijn geen startups meer met een pitch en een PowerPoint, dat zijn bedrijven met klinische programma's.
De nuance: tot nu toe heeft nog geen enkel volledig AI-ontworpen medicijn een regulatoire goedkeuring gekregen. De eerste kandidaten lopen nu in klinische trials. Wat AI bewijst, is de route versnellen naar menselijke tests. Of die tests slagen, dat is nog steeds onzeker.
De Nederlandse context: huisarts en ziekenhuis
Het Nederlandse zorgstelsel heeft een specifieke structuur die AI-implementatie op een bepaalde manier vorm geeft.
De huisarts is de poortwachter van het systeem. De meeste Nederlanders gaan eerst naar de huisarts, die bepaalt of doorverwijzing naar een specialist nodig is. Dat zorgt voor een enorme concentratie van eerste contactmomenten en relatief lichte klachten bij een beperkt aantal huisartsen. En er is een structureel tekort aan huisartsen, zeker in dunbevolkte gebieden. Volgens het RIVM zal dat tekort de komende jaren verder oplopen naarmate de bevolking vergrijst en de zorgvraag stijgt.
AI kan hier helpen bij de administratieve kant, niet de diagnostische. Het invullen van declaraties, het schrijven van verwijsbrieven, het bijhouden van het HIS (huisartsinformatiesysteem): dit zijn taken die tijdrovend zijn en niet per definitie medische expertise vereisen. Enkele huisartsensoftwareleveranciers, zoals Medicom en ChipSoft, experimenteren met geïntegreerde AI-ondersteuning. De adoptie is voorzichtig.
Er is ook een bredere discussie gaande over de vraag of AI de triagefunctie van de huisarts deels kan ondersteunen. Niet de diagnose stellen, maar helpen bepalen hoe urgent een klacht is en of iemand snel gezien moet worden of kan wachten. De huisartsenpost heeft daar interesse in. Het vereist echter nauwkeurige validatie: een systeem dat te voorzichtig is, leidt tot overbelasting van de spoedeisende hulp. Een systeem dat te ontspannen is, mist urgente gevallen.
Ziekenhuizen hebben meer capaciteit voor implementatie, maar ook meer complexiteit. Een academisch ziekenhuis als het UMCU of het Erasmus MC heeft data-wetenschappers in dienst, AI-labs, en lopende onderzoeksprogramma's. Maar het grote merendeel van de Nederlandse ziekenhuizen is een regulier streekziekenhuis dat niet beschikt over de middelen om zelf AI-systemen te evalueren, valideren en implementeren.
Het gevolg is een tweedeling: grotere centra lopen voor, kleinere ziekenhuizen wachten op bewijs en gecertificeerde producten. Die tweedeling is niet per se slecht (je wilt niet dat elke regionale kliniek zelfstandig gaat experimenteren met ongevalideerde diagnostische AI), maar het vertraagt brede adoptie.
Administratieve last: het meest onderschatte probleem
Als je zorgverleners vraagt waar AI het meeste verschil kan maken, noemen ze zelden de diagnostiek als eerste. Ze noemen de papierberg.
Een gemiddelde huisarts besteedt naar schatting 30 tot 40 procent van zijn werktijd aan administratie: verslaglegging, declaraties, correspondentie, verwijsbrieven. In de tweede lijn is het niet anders. Verpleegkundigen registreren handelingen in systemen die op verschillende plekken verschillende invoer vereisen.
Dit is een domein waar AI, met name LLM-gebaseerde tools voor spraak-naar-tekst en automatische structurering van notities, op korte termijn echt tijd kan vrijmaken. De technologie is beschikbaar en de behoefte is bewezen.
Het knelpunt zit niet in de technologie maar in de integratie. Zorgverleners werken met EPD-systemen (elektronische patiëntendossiers) die complex zijn, leveranciergebonden, en langzaam veranderen. De markt wordt in Nederland gedomineerd door een klein aantal leveranciers (EPIC, ChipSoft, Nexus) die hun eigen tempo bepalen voor het integreren van nieuwe functionaliteiten.
En er is de juridische kant. Als een AI-gegenereerde notitie een fout bevat, wie is dan verantwoordelijk? Die vraag is nog niet beantwoord in de Nederlandse wetgeving, en de onzekerheid remt de adoptie.
Medische data is niet gewoon data
Gezondheidsgegevens vallen in Europa onder de zwaarste categorie van persoonsgegevens in de AVG. Ze mogen alleen verwerkt worden op basis van expliciete toestemming of zwaarwegende gronden van algemeen belang. Voor AI-training betekent dit dat een model dat getraind moet worden op Nederlandse patiëntendossiers te maken krijgt met juridische drempels die in andere sectoren niet bestaan. Dat is terecht, maar het verklaart waarom de beschikbaarheid van gevalideerde trainingsdata voor medische AI structureel een probleem is.
Privacy: de specifieke uitdaging van medische data
Medische data is anders dan andere data. Niet alleen juridisch, maar ook praktisch.
Een medisch dossier bevat informatie die mensen actief voor anderen verborgen willen houden: psychische aandoeningen, seksueel overdraagbare aandoeningen, abortussen, verslavingen. Het is data die bij de verkeerde partij terechtgekomen grote gevolgen kan hebben voor iemands werk, relaties of verzekering.
Voor het trainen van AI-modellen op medische data zijn er in principe drie routes. De eerste is anonimisering: persoonsgegevens worden verwijderd of vervangen zodat het individu niet meer identificeerbaar is. In de praktijk blijkt echte anonimisering van medische data bijzonder lastig. Combinaties van leeftijd, geslacht, woonplaats en diagnose kunnen mensen uniek identificeren, ook zonder naam.
De tweede route is synthetische data: kunstmatig gegenereerde patiëntrecords die de statistische eigenschappen van echte data benaderen zonder op echte mensen gebaseerd te zijn. Dit is een actief onderzoeksveld en veelbelovend, maar synthetische data mist de randgevallen en de rommel die echte klinische praktijk kenmerkt.
De derde route is federated learning: het model traint op data die nooit het ziekenhuis verlaat. In plaats van data naar een centrale server te sturen, gaat het model naar de data, leert lokaal, en stuurt alleen de geleerde parameters terug. Verscheidene Europese samenwerkingen, waaronder GAIA-X Health en het Personal Health Train-initiatief dat in Nederland is ontstaan, werken met dit principe.
Het probleem met alle drie de routes is schaal. De VS heeft een voordeel omdat grote netwerken als Kaiser Permanente en het VA-systeem enorme hoeveelheden data centraal beheren. In Nederland zijn ziekenhuizen zelfstandige entiteiten met eigen ICT-systemen. Data delen, ook voor onderzoek, vereist juridische overeenkomsten, goedkeuring van ethische commissies, en technische koppeling tussen systemen die niet voor samenwerking zijn ontworpen. Dat is geen onmogelijkheid, maar het verloopt langzaam.
Regulering: CE-markering en de AI Act
Een medisch AI-systeem dat diagnostische beslissingen ondersteunt, is in de Europese Unie een medisch hulpmiddel. Dat betekent CE-markering, klinische validatie, en toetsing door een notified body. Dat proces duurt lang en kost geld.
De EU AI Act voegt daar nog een laag bovenop. AI-systemen in hoog-risicocategorieën, waaronder medische diagnostiek, moeten voldoen aan aanvullende eisen voor transparantie, robuustheid en menselijk toezicht. Voor kleine Europese AI-bedrijven in de medische sector is de combinatie van MDR (Medical Device Regulation) en AI Act een aanzienlijke compliance-last.
Dit is niet puur negatief. Gevalideerde, gecertificeerde systemen zijn wat ziekenhuizen nodig hebben. Een arts kan geen diagnostisch hulpmiddel gebruiken dat niet klinisch is getest. Maar het verklaart waarom buitenlandse systemen (vaak Amerikaans, soms Aziatisch) sneller de markt bereiken dan Europese alternatieven. Ze hebben elders bewijs opgebouwd en passen dat aan voor de Europese markt.
Er is ook een fundamentelere vraag over aansprakelijkheid die de wetgeving nog niet volledig heeft beantwoord. Als een AI-systeem een diagnose ondersteunt die later onjuist blijkt, wie is er dan juridisch verantwoordelijk? De arts die het advies opvolgde? De fabrikant van het systeem? Het ziekenhuis dat het heeft geïmplementeerd? In het huidige Nederlandse stelsel ligt de verantwoordelijkheid bij de arts. Maar naarmate AI-adviezen zwaarder meewegen in klinische beslissingen, wordt die vraag ingewikkelder. Dit is een debat dat juristen, artsen en beleidsmakers gezamenlijk moeten voeren, en dat nog te weinig plaatsvindt.
Wat artsen ervan vinden
Het valt op dat de weerstand tegen AI in de zorg zelden principieel is. Artsen zijn geen technofoben. Ze zijn sceptisch omdat ze weten wat er mis kan gaan.
Een cardioloog die al twintig jaar echo's beoordeelt, heeft een klinisch oordeel dat bestaat uit duizenden beelden, ontelbare patiëntgesprekken en de kennis van wat hij mist als hij te snel gaat. Als een AI hem vertelt dat er een afwijking is, wil hij weten: op welke data is dit getraind? Hoe presteert het bij patiënten die eruit zien als mijn populatie? Wat zijn de fout-positieven en fout-negatieven?
Die vragen zijn terecht. En ze zijn nog lang niet altijd goed beantwoord door de aanbieders van medische AI.
Er is ook een praktisch punt: workflow-integratie. Een AI-tool die niet in het EPD zit maar een apart scherm vereist, die traag is, die notificaties geeft waar artsen last van hebben, die wordt binnen een week weggeklikt en nooit meer gebruikt. De beste medische AI ter wereld heeft nul waarde als het niet naadloos past in de manier waarop mensen daadwerkelijk werken.
Dat is overigens geen nieuw probleem. Klinische beslissingsondersteunende systemen bestaan al tientallen jaren in ziekenhuizen, en de notoire klacht is altijd dezelfde: te veel waarschuwingen, te weinig relevantie, te moeilijk te negeren. Als een systeem honderd meldingen per dag geeft waarvan negentig irrelevant zijn, leren artsen ze allemaal te negeren, inclusief de tien die er toe doen. Dat patroon heet alert fatigue, en het is een van de meest onderzochte problemen in de implementatie van digitale gezondheidstools.
De meest succesvolle implementaties zijn die waarbij artsen vroeg betrokken zijn bij de inrichting, waarbij de tool een duidelijk omschreven taak heeft en niet pretendeert alles te kunnen, en waarbij er een feedbackmechanisme is om fouten te melden en het systeem te verbeteren. Dat klinkt simpel. In de praktijk is het organisatorisch lastig, want het vereist tijd en inzet van mensen die het drukst zijn.
Bias in medische AI: een onderschat risico
Er is nog een aspect dat in de discussie over medische AI te weinig aandacht krijgt: de vraag op welke data een model is getraind, en of die data representatief is voor de populatie die het moet bedienen.
Medische AI-modellen zijn doorgaans getraind op data uit grote academische ziekenhuizen in de VS of Europa. Die data weerspiegelt de patiënten die daar terechtkomen, met alle systematische scheefheden die daarin zitten. Aandoeningen die vaker voorkomen bij mensen met lagere inkomens, of bij specifieke etnische groepen, zijn ondervertegenwoordigd als die groepen minder toegang hebben tot gezondheidszorg en daarmee minder in de trainingsdata voorkomen.
Een concreet voorbeeld: huidaandoeningen zijn veel onderzocht via AI, maar de meeste modellen zijn getraind op afbeeldingen van lichte huidskleurten. Bij mensen met een donkere huidskleur zijn de modellen aantoonbaar minder nauwkeurig. Dat is geen technisch onvermijdelijk gegeven, het is een gevolg van welke data er beschikbaar was en wie dat heeft samengesteld.
In Nederland is de bevolking diverser dan in veel landen waar de trainingsdata vandaan komt. Als een radiologie-AI slecht presteert bij een bepaalde demografische groep, en niemand dat systematisch bijhoudt, dan wordt de ongelijkheid die al in de zorg bestaat versterkt door het systeem dat haar zou moeten verbeteren. Het is een reden waarom klinische validatie op de lokale patiëntenpopulatie, en niet alleen op de data van de leverancier, essentieel is.
Wat de komende jaren reëel is
Het is nuttig om te onderscheiden wat op korte termijn verwacht kan worden van wat nog ver weg is.
Waarschijnlijk op korte termijn:
- Brede uitrol van AI-ondersteunde beeldanalyse in de radiologie, met name voor prioritering en detectie van specifieke afwijkingen
- Voorzichtige adoptie van ambient voice-tools voor gestructureerde notities in huisartsenpraktijken en ziekenhuizen
- Meer AI-gestuurde screening in de publieke gezondheidszorg (retinopathie, huidkanker, cervixkanker)
- Versnelling van pre-klinische medicijnontwikkeling, met eerste goedgekeurde AI-ontworpen kandidaten in klinische trials
Wat meer tijd kost:
- Brede klinische beslissingsondersteuning die artsen daadwerkelijk vertrouwen en gebruiken
- Interoperabele medische data-infrastructuur die AI-training op schaal mogelijk maakt
- Geïntegreerde AI-assistenten die over alle afdelingen van een ziekenhuis heen werken
- Volledige juridische duidelijkheid over aansprakelijkheid bij AI-gestuurde diagnoses
De kloof tussen de belofte en de praktijk is in de gezondheidszorg groter dan in de meeste andere sectoren. Dat is deels de complexiteit van de technologie, deels de complexiteit van de regelgeving, en deels de terechte voorzichtigheid van mensen die weten dat fouten hier gevolgen hebben van een andere orde dan in een contentbedrijf of een bank.
Dat die voorzichtigheid bestaat, is geen teken dat de sector achterblijft. Het is een teken dat de sector serieus neemt wat er op het spel staat.
Hoe kijk jij aan tegen AI in de zorg: als iemand die zorg verleent, als patiënt, of als buitenstaander die de berichten volgt? De kloof tussen wat gepubliceerd wordt en wat er in de spreekkamer gebeurt, is interessant om te volgen.
Jesse Burger
Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.