Jesse Burger
Terug naar blog
Technologie·Ethiek

De Rol van Data in AI: Het Onzichtbare Fundament

Jesse Burger··13 min leestijd
§

In de zomer van 2023 werd bekend dat OpenAI en andere AI-labs actief hadden onderhandeld met grote uitgevers over toegang tot hun digitale archieven. De New York Times, Condé Nast, de BBC: het gesprek ging niet over een samenwerking of een partnerschap. Het ging over de vraag of de teksten van journalisten, schrijvers en redacteuren al waren gebruikt om modellen te trainen, en zo ja, wat daarvoor betaald moest worden.

Dat conflict is een goed vertrekpunt voor een eerlijk gesprek over data in AI. Want de technologie die iedereen ziet, de chatbots, de beeldgeneratoren, de codeerhulpjes, is gebouwd op een fundament dat zelden expliciet benoemd wordt.

Wat er in een model zit

Een groot taalmodel is in de kern een statistisch systeem dat patronen heeft geleerd uit tekst. Maar hoeveel tekst? En welke?

De trainingsdata voor moderne modellen is een combinatie van verschillende bronnen. De grootste is Common Crawl: een non-profit project dat al jaren grote stukken van het publieke internet archiveert. Elke maand voegen ze miljarden webpagina's toe. Het totale archief telt inmiddels petabytes. GPT-3 was voor een aanzienlijk deel getraind op Common Crawl-data, gefilterd en geschoond, maar de basis is het ruwe web.

Daarnaast zijn er boeken. OpenAI gebruikte voor vroege modellen een dataset genaamd Books1 en Books2, waarvan later bleek dat die deels gevuld was met gescande boeken van twijfelachtige legale herkomst. Meta's trainingsdata bevatte vergelijkbare bronnen. De discussie over hoe dit juridisch moet worden beoordeeld is nog steeds niet beslecht.

Code is de derde grote categorie. GitHub is voor de meeste labs een primaire bron geweest. Dat heeft gevolgen voor de kwaliteit van codeerhulpjes, maar ook voor auteursrecht: code heeft een licentie, en die licentie geldt ook als je er een model mee traint, een standpunt dat momenteel in meerdere rechtszaken wordt getoetst.

Dan zijn er meer gespecialiseerde bronnen: wetenschappelijke papers, Wikipedia, forums zoals Reddit, ondertitels van video's, overheidsdocumenten, en voor sommige modellen specifiek geselecteerde nieuwsteksten. De exacte mix verschilt per lab, en die details worden zorgvuldig bewaakt.

Transparantie over trainingsdata is schaars. OpenAI publiceert nauwelijks iets over de precieze samenstelling van de data voor GPT-4 of latere modellen. Anthropic is iets mededeelzamer over de aanpak, maar ook niet over de specifieke datasets. Google heeft bij Gemini meer gepubliceerd over de trainingsprocedure, maar ook daar blijft de exacte datamix grotendeels geheim.

De enige grote uitzondering is het open source ecosysteem. Meta publiceert meer details over Llama-trainingsdata. Initiatieven als EleutherAI en Hugging Face brengen volledig open datasets uit. Dat maakt onafhankelijk onderzoek en auditing mogelijk, iets wat bij gesloten modellen simpelweg niet kan.

Kwaliteit versus kwantiteit

Er is een tijd geweest dat de vuistregel eenvoudig was: meer data is beter. Dat blijkt genuanceerder te liggen.

De schaalwetten, ook wel scaling laws genoemd, die rond 2020 door onderzoekers bij OpenAI werden beschreven, lieten zien dat modelprestaties vrij voorspelbaar verbeteren als je zowel het model als de data opschaalt. Groter is beter, en er was voor een tijdje weinig reden om daar aan te twijfelen.

Maar later onderzoek, onder andere via het Chinchilla-paper van DeepMind in 2022, nuanceerde dat beeld. Veel labs hadden te grote modellen getraind op relatief weinig data. De optimale balans bleek anders te liggen dan gedacht: bij een bepaald compute-budget zijn meer datapunten en een kleiner model efficiënter dan een enorm model met te weinig trainingstekst.

Het Chinchilla-principe

Het Chinchilla-paper van DeepMind liet zien dat Gopher, hun eigen model van 280 miljard parameters, getraind was op te weinig tokens. Een model van 70 miljard parameters, getraind op vier keer zoveel data, presteerde beter op bijna alle benchmarks. De les: datahoeveelheid en modelgrootte moeten in balans zijn. Sindsdien is de industrie actiever gaan nadenken over datakwaliteit en -mix in plaats van simpelweg meer data te verzamelen.

Wat dit concreet betekent: labs filteren hun ruwe data steeds agressiever. Duplicaten worden verwijderd. Tekst van lage kwaliteit, spam, SEO-troep, machine-gegenereerde content, wordt eruit gezeefd. Er worden data quality filters ingezet die kijken naar leesbaarheid, taalgebruik en informatiedichtheid. De FineWeb-dataset van Hugging Face is een openbaar voorbeeld van hoe dit werkt: van een ruwe Common Crawl-dump van honderden terabytes ontstaat via filtering een veel kleinere maar veel betere dataset.

Het principe achter die filtering is oud en eenvoudig: garbage in, garbage out. Dat geldt ook voor AI. Een model getraind op slecht geschreven, feitelijk onjuiste of eenzijdige tekst reproduceert die problemen in zijn output. Je kunt dit niet volledig oplossen met architectuurkeuzes of meer rekenkracht. De kwaliteit van de input legt een plafond aan de kwaliteit van de output.

Het verborgen werk: data labeling

Pre-training op grote tekstcorpora is maar een deel van het verhaal. De tweede fase, waarbij een model nuttig, veilig en eerlijk wordt gemaakt, vereist iets anders: mensen.

Reinforcement Learning from Human Feedback, kortweg RLHF, is de techniek waarmee de meeste moderne chatbots zijn bijgeschaafd. Het principe: mensen vergelijken twee antwoorden van een model en kiezen welke beter is. Die voorkeuren worden gebruikt om het model te sturen. Herhaal dit miljoenen keren, en het model leert wat "goed" betekent in de ogen van de beoordelaars.

Dit klinkt clean. De werkelijkheid is grilliger.

Een onderzoek van Time Magazine uit 2023 legde bloot hoe OpenAI een deel van dit werk had uitbesteed aan Sama, een bedrijf gespecialiseerd in data-annotatie met medewerkers in Kenia. Die medewerkers kregen teksten te beoordelen met expliciete geweld- en misbruikbeschrijvingen, om het model te leren zulke content te herkennen en te weigeren. Het werk was psychisch zwaar, de vergoeding laag, minder dan twee dollar per uur, en de begeleiding was beperkt.

Dit is geen uitzondering. Het is een structureel kenmerk van hoe AI-modellen worden gebouwd. De zichtbare kant is een product dat vlot praat en handig antwoord geeft. De onzichtbare kant is een keten van mensen die data sorteren, labelen, beoordelen en annoteren, vaak in lage-inkomenslanden, voor lage lonen, soms geconfronteerd met belastende content.

Datawerk is een industrie van tientallen miljoenen mensen wereldwijd. Platforms als Scale AI, Appen en Clickworker brengen opdrachtgevers en annotators samen. De meeste grote AI-labs maken er gebruik van, direct of via tussenbedrijven. Het werk is onzichtbaar voor de eindgebruiker, maar onmisbaar voor het eindproduct.

Er is ook een positiever perspectief op te zetten. Voor annotators in landen met lagere loonkosten is het datawerk soms beter betaald dan lokale alternatieven, en het vereist geen fysieke aanwezigheid op een specifieke locatie. Maar dat maakt de structurele ongelijkheid, de vraag wie de voordelen van AI plukt en wie het saaie, belastende grondwerk doet, niet minder reëel.

Wat ook opvalt is de onzichtbaarheid als ontwerpelement. Producten als ChatGPT presenteren zichzelf als volledig geautomatiseerde systemen. De menselijke arbeid in de keten, de annotators, de RLHF-beoordelaars, de data-curators, staat nergens in de interface vermeld. Dat is een keuze, geen noodzaak.

Synthetische data: het internet is op

Er is een probleem dat de industrie al een tijdje bezighoudt: het internet raakt op.

Dat klinkt merkwaardig, maar de zorg is concreet. De hoeveelheid hoogwaardige tekst die publiek beschikbaar is op het internet is eindig. Er zijn schattingen dat de labs die op dit tempo doorgaan binnen enkele jaren door het bruikbare publieke tekstarchief heen zijn. En het internet vult zichzelf steeds meer met AI-gegenereerde content, waardoor de kwaliteit van toekomstige crawls daalt.

De oplossing die de industrie verkent is synthetische data: data die door AI-modellen zelf wordt gegenereerd om andere modellen te trainen. Dit klinkt circulair, en dat is het deels ook. Maar het heeft twee legitieme toepassingen.

Ten eerste kun je bestaande trainingsdata uitbreiden met variaties. Een echt voorbeeld van een wiskundesom vertalen naar vijftig varianten, andere formulering, ander getal, zelfde logica. Dit helpt een model beter te generaliseren zonder dat je vijftig echte voorbeelden nodig hebt.

Ten tweede kun je synthetische data gebruiken voor domeinen waar weinig publieke data bestaat. Medische dialogen in een specifiek subspecialisme. Juridische teksten in een kleine taal. Technische handleidingen voor niche-apparatuur. In die gevallen kan een goed basismodel bruikbare voorbeelden genereren die vervolgens door experts worden geverifieerd.

Maar er zijn grenzen. Als je een model traint op zijn eigen output, versterkt het zijn eigen patronen en fouten. Onderzoekers noemen dit model collapse: na genoeg generaties synthetische training wordt de output monotoner en verliest het model nuance. Hoe je de voordelen van synthetische data kunt pakken zonder de nadelen, is nog een actief onderzoeksgebied.

Een interessant voorbeeld van geslaagde synthetische data-aanpak is het Phi-reeks van Microsoft Research. Phi-1 was een relatief klein model dat buitensporig goed presteerde op codeer-benchmarks, getraind op een selectie van hoge-kwaliteit tekst en synthetisch gegenereerde code-uitleg. Phi-2 en latere versies bouwden verder op dat principe. Het toonde aan dat datakwaliteit en -selectie soms meer uitmaken dan modelgrootte of rauwe hoeveelheid data.

Voor labs is synthetische data ook aantrekkelijk om een andere reden: controle. Zelf gegenereerde data heeft geen auteursrechtclaims, geen onduidelijke licenties, geen onverwachte bronnen. Als de juridische druk op trainingsdata toeneemt, wordt het aantrekkelijker om zoveel mogelijk van het trainingsproces in eigen handen te houden.

Data poisoning: het giftige in de berg

Als trainingsdata zo bepalend is voor wat een model doet, is het ook een aanvalsvector. Data poisoning is het bewust manipuleren van trainingsdata om een model op een specifieke manier te laten falen of te sturen.

De meest eenvoudige vorm: een kwaadwillende partij publiceert veel tekst op het publieke web met de intentie dat die tekst in een toekomstige Common Crawl-snapshot terechtkomt. Als het lukt, heeft die partij een kleine, maar meetbare invloed op het gedrag van modellen die later op die snapshot trainen.

Geavanceerdere varianten zijn ook aangetoond in onderzoek: het injecteren van specifieke triggers in trainingsdata, zodat een model bij een bepaald wachtwoord of patroon anders gedraagt. Dit heet een backdoor attack, en het is bijzonder moeilijk te detecteren omdat het model bij normale input normaal gedraagt.

Moeilijk te controleren

Grote labs verwerken datasets van honderden miljarden tokens. Volledige handmatige controle is onmogelijk. Geautomatiseerde filters helpen, maar zijn niet onfeilbaar. De kwetsbaarheid van trainingsdata voor manipulatie is een structureel probleem dat nog geen afdoende oplossing heeft. Voor systemen die op kritische infrastructuur draaien is dit een serieus aandachtspunt.

Data poisoning is ook niet altijd kwaadwillend. Een minder dramatische maar praktisch relevante variant: als een bepaalde community of bron sterk oververtegenwoordigd is in trainingsdata, kleurt dat het model. Reddit is een belangrijk voorbeeld. De demografische samenstelling van Reddit, jong, grotendeels mannelijk, Engelstalig, westers, heeft aantoonbaar de toon en inhoud van vroege GPT-modellen beïnvloed. Niet door opzet, maar door samenstelling.

Auteursrecht: wie bezit de training?

De juridische positie van trainingsdata is op dit moment een van de meest onopgeloste vragen in het tech-recht.

Het debat spitst zich toe op een paar kernpunten. Ten eerste: is het trainen van een model op auteursrechtelijk beschermd werk een schending van het auteursrecht? Labs betogen dat training onder fair use valt, de Amerikaanse doctrine die bepaalde ongeautoriseerde vormen van gebruik toestaat als ze transformatief zijn. Rechthebbenden betogen dat de schaal, en het commerciële oogmerk, fair use uitsluiten.

Ten tweede: als een model tekst genereert die sterk lijkt op een bestaand auteursrechtelijk beschermd werk, wie is er dan aansprakelijk? Dit is al meerdere keren getest. In sommige gevallen bleek dat modellen teksten bijna letterlijk konden reproduceren als je er genoeg omheen deed.

De rechtszaken lopen. De New York Times heeft OpenAI aangeklaagd. Een groep schrijvers heeft Anthropic en Meta aangeklaagd. In Europa is de AI Act gedeeltelijk van kracht, maar de databepalingen zijn complex en de handhaving kinderschoenen.

Voor de praktijk betekent dit: de juridische grond waarop de meeste grote AI-modellen zijn gebouwd is betwist. Hoe de rechters beslissen, heeft gevolgen voor hoe toekomstige modellen mogen worden getraind. Sommige labs zijn alvast licentieovereenkomsten aan het sluiten met uitgevers, voorzichtigheidshalve of omdat ze de uitkomst inschatten.

In Europa is de situatie anders dan in de VS. De AI Act stelt eisen aan transparantie over trainingsdata voor systemen met een hoog risico. De auteursrechtrichtlijn vereist al langer dat lidstaten een opt-out-mechanisme bieden voor rechthebbenden die niet willen dat hun werk voor text mining en data mining wordt gebruikt. In theorie kunnen Europese schrijvers en uitgevers zich dus al uitschrijven. In de praktijk is de handhaving beperkt en de naleving wisselend.

De toekomst van data

De data die beschikbaar is voor AI-training verandert op drie manieren tegelijk.

Het publieke aanbod krimpt relatief. Steeds meer websites blokkeren AI-crawlers via robots.txt. Reddit, Stack Overflow en andere platformen hebben hun data afgesloten of er betaling voor gevraagd. The Guardian, de Associated Press en andere nieuwsorganisaties experimenteren met data-licenties in plaats van vrij crawlen toe te staan. Het open web als gratis bron voor trainingsdata is minder vanzelfsprekend dan vijf jaar geleden.

Domeinspecifieke data wint aan waarde. Nu generieke taalcapaciteiten bij de topmodellen grotendeels convergeren, wordt het verschil gemaakt door data voor specifieke toepassingen. Geannoteerde medische dossiers, gevalideerde juridische redeneerketens, hoogwaardige wetenschappelijke datasets: dit is het moeilijkst te verkrijgen en het meest waardevol voor gespecialiseerde modellen.

Data governance wordt serieuzer. Wie er eigenaar is van data, wie er toestemming voor gegeven heeft, hoe lang het bewaard mag worden, wie er inzage in heeft: deze vragen worden steeds minder filosofisch en steeds meer juridisch en operationeel. Labs die dit nu goed regelen, hebben straks minder last van claims en regelgevende ingrepen.

Wat dit betekent voor hoe je AI-producten beoordeelt

De meeste gebruikers hebben geen zicht op de trainingsdata van de modellen die ze gebruiken. Dat is begrijpelijk, maar het heeft gevolgen voor hoe je de output moet interpreteren.

Een model dat veel getraind is op Engelstalige tekst presteert doorgaans slechter in andere talen, niet omdat het model fundamenteel gebrekkig is, maar omdat de data ongelijkmatig verdeeld was. Het Nederlands is in vrijwel elke grote trainingsset ondervertegenwoordigd ten opzichte van het Engels. Dat verklaart waarom een model in het Engels genuanceerder kan redeneren over bepaalde onderwerpen dan in het Nederlands: het heeft die nuance simpelweg vaker gezien.

Een model dat weinig wetenschappelijke papers in zijn trainingsset had, is minder betrouwbaar bij technische vragen. Een model dat gevoed is met een eenzijdige selectie van bronnen heeft blindevlekken op de onderwerpen die die bronnen niet goed belichten.

De termen "intelligent" en "capabel" suggereren eigenschappen die onafhankelijk zijn van de input. Dat zijn ze niet. Een model is altijd, in de letterlijkste zin, het product van de data waarop het is getraind. Hoe goed je de output kunt inschatten, hangt deels af van hoe goed je begrijpt wat er in zat.

Een praktisch gevolg: als je een AI-systeem inzet voor een specifiek domein, is de vraag "hoe is dit model getraind?" relevanter dan de vraag "hoeveel parameters heeft het?". Voor medische toepassingen wil je weten of er medische data in zat, van welke kwaliteit, en of die data representatief is voor jouw patiëntenpopulatie. Voor juridische toepassingen wil je weten of het model getraind is op Nederlandse rechtspraak of overwegend op Engelstalig recht.

Dat maakt data niet alleen een technisch vraagstuk voor labs. Het is ook een vraagstuk voor iedereen die AI-systemen inzet, beoordeelt of vertrouwt op hun output. De beste bescherming tegen onverwachte uitkomsten is begrijpen waar de beperkingen vandaan komen, en die liggen bijna altijd in de data.


Welke vragen roept dit bij je op over de AI-producten die je dagelijks gebruikt? De data-keuzes die labs maken zijn grotendeels onzichtbaar, maar ze liggen aan de basis van alles wat je ziet.

§
JB

Jesse Burger

Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.