AI-Content en de Toekomst van het Web
In 2023 ontdekte Amazon dat een aanzienlijk deel van de boeken in de Kindle Store plotseling werden aangeboden door auteurs die niemand kende, over onderwerpen als "hoe maak je geld met ChatGPT in 30 dagen", samengesteld in een paar uur tijd. Sommige categorieën werden er zo door overspoeld dat echte auteurs klaagden dat hun werk onzichtbaar werd.
Dat was drie jaar geleden. Sindsdien is de schaal alleen maar groter geworden.
De explosie van AI-content
De aantallen zijn lastig te vatten. Onderzoeksbureau NewsGuard telde in 2023 al meer dan 700 websites die bijna volledig bestaan uit AI-gegenereerde nieuwsartikelen, vaak zonder menselijke redacteur, zonder bronvermelding en met namen die op echte mediabedrijven lijken. In 2024 waren dat er duizenden. De meeste zijn gebouwd met één doel: advertentie-inkomsten genereren via zoekverkeer.
Artikelen zijn daarin het makkelijkste onderdeel. Een taalmodel kan in seconden duizend woorden produceren over elk willekeurig onderwerp, plausibel geformuleerd, voorzien van koppen en subkoppen, en geoptimaliseerd voor de zoekwoorden die traffic genereren. Afbeeldingen zijn er in milliseconden bij, gegenereerd door Midjourney of Stable Diffusion, nooit eerder gepubliceerd en dus niet te detecteren via omgekeerde zoekacties.
Video volgt hetzelfde patroon. Gezichten gegenereerd door systemen als HeyGen, stemmen gekloneerd uit openbaar beschikbaar materiaal, scripts door een taalmodel, alles in elkaar gezet zonder dat een mens de studio in is gegaan. Op YouTube zijn kanalen die honderden video's per week publiceren op deze manier, over onderwerpen die precies matchen met wat mensen zoeken.
De infrastructuur voor dit soort content is goedkoop geworden. Een abonnement op een paar tools, wat basiskennis van SEO, en je kunt een contentfabriek opzetten die meer produceert dan een klein redactieteam in een jaar.
Wat dit doet met Google
Google heeft decennia gebouwd aan het idee dat de beste content bovenaan staat. Het algoritme werd steeds verfijnder, de spam-filters werden aangescherpt, en voor een tijd werkte het redelijk. Maar die aanpak was ontworpen voor een wereld waarin de productiekosten van content bepalend waren voor de schaal.
Die aanname geldt niet meer.
Het SEO-spam probleem
De kern van het probleem is dat AI-content precies de signalen kan nabootsen die Google gebruikt om kwaliteit te meten: leesbaarheid, lengte, structuur, gebruik van zoekwoorden, interne links. Spam die er als kwaliteitscontent uitziet, is moeilijker te onderscheiden van echte kwaliteitscontent dan spam die er meteen als spam uitziet.
Google heeft zijn algoritme aangepast met updates gericht op "helpful content", bedoeld om generieke, lage-kwaliteit content naar beneden te duwen. Met gemengd succes. Sommige legitieme websites verloren significant verkeer na de updates, terwijl AI-contentfarms hun werkwijze aanpasten en gewoon doordraaiden. Het is een klassiek kat-en-muisspel, alleen speelt de muis nu met gereedschap dat even krachtig is als het gereedschap van de kat.
De praktische gevolgen zijn merkbaar voor iedereen die Google gebruikt voor serieuze zoekopdrachten. Medische vragen leveren blogs op die klinken als huisarts maar zijn samengesteld door een script. Financieel advies komt van domeinen die vorige maand zijn geregistreerd. Recepten zijn variaties op variaties gegenereerd door modellen die andere recepten als input hebben gehad.
Een categorie die bijzonder hard is geraakt: lokale journalistiek. Lokale nieuwssites worden verdrongen door geautomatiseerde sites die lokale persbureauberichten herschrijven, verrijken met AI-filler, en publiceren met vijf minuten vertraging.
Het vertrouwensprobleem
Er is iets fundamentelers aan de hand dan zoekresultaten die minder goed zijn. Het gaat om vertrouwen.
Als je niet meer kunt vaststellen of een tekst door een mens is geschreven, als een foto van een evenement ook een synthese kan zijn, als een citaat van een expert misschien nooit is uitgesproken, dan verandert de basisveronderstelling waarmee je het web gebruikt. Je leest niet meer met de aanname dat iemand ergens voor heeft gezeten en nagedacht heeft over wat er staat.
Deepfakes zijn daarin het meest zichtbare probleem. Videofragmenten van politici die uitspraken doen die ze nooit hebben gedaan. Audiopranks waarbij de stem van iemand wordt gebruikt om familie te overtuigen dat er geld nodig is. Nepfoto's van rampen die viraal gaan voordat fact-checkers erbij zijn. De technische lat om overtuigend synthetisch beeldmateriaal te produceren is in drie jaar tijd sterk gedaald.
Maar deepfakes zijn het dramatische uiteinde van een breder fenomeen. Het subtielere probleem is massale, geloofwaardige maar inhoudelijk lege of onbetrouwbare tekst. Dat valt minder op, is moeilijker te flaggen, en beïnvloedt de informatieomgeving stiller en consistenter.
Detectietools helpen beperkt. Tools als GPTZero en de classifier van OpenAI geven indicaties, maar zijn verre van feilloos. Een tekst die door een mens is herschreven na AI-generatie, of een tekst die door een mens is geschreven maar in AI-stijl, glibbert er doorheen. Watermerken in AI-gegenereerde content zijn op initiatief van sommige bedrijven aangebracht, maar zijn niet standaard en niet verplicht.
De dead internet theory
Er is een online these die een paar jaar geleden nog als complottheorie werd afgedaan, maar in een verzachterde versie steeds relevanter lijkt: de "dead internet theory".
De originele versie is overspannen: het internet is grotendeels nep, wordt beheerd door bots en gecoördineerde campagnes, en echte mensen zijn een minderheid geworden van de online populatie. Dat is niet wat er feitelijk wordt geobserveerd.
Maar de kerngedachte heeft een geloofwaardiger variant gekregen. Een steeds groter deel van de content die online circuleert is niet afkomstig van mensen met een echte mening, ervaring of expertise. Het is gegenereerd om een doel te bereiken: klikken, conversies, aandacht, politieke beïnvloeding. De ratio tussen authentieke menselijke stem en geautomatiseerde productie verschuift in de richting van het laatste.
Sociale media-platforms worden bevolkt door accounts die deels of volledig door AI worden beheerd. Commentaarsecties bevatten reacties die zijn gegenereerd om engagement te simuleren. Reviews van producten en diensten bevatten synthetische lofzangen naast synthetische afbrekende kritieken. Het onderscheid tussen een communityplatform en een database van gegenereerde content wordt vager.
Wat dit betekent voor journalisten en uitgevers
De journalistiek stond al onder druk vóór AI. Advertentie-inkomsten die naar platforms verschoven, dalende abonneeaantallen bij regionale media, de concurrentie van sociale media voor aandacht. AI voegt een nieuwe laag toe aan dat landschap.
De paradox voor uitgevers
Uitgevers staan voor een paradoxale situatie: ze kunnen AI gebruiken om sneller en goedkoper te produceren, maar daarmee dragen ze bij aan de inflatie van content die hun eigen positie ondermijnt. Schaal je op met AI-hulp, dan verdun je wat je onderscheidt van de contentfarms. Doe je het niet, dan wordt je ingehaald door partijen die geen redactionele normen hebben.
Sommige uitgevers hebben al significante ingrepen gedaan. Sports Illustrated publiceerde AI-gegenereerde artikelen onder gefingeerde bylines totdat het uitkwam. G/O Media haalde AI-artikelen offline na publieke kritiek. CNET experimenteerde een tijd met AI-artikelen en stopte er gedeeltelijk mee na foutmeldingen. De reputatieschade in elk geval was reeel.
Aan de andere kant zijn er uitgevers die AI-tools inzetten voor specifieke taken: het verwerken van data voor sportverslagen, het samenvatten van financiële rapporten, het vertalen van nieuwsberichten. Dat zijn gevallen waarbij de menselijke redacteur controle houdt en AI de productiviteit vergroot zonder de journalistieke standaard te vervangen.
Het onderscheid tussen die twee toepassingen is precies het gesprek dat de sector voert. Maar de economische druk is reeel en de tools zijn beschikbaar. De incentive structuur duwt in de richting van meer automatisering, niet minder.
Voor journalisten individueel betekent het een verschuiving in wat waardevol is. Generieke uitleg van een onderwerp kan een taalmodel. Diepgravende onderzoeksjournalistiek, het opbouwen van bronnennetwerken, het duiden van lokale context, het stellen van de onaangename vraag: dat zijn dingen die moeilijker te automatiseren zijn. Of in elk geval: dingen waarbij automatisering zichtbaarder faalt.
Model collapse: AI eet zijn eigen staart
Er is een eigenaardig technisch probleem in de maak dat de situatie op de langere termijn interessanter maakt.
AI-taalmodellen worden getraind op tekst van het internet. Dat werkte goed zolang het internet voornamelijk bestond uit door mensen geschreven tekst. Maar naarmate het aandeel AI-gegenereerde content groeit, verandert de trainingsdata. Modellen die in de toekomst worden getraind op het huidige internet, trainen deels op de output van eerdere modellen.
Onderzoekers noemen dit "model collapse". In simulaties is aangetoond dat modellen die op synthetische data worden getraind, na verloop van tijd diversiteit verliezen. Ze worden conservatiever, produceren meer gemiddelde output, en verliezen grip op de randen van de distributie: de zeldzamere, nuancerijkere of creatievere uitingen die juist het interessantste zijn aan menselijke expressie.
Het is een beetje alsof je een kopieerapparaat laat kopiëren van kopieën. Na een paar generaties is de afbeelding herkenbaar, maar iets is er uitgelopen.
In de praktijk is model collapse geen catastrofaal scenario op korte termijn. Grote labs hanteren data-kwaliteitsfilters en proberen gesynthetiseerde data te labelen. Maar het onderliggende probleem is reeel: de kwaliteit van toekomstige modellen is afhankelijk van de kwaliteit van de trainingsdata, en die data wordt in toenemende mate bevolkt door de output van bestaande modellen.
De ironie is moeilijk te missen. AI-gegenereerde content overspoelt het web, en die content wordt vervolgens de voeding voor de volgende generatie modellen, die daardoor minder goed worden, waarna de output van die zwakkere modellen weer op het web terechtkomt. Het is geen lineair verval, maar het is ook geen stabiel systeem.
Hoe navigeer je hierdoor?
Er zijn geen simpele antwoorden, maar er zijn bruikbare uitgangspunten.
Voor consumenten van content:
- Primaire bronnen zijn je vrienden. Als een artikel een studie citeert, ga dan naar de studie. Als een nieuwtje afkomstig is van een platform, zoek dan het origineel.
- Bekijk de publicatiedatum, het domein en de byline. Domeinen die vorig jaar zijn geregistreerd en honderden artikelen per week publiceren, verdienen extra scepsis.
- Foto's en video zijn te controleren via tools als Google Lens, TinEye of InVID. Niet altijd sluitend, maar beter dan niets.
- Vertrouw merken die transparant zijn over hoe ze werken. Uitgevers die hun bronnen vermelden, correctiebeleid hanteren en duidelijk maken wie voor de inhoud verantwoordelijk is, geven redenen voor vertrouwen die AI-contentfarms structureel niet kunnen geven.
Voor makers van content:
- Het onderscheidende is steeds minder het produceren en steeds meer het verificeren, duiden en verbinden. Dat zijn menselijke activiteiten die moeilijker te automatiseren zijn.
- De oorsprong van content wordt als kwaliteitssignaal steeds relevanter. Wie bent je, wat is je track record, waarom zou iemand jou vertrouwen? Dat zijn vragen waarop een domein zonder naam of geschiedenis geen antwoord heeft.
Voor platforms:
- De druk op platforms om authenticiteitsverificatie serieuzer te nemen, groeit. Niet als absolute maatregel, maar als optie. Een gecertificeerd menselijk account heeft andere implicaties dan een anoniem account, en die informatie is nuttig voor gebruikers.
Het web als spiegel
Wat er nu gebeurt, is in zekere zin een logisch gevolg van hoe het web economisch is georganiseerd. Aandacht is geld. Content is de manier om aandacht te genereren. De productiekosten van content zijn gedaald naar vrijwel nul. Dus er wordt meer content geproduceerd dan ooit, en het meeste ervan is niet bedoeld om iets te communiceren, maar om een positie te veroveren in een algoritme.
Dat is geen nieuw probleem. SEO-spam bestaat al zo lang als zoekmachines. Clickbait is niet uitgevonden door AI. Misleidende advertenties evenmin. Maar de schaal is anders, en de kwaliteit van de vervalsing is anders.
Het web heeft altijd een mengeling geweest van het beste wat mensen te bieden hebben en de commerciële logica die dat omringt. Die verhouding verschuift op dit moment, en de richting is niet geruststellend.
Tegelijkertijd: het web is ook veerkrachtiger dan het soms lijkt. Communities die kwaliteit herkennen en bewaken, bestaan nog steeds. Uitgevers die echt iets toevoegen, onderscheiden zich. Mensen die investeren in het leren lezen van de media-omgeving om hen heen, zijn beter uitgerust dan mensen die alles accepteren wat bovenaan staat.
Het is geen strijd die op één moment gewonnen of verloren wordt. Het is een constante aanpassing van hoe je informatie benadert, en van welke bronnen je serieus neemt.
De vraag is niet of je AI-content zult tegenkomen, want dat doe je al. De vraag is of je doorhebt wanneer dat het geval is.
Jesse Burger
Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.