Jesse Burger
Terug naar blog
Technologie·Multimodaal

De Opkomst van Multimodale AI

Jesse Burger··7 min leestijd
§

Toen GPT-4V uitkwam, stuurde ik een foto van een ingewikkeld schaakbord naar het model. Een eindspel dat ik niet kon ontwarren. Het model analyseerde de positie, noemde de juiste zet, en legde de redenering erachter uit.

Dat was niet indrukwekkend omdat het schaak kon spelen. Het was indrukwekkend omdat het zag wat er op het bord stond.

Dat is precies wat multimodale AI doet: het breekt met de beperking dat een model alleen tekst begrijpt. Steeds meer modellen kunnen nu tegelijkertijd redeneren over beelden, geluid en video. En dat heeft gevolgen voor hoe we met computers omgaan.

Wat maakt AI "multimodaal"?

Traditionele taalmodellen waren tekstmachines. Je gaf ze woorden, zij gaven woorden terug. De wereld was voor hen een vlakke stroom tokens.

Multimodale modellen doorbreken die beperking. Ze verwerken en genereren meerdere modaliteiten tegelijk: tekst, afbeeldingen, audio en video. Het gaat daarbij niet om losse modules die apart van elkaar werken, maar om modellen die geleerd hebben verbanden te leggen tussen die modaliteiten. Een afbeelding van een huilend kind combineren met de beschrijving "rustig en gelukkig" en de tegenstrijdigheid herkennen: dat is iets wat een puur taalmodel niet kan.

De technische basis is niet bijzonder mysterieus. Het zijn architecturen, veelal gebaseerd op Transformers, die via encoders verschillende inputtypen omzetten naar een gedeelde representatieruimte. Eenmaal in die gedeelde ruimte kunnen patronen dwars door modaliteiten heen worden herkend.

Een nuttige analogie: een mens die een film kijkt combineert beeld, geluid en gesproken taal simultaan tot één begrip. Multimodale AI streeft naar hetzelfde.

De modellen die het landschap bepalen

GPT-4V en visueel begrip

OpenAI bracht GPT-4 relatief vroeg met visuele mogelijkheden. GPT-4V kan afbeeldingen interpreteren, grafieken lezen, handgeschreven notities ontcijferen en visuele context begrijpen.

Wat opvalt is de breedte van dat begrip. Je kunt het een foto sturen van een recept op een krijtbord en het geeft je niet alleen de ingrediënten, maar redeneert ook over bereidingstijd en mogelijke allergenen. Het model begrijpt de context van de afbeelding, niet alleen de losse pixels.

Met GPT-4o zijn daar ook audio en spraak bijgekomen, waardoor gesprekken in realtime plaatsvinden met een model dat zowel hoort als antwoordt. De demovideo's lieten zien hoe een model een wiskundeopgave op een vel papier leest terwijl je het hardop uitlegt. Nuttig, en soms een beetje ongemakkelijk.

Google Gemini: van de grond af multimodaal

Google koos een andere aanpak. Waar GPT-4V een bestaand taalmodel uitbreidde met visuele capaciteiten, is Gemini van de grond af ontworpen als multimodaal systeem. Dat klinkt als een technisch detail, maar het maakt een verschil in hoe vloeiend het model tussen modaliteiten beweegt.

Gemini Ultra scoorde bij lancering hoger dan GPT-4 op een groot deel van de standaard benchmarks, inclusief de MMMU (Massive Multitask Multimodal Understanding), een test die vereist dat een model complexe vragen beantwoordt die zowel tekst als afbeeldingen combineren.

Gemini is bruikbaar voor het analyseren van dia's uit presentaties en het samenvatten van YouTube-video's. De videoanalyse is opvallend: het model bekijkt niet simpelweg een screenshot, maar redeneert over de tijdlijn van een video, inclusief beweging, overgang en gesproken woord.

Claude: voorzichtigheid als kenmerk

Anthropic's Claude heeft visuele capaciteiten die zich goed lenen voor technische analyse: het lezen van systeemdiagrammen, het interpreteren van foutmeldingen in screenshots, het vergelijken van UI-mockups.

Wat bij Claude opvalt is de voorzichtigheid. Waar andere modellen soms hallucineren over wat ze zien, details toevoegen die er niet zijn, is Claude meer geneigd te zeggen: "Ik zie X, maar dit gedeelte is onduidelijk." Dat is in professionele contexten waardevol. Je wilt niet dat een model vol zelfvertrouwen de verkeerde tekst uit een contract leest.

Multimodaal is niet hetzelfde als alwetend

Een veelgemaakte fout is om multimodale modellen te behandelen als fotografische geheugens. Ze herkennen patronen en redeneren over beelden, maar ze kunnen net zo goed fouten maken als met tekst. Visuele hallucinaties bestaan. Een model dat een grafiek beschrijft kan getallen fout lezen, verhoudingen misinterpreteren of elementen verzinnen die er niet zijn. Controleer altijd kritische visuele informatie.

Audio en video: de volgende stap

Beeld is inmiddels redelijk ingeburgerd. Audio en video zijn dat nog niet, al gaan de ontwikkelingen snel.

Met Whisper bewees OpenAI al vroeg dat spraakherkenning op hoog niveau mogelijk is met een open model. De echte stap is wanneer spraakherkenning en -begrip worden geïntegreerd in het taalmodel zelf, in plaats van als losstaande stap ervoor. GPT-4o laat horen hoe dat klinkt: een gesprek met nuance, toon en timing.

Video is de volgende grens. Sora van OpenAI liet zien hoe ver videogeneratie al is. Maar videoanalyse is minstens zo interessant: het begrijpen van wat er in een video gebeurt, welke objecten er aanwezig zijn, hoe een scène zich ontwikkelt. Google Gemini 1.5 Pro kan video's van meer dan een uur verwerken. De toepassingen zijn concreet: een model dat een collegereeks doorneemt en de kernconcepten identificeert, of security-camerabeelden analyseert op afwijkingen.

Wat dit verandert aan mens-computerinteractie

De dominante interface van de afgelopen decennia was de WIMP-interface: Windows, Icons, Menus, Pointer. Je klikte, je typte, je navigeerde door hiërarchieën. Je leerde een kunstmatige taal: de taal van de computer.

Multimodale AI draait dat om. De computer begrijpt nu onze taal, gesproken, geschreven én visueel. Je hoeft geen formulier in te vullen om een bonnetje te verwerken; je maakt een foto en vraagt wat het totaalbedrag is en of je het kunt aftrekken als bedrijfskosten. Je hoeft niet te weten hoe je een grafiek bouwt; je stuurt je spreadsheet en vraagt om een overzicht met de trends van de afgelopen kwartalen.

De interface wordt dunner. Wat overblijft is de intentie.

De onzichtbare interface is niet altijd beter

Er zit ook een risico aan het verdwijnen van expliciete interfaces. Wanneer je via een formulier werkt, weet je precies welke informatie je invoert en wat ermee gebeurt. Wanneer je een gesprek voert met een AI, is de verwerking minder zichtbaar. Dat vraagt om bewustzijn over wat je deelt en hoe AI met je data omgaat.

Embodied AI: de bouwsteen voor iets groters

Kijk verder vooruit, dan wordt multimodale AI de basis voor systemen die niet alleen redeneren over de wereld, maar er ook in opereren. Robots die instructies begrijpen in gesproken taal terwijl ze visueel de omgeving scannen. Brillen die augmented reality combineren met een model dat ziet wat jij ziet en in realtime uitleg geeft. Medische apparatuur die sensordata combineert met patiëntgeschiedenis.

De bouwblokken liggen er al. GPT-4o kan nu een gesprek voeren terwijl het een live camera-feed analyseert. De vraag is niet meer of dit mogelijk is, maar hoe het zich verder ontwikkelt en welke grenzen we als samenleving daaraan stellen.

De alledaagse toepassingen

Al die grotere toepassingen buiten beschouwing, zijn het juist de alledaagse dingen die laten zien waar het om gaat.

Iemand met dyslexie die een foto maakt van een handgeschreven brief van zijn verzekeraar, en het model legt in heldere taal uit wat er staat en wat hij moet doen. Een designer die een schets op papier fotografeert en direct feedback krijgt op de informatiehiërarchie. Iemand die via een tablet een foto van zijn medicijnen stuurt en vraagt wanneer hij wat moet nemen.

Dit zijn geen spectaculaire demonstraties. Maar dit is wel waar de technologie concreet iets verandert.

Multimodale AI verlaagt drempels. Het maakt computers toegankelijker voor mensen die visueel denken, liever praten dan schrijven, of nooit hebben geleerd te typen zoals anderen dat doen. Naast alle benchmarks is dat misschien de meest opvallende belofte van deze technologie.

§
JB

Jesse Burger

Schrijft over kunstmatige intelligentie, de impact op ons dagelijks leven, en de toekomst van technologie.