Goedkopere modellen, hogere rekening

Een zuinigere auto rijdt geen kortere route. Drie ontwerpkeuzes voordat je vendor je vastzet.

mei 19, 2026

Beslisser kijkt naar AI-kosten dashboard

AI voelt op dit moment goedkoop. Voor twintig euro per maand heb je toegang tot ChatGPT of Claude. Maar wie achter de schermen naar het werkelijke gebruik kijkt, ziet een ander verhaal. Een collega bij hetzelfde bedrijf, met vergelijkbaar gebruik, kost zijn werkgever onder water 200 tot 400 euro per maand op API-tarief. Tien tot twintig keer zoveel. Dat verschil is een verborgen rekening. Iemand anders betaalt hem nu, en ergens komt hij een keer terug.

Die rekening zit niet alleen in het prijsverschil tussen abonnement en API. Hij zit vooral in hoe gebruik zich ontwikkelt zodra AI onderdeel wordt van echte workflows. Wie nu workflows bouwt op een vast abonnementsbedrag, bouwt op subsidieprijzen. Alleen zit het risico niet waar je het misschien verwacht. Per token wordt AI goedkoper, maar tegelijkertijd loopt de totaalrekening op. Dat komt door iets wat in de chatfase nog nauwelijks zichtbaar was.

Twintig euro voor wat onder water vierhonderd kost

Een power user van Claude of ChatGPT in een normale werkdag, denk aan een consultant die documenten samenvat, code review doet, e-mails dicteert en research-vragen stelt, gebruikt grofweg één tot drie miljoen tokens per maand. Op API-tarief van een topmodel kost dat 200 tot 400 euro. Voor twintig euro in het abonnement. De provider neemt het verschil voor zijn rekening, in de hoop dat het gemiddelde gebruik laag genoeg blijft om dat te dragen. Dat is een klassieke loss-leader. Subsidie nu, prijscorrectie later. We hebben dit eerder gezien bij streamingdiensten en bij ride-sharing.

Tegelijk gebeurt het omgekeerde aan de aanbodkant. De prijs per token bij gelijke prestatie daalt op sommige niveaus 9 keer per jaar, op andere bijna 900 keer. Een taak die in 2023 dertig euro aan tokens kostte, doe je vandaag voor enkele centen met een vergelijkbaar capabel model. Gartner verwacht dat de inference kosten richting 2030 nog eens met negentig procent dalen. AI wordt dus per individuele rekensom juist veel goedkoper.

Hoe kan dan de totaalrekening toch stijgen. Daar zit de truc. Een chat-interactie roept het model één keer aan. Een agentic workflow, een AI die zelfstandig stappen zet, roept hetzelfde model tien tot twintig keer aan voor dezelfde taak. Hij leest een document, denkt na, vraagt iets op, herformuleert, controleert zichzelf, schrijft door. Voor één offerte die de gebruiker een minuut tijd kost, draait er aan de achterkant een serie van prompts, tool calls en reasoning-rondes. Tien keer goedkoper per token, twintig keer zoveel tokens. Reken het uit en de rekening verdubbelt. Zelfs als ondertussen de modelprijs blijft dalen.

Hoe extreem dat kan worden zag ik deze week. Peter Steinberger, bedenker van OpenClaw en sinds kort ingelijfd door OpenAI, deelde een screenshot van zijn API-dashboard. Over de afgelopen dertig dagen: 1,3 miljoen dollar aan tokens, 603 miljard tokens, 7,6 miljoen requests. Op een gemiddelde dag deze maand verstookte hij voor bijna twintigduizend dollar.

CodexBar dashboard met API-kosten van een power user

Steinberger zit aan de extreme kant en draait Codex met "Fast Mode" aan. Volgens hemzelf kost dat zo'n zeventig procent extra tokens. OpenAI claimt dat Fast Mode 1,5 keer sneller werkt, maar legt nergens uit hoeveel extra tokens daarvoor nodig zijn. Steinbergers screenshot is voor het eerst dat daar een prijskaartje aan hangt. Anderhalf keer sneller, ruim drie keer duurder.

En, belangrijker, zijn rekening wordt door OpenAI betaalt omdat hij er werkt. Die van jou niet. De power users die nu de toon zetten over wat AI kan, draaien op gesubsidieerde of gratis tokens. Hun workflows worden de blueprint waar normale bedrijven over een jaar achteraan lopen. Hun verbruik wordt de standaard. En als de subsidie wegvalt, ligt jouw rekening klaar.

Een zuinigere auto die je drie keer zo vaak laat rijden. De liter per kilometer gaat omlaag, de tankrekening gaat omhoog. En in tegenstelling tot je auto zie je het bij AI op je dashboard niet gebeuren, want het zit verstopt in een SaaS-licentie of een Copilot-prijsmodel dat je niet zelf in de hand hebt.

Waarom een team van vijftien net zo hard geraakt wordt als een bank

In Amerikaanse analyses gaat dit altijd over de Fortune 500 en hun tonnen aan AI-spend. Voor een Nederlands MKB-bedrijf met tien tot vijftig man voelt dat als ver-van-mijn-bed. Het is dat niet.

Een advocatenkantoor met vijftien fee-earners dat vorig jaar ChatGPT Enterprise heeft uitgerold, betaalt nu enkele duizenden euro's per maand. Goed bestede euro's, want elk uur tijdwinst aan contracten of jurisprudentie-onderzoek verdient zichzelf terug. Tot het moment dat dezelfde leverancier een agent-laag lanceert (en die komt) waarmee een onderzoek dat eerst één call kostte er straks vijftien doet. De rekening loopt op zonder dat het kantoor een knop heeft omgezet, want het zit in dezelfde licentie. En als de licentieprijs over twaalf maanden omhoog gaat omdat de provider zijn marges weer wil pakken, kan dat kantoor niet zomaar over op een andere leverancier. De workflows zitten dan te diep verankerd om los te krijgen.

Tokenmaxers laat op de avond met dashboards en code

Voor een consultancy van dertig man die deliverables met Claude bouwt, geldt hetzelfde. Voor een marketingbureau dat campagnes via Copilot draait. Voor een softwarebedrijf van vijftig dat Cursor in de code-pipeline heeft. De afhankelijkheid bouwt zich stil op. Eén vendor, vast tarief, geen meting van wat er echt verbruikt wordt, geen alternatief om naar over te stappen. Er groeit gewoon onzichtbaar iets waar later geen makkelijke uitweg meer voor is.

Wat goed is om te weten. Er is een tegenkracht die in andere analyses te vaak ontbreekt, en die wij in Europa juist sneller omarmen dan andere regio's. Bedrijven hier draaien inmiddels 61 procent van hun tokenvolume op open-source of open-weight modellen, gedreven door soevereiniteit, AVG en de wens om over data en compute zelf de regie te houden. Nederland is in dat plaatje een van de snelst groeiende markten. Wat een paar jaar geleden nog ideologisch klonk, zelf hosten of eigen modellen draaien, is in 2026 gewoon goed kostenmanagement.

In workshops merk ik dat dit voor de meeste mensen nieuw is. De aanname is dat je kiest tussen "doe het zelf, complex" of "neem ChatGPT Enterprise, makkelijk". Maar goed, de middenweg bestaat al en werkt. Een gerouteerde architectuur waarbij eenvoudige taken naar een goedkoop of zelf-gehost model gaan en alleen de zware taken naar een topmodel. Hij vraagt iets meer ontwerpkeuzes vooraf en spaart je daarna jaren onnodige kosten en vendor-lock in.

Meten, optionaliteit, routeren

Dus wat doe je hier nu mee, als beslisser in een bedrijf van tien tot vijftig man. Drie keuzes, in volgorde.

Meet je werkelijke tokenverbruik. Klinkt technisch, valt mee. Je leverancier kan je vandaag een rapport leveren over hoeveel input- en output-tokens elke gebruiker per maand verstookt. Vraag dat op. Bij een API-koppeling staat het al in het dashboard. Bij Copilot of een SaaS-tool moet je er soms expliciet naar vragen. Zonder die nul-meting weet je over zes maanden niet of je rekening met twintig procent of met tweehonderd procent is gestegen, en zonder dat weet kun je geen gesprek voeren over wat redelijk is. Zet één persoon, een controller of operations-lead die met cijfers kan omgaan, voor twee uur op deze taak. De output is een eenvoudig overzicht. Hoeveel tokens per gebruiker per maand, welke use cases zijn de grootverbruikers, en wat zou hetzelfde verbruik op API-tarief van een goedkoper model kosten. Dat laatste sommetje is je vergelijkingspunt voor alle gesprekken die hierna komen.

Bouw vendor-optionaliteit in. Optionaliteit is een ontwerpkeuze die je vooraf maakt. Wie zijn prompts en zijn data hard in één leverancier verankert (denk aan vendor-specifieke fine-tunes, eigen connectoren die alleen met OpenAI praten, of agents die alleen het tool-format van Claude begrijpen), bouwt een uitgang die hij later niet meer heeft. Wie diezelfde prompts en data via een open laag routeert, met tools als LiteLLM, Ollama, Open WebUI of een eigen wrapper, kan morgen een tweede model erbij hangen en overmorgen een derde. Dat kost in week één misschien een dag extra werk. Het levert in jaar twee een onderhandelingspositie op die het verschil maakt tussen vier euro per gebruiker per maand en veertig.

Routeer baseload naar kleinere modellen. Niet alle taken vragen een topmodel. Documentensamenvatting, classificatie, eenvoudige extractie, eerste-versie-mails. Dat draait prima op een kleiner of open-source model dat op je eigen infrastructuur of via een Europese provider draait. Reserveer het topmodel voor wat redeneerkracht vraagt, dezelfde gewone logica als waarom je geen Tesla pakt om een brood te halen. De combinatie van een eigen basis-laag met een topmodel-laag erbovenop is vandaag de standaard-architectuur bij elke organisatie die serieus met AI bouwt. Voor een Nederlandse bank en voor een consultancy van twintig man werkt dezelfde opzet.

Eigenlijk is dit ook waarom ik dit stuk schrijf. De rekening komt sowieso. Wie nu meet, architectuur kiest en alternatieven openhoudt, kan hem dragen en houdt de regie. Wie geen van de drie doet, krijgt hem ineens in volle omvang, en op een moment dat de workflows te diep verankerd zitten om weg te bewegen. Dat is het verschil tussen een ontwerpkeuze en een abonnement.

Ook het vermelden waard

Amazon-werknemers spelen het tokenmaxxing-spel Amazon legt developers op om wekelijks AI te gebruiken en houdt token-leaderboards bij per medewerker. Werknemers automatiseren nu onnodige taken via MeshClaw (een interne kopie van OpenClaw) om hun nummers omhoog te krijgen. Een waarschuwing voor elk bedrijf dat AI-adoptie wil sturen met dashboards. De metriek wordt al snel het doel.

GPT-5.5 verbruikt minder tokens en is alsnog duurder De prijs per token van GPT-5.5 ging twee keer omhoog ten opzichte van 5.4, ondanks 19 tot 34 procent token-besparing op lange prompts. Volgens een onafhankelijke analyse betalen gebruikers netto 49 tot 92 procent meer voor hetzelfde werk. Hetzelfde paradox-patroon, alleen dan binnen één model-upgrade.

CostHawk: publieke leaderboard voor token-verbruik Nieuwe tool die Claude Code, Codex en Cursor-gebruikers rankt op token-verbruik. Belangrijker dan het ranking-spel is dat het voor het eerst een publieke benchmark geeft van wat "veel" en "weinig" feitelijk betekenen. Een handig vertrekpunt voor de meting waar dit stuk om vraagt.

DeepSeek vs Claude: de iteratiekosten die niemand telt
Iemand deed de echte som. DeepSeek V4 is per token ongeveer honderd keer goedkoper dan Claude, maar voor complexe taken viermaal duurder in totaal omdat er twee uur extra debug-tijd bijkomt. Conclusie. Een hybride opzet, een goedkoop model voor volume en een top-model voor kwaliteit, bespaart zo'n zestig procent zonder kwaliteitsverlies. Precies de gerouteerde architectuur uit de derde sectie hierboven.

Lees ook

De Nederlandse overheid is nu open source
In negen seconden, drie maanden werk weg

Vind je dit waardevol? Deel het.

Stuur THE HUMAN LOOP door naar één collega die ook met AI bezig is. Voor elke vriend die zich aanmeldt, krijg je gratis maanden premium: inclusief alle Playbooks.

Verwijs een vriend

Concreet:
2 vrienden = 1 maand.
5 vrienden = 3 maanden.
12 vrienden = een half jaar.

Discussie over deze post

Klaar voor meer?