Gisteravond was ik aanwezig bij de derde bijeenkomst van Leren van Diversiteit & Innovatie in The Playing Circle aan de Achtergracht in Amsterdam. Geen idee of het een bewuste keuze is geweest, maar dit is op loopafstand van De Nederlandsche Bank waar dit keer Arnoud Boot, hoogleraar corporate finance en financiële markten aan de Universiteit van Amsterdam, de gastspreker was met als onderwerp “Meten is (niet) weten.”
We zitten volgens Arnoud Boot in een fase waarin de verwachtingen van kunstmatige intelligentie (AI) hoog zijn. Boot vergeleek dat gevoel met de dotcom-periode rond 2000. Toen ging ook van alles heel snel omhoog, terwijl niemand precies wist wat de waarde en risico’s werkelijk waren. Zijn punt was niet dat AI hetzelfde pad zal volgen, maar dat de reflex herkenbaar is. Onzekerheid wordt vaak beantwoord met meetbaarheid, en meetbaarheid wordt al snel verward met houvast.
Arnoud Boot maakte duidelijk dat het niet alleen gaat om corporate finance en financiële markten, maar om een bredere bestuurlijke en organisatorische gewoonte om te sturen op wat meetbaar is. Hij verwees daarbij naar de McNamara-fallacy en Goodhart’s law.
De McNamara-fallacy is de denkfout waarin we alleen sturen op wat makkelijk meetbaar is en alles wat lastiger te vangen is in cijfers negeren. Het klinkt rationeel, maar het versmalt de werkelijkheid. Je ziet het wanneer organisaties helemaal opgaan in KPI’s, dashboards en rankings, terwijl morele afwegingen, menselijk gedrag, vertrouwen of context buiten beeld vallen. Het idee is gekoppeld aan Robert McNamara, die tijdens de Vietnamoorlog succes vooral afmat aan body counts, waardoor politieke dynamiek en maatschappelijke steun nauwelijks meegewogen werden. Als je alleen kijkt naar cijfers, zie je vooral wat telbaar is, niet wat telt. In beleid en organisaties leidt dat tot perverse prikkels, tunnelvisie en het verdringen van professioneel oordeel. Het echte risico is dat je denkt dat je grip hebt op de werkelijkheid, terwijl je in feite vooral je meetinstrumenten optimaliseert.
Goodhart’s law zegt dat een maatstaf onbetrouwbaar wordt zodra je hem als doel gaat gebruiken. Een KPI die ooit bedoeld was om iets zichtbaars te maken, gaat het gedrag zelf bepalen. Mensen optimaliseren dan voor het cijfer, niet voor de werkelijkheid. Het gevolg is mooie rapportages, maar een verslechterende praktijk.
Arnoud Boot legde uit hoe meetregimes kuddegedrag veroorzaken. Als toezichthouders naar de financiële sector kijken met een bepaalde bril, en die bril wordt overgenomen door instellingen en hun adviseurs, dan gaat iedereen sturen op dezelfde meetbare grootheden. Mensen optimaliseren wat gemeten wordt en negeren wat niet gemeten wordt. Crises ontstaan vaak door wat niet in het model zat, door wat tussen de mazen van toezicht en metrics glipt.
Deze problematiek is buitengewoon breed, aldus Boot, en leidt tot kortzichtige beslissingen omdat langetermijneffecten, zoals klimaateffecten, moeilijker te meten zijn, en omdat sturing op BBP bij landen of op winst en aandelenkoers bij bedrijven die bias zelfs heeft geïnstitutionaliseerd.
Om dit te illustreren gebruikte Boot een grafiek uit de financiële sector. Om eerlijk te zijn ging hij voor mij hier veel te diep, maar gelukkig is daar Perplexity die me al snel kon vertellen dat de grafiek uit een rapport van het Advisory Scientific Committee van de European Systemic Risk Board komt, zodat ik het nog eens rustig kon nalezen.
De grafiek laat zien dat twee belangrijke kapitaalindicatoren in de loop der tijd hun samenhang verliezen. De eenvoudige hefboomratio (E/TA) meet hoeveel eigen vermogen er tegenover de totale balans staat. De risicogewogen Tier-1-ratio (T1/RWA) doet in principe hetzelfde, maar corrigeert voor risico’s op basis van modellen en wegingen die banken voor een deel zelf bepalen.

Tot eind jaren negentig bewogen beide cijfers vrijwel parallel. Een bank met veel eigen vermogen had ook een hoge gereguleerde Tier-1-ratio. Vanaf begin jaren 2000 verdwijnt die relatie echter snel, vooral bij de grootste banken. De correlatie wordt zwak en rond 2010 zelfs negatief. Dit duidt erop dat risicowegingen steeds strategischer werden ingezet. Banken konden een sterke T1/RWA-ratio rapporteren terwijl hun feitelijke leverage opliep. De risicogewogen ratio verloor daarmee een aanzienlijk deel van haar informatiewaarde als indicator van robuustheid.
Boot beschreef hoe banken interne risicomodellen mogen gebruiken om de risico’s van hun activiteiten terug te brengen tot één getal dat bepaalt hoeveel buffers ze moeten aanhouden. Toezichthouders controleren die modellen, maar Boot benadrukte de keten die vervolgens ontstaat. Consultants zien bij bank A een model dat is goedgekeurd en brengen dat als beproefde oplossing naar bank B. Daarmee verspreidt niet alleen het model, maar ook de onderliggende aannames: welke risico’s neem je mee, welke laat je weg en hoe weeg je ze? Omdat die keuzes niet eenduidig zijn, wordt het gevaarlijk als iedereen ze kopieert. Bij één bank kun je nog corrigeren, maar als iedereen tegelijkertijd hetzelfde vergeet, kan het systeem als geheel gaan schuiven en uiteindelijk leiden tot een crash.
Boot liet zien waarom taal er toe doet en terminologie de werkelijkheid kan verbergen. Zijn voorbeeld uit de aanloop naar de financiële crisis ging over het verkopen van posities met een ogenschijnlijke risico-overdracht, terwijl er via garanties risico’s terug konden keren naar de bank zodra het spannend werd. Op papier leek het risico weg, in stress kwam het terug. Een constructie kan onder een label als liquiditeitsgarantie minder alarmerend klinken dan wat het economisch betekent.
Dit sturen op verkeerde parameters gebeurt niet alleen in de financiële wereld, maar zien we overal. Boot verwees onder andere naar de academische wereld waar het aantal publicaties of de omvang van je proefschrift steeds meer een criterium is. Als het aantal pagina’s van het proefschrift een promotiecriterium wordt, verdwijnt de relatie tussen pagina’s en kwaliteit omdat mensen zich gaan richten op volume. Ook het Amsterdamse grachtenpandvoorbeeld kwam langs. Als belasting afhankelijk is van de breedte van een pand, gaan mensen smaller bouwen. Dat is gaming, gedrag dat ontstaat doordat de maatstaf het doel wordt.
Meten en modelleren moeten we blijven doen, aldus Boot, maar de uitkomst mag nooit een dwingend voorschrift worden. Wat uit metingen en modellen komt, is het begin van het nadenken. Het is input. Zodra een uitkomst dicteert wat beleid moet zijn, volgen manipulatie en het negeren van andere relevante feiten die toevallig niet meetbaar zijn. Een model is een versimpeling van de werkelijkheid, en de waarde zit in het denken over wat niet in het model staat. Je gebruikt het model als benchmark om de echte wereld beter te bevragen, niet om de echte wereld te vervangen.
Boot ging ook in op geïnstitutionaliseerde meting in de maatschappij. Hij nam het Bruto Binnenlands Product (BBP of GDP) als voorbeeld van een grootheid die beleidstaal geworden is, met groeicijfers als standaardvergelijking tussen landen. Vervolgens gaf hij het voorbeeld van Japan na de grote aardbeving en kerncentraleproblemen. Het jaar erna was de BBP-groei hoog door herstel vanaf een laag basisniveau, terwijl het land objectief slechter af was. Hij gebruikte dat voorbeeld om twee beperkingen van BBP tastbaar te maken. Het zegt weinig over de kwaliteit van welvaart en bijna niets over zaken als duurzaamheid en nalatenschap. Je kunt sturen op BBP, maar dat maakt nog niet dat je bestuurt op wat je maatschappelijk belangrijk vindt.
Ook in Nederland zien we deze voorbeelden zoals het beleid in Den Haag dat is gekoppeld aan de gemeten groei van de financiële sector als aandeel van het nationaal inkomen. Boot noemde hoe de sector volgens statistieken groeide van ongeveer 4% naar 8% in grofweg twaalf tot vijftien jaar, met meer werkgelegenheid en hogere salarissen. Deze cijfers worden beleidsmatig geïnterpreteerd als toegevoegde waarde en dus als reden om de financiële sector als topsector te zien. Belangrijk voor Nederland. Maar wat is de werkelijk toegevoegde waarde van de financiële sector eigenlijk, en kun je die wel meten?
Boot wees hierbij naar het WRR-rapport Geld en schuld: de publieke rol van banken uit 2019, waar hij aan heeft meegewerkt en waarin wordt onderzocht hoe het Nederlandse geldstelsel werkt en wat er misgaat.
Ook hier ging Boot voor mij af en toe te diep. Ik merkte dat ik vooral gefrustreerd raakte over het feit dat iedereen, van wetenschappers als Boot tot bestuurders en toezichthouders, allemaal weten wat er speelt en niemand verantwoordelijkheid lijkt te nemen.
Het voorbeeld van ING dat Boot noemde, waar het eigen vermogen enkele maanden voor het omvallen tijdens de financiële crisis in 2008 op 1,82% stond, terwijl de bank toch aandelen bleef inkopen. Ongelooflijk. Op de vraag waarom gaf Boot aan dat het stoppen met buybacks de markt zou laten denken dat er een probleem is. In slechte tijden kan eerlijk communiceren juist destabiliserend werken, waardoor communicatie haar corrigerende functie verliest.
Op de vraag of er niet een zelfreinigend vermogen is in de sector antwoordde Boot dat de leercurve vaak juist wordt afgebroken zodra de crisis achter de rug lijkt. In goede tijden dereguleren systemen en verzwakken toezichtorganisaties, terwijl discipline juist dan moet worden versterkt.
Boot maakte duidelijk dat de macht niet bij overheid of toezichthouders ligt, maar bij de banken. En eerlijk gezegd begin ik steeds beter te begrijpen waarom steeds meer mensen geen vertrouwen meer hebben in instituties.
Boot had vervolgens nog een paar minuten voor zijn laatste slides waarin hij in hoog tempo enkele andere sectoren noemde en aangaf dat benchmarking en resultaatgericht sturen nuttig kunnen zijn, maar prikkel-problemen oproepen als je niet corrigeert voor context.
In de zorg kan ranglijststuring selectiegedrag uitlokken als je patiëntzwaarte niet corrigeert. In preventie zitten de prikkels structureel scheef omdat kosten direct en zichtbaar zijn, terwijl baten diffuus en later vallen. Hij gaf het voorbeeld dat een ziekenhuis dat echt succesvol preventie organiseert, minder patiënten heeft en daardoor financieel in de knel kan komen. In universiteiten koppelde hij meetfixatie aan publicatiedruk en aan het gemak waarmee digitaal onderwijs als succes wordt gepresenteerd, terwijl welzijn, begeleiding en HR lastiger meetbaar zijn en daardoor vaak onderbelicht blijven.
Dit meten en sturen op de verkeerde parameters leidt volgens Boot tot verstoringen zoals milieu- en duurzaamheidschade, kortzichtigheid bij bedrijven, snel scoren, selfserving gedrag, calculerend gedrag dat solidariteit en het collectief ondermijnt en biased investeringen in de zorg, naast kuddegedrag.
Vrolijk word je niet van de boodschap van Arnoud Boot en eerlijk gezegd gaf het ook niet veel hoop of oplossingsrichtingen voor een positief toekomstverhaal. Zelf vond ik de control-matrix van William Ouchi nog wel interessant omdat het mij inzicht geeft waar ik als strategisch adviseur en toezichthouder nog scherper kan en moet zijn als het gaat over het gebruik van metingen en modellen.

Ouchi’s management control matrix beschrijft hoe organisaties kunnen sturen wanneer ze niet zeker weten of het werk goed meetbaar is of wanneer je onvoldoende grip hebt op hoe het werk precies tot stand komt. Het model combineert twee vragen. Kun je de output betrouwbaar meten, en heb je voldoende kennis van het transformatieproces, hoe input in output verandert, om het te kunnen specificeren en beoordelen?
Wanneer zowel output als proces goed te beoordelen zijn, werkt sturing op resultaten of op het proces. Als output meetbaar is maar het transformatieproces niet goed te specificeren is, ligt resultaatsturing voor de hand. Is het transformatieproces juist wel te specificeren maar de uitkomst lastig te meten, dan helpt processturing. In situaties waar beide beperkt zijn, zoals in veel professionele en publieke domeinen, blijft cultuursturing over. Ouchi noemt dit clan control. Gedeelde waarden, vakmanschap, sociale normering en vertrouwen vormen dan de belangrijkste basis voor coördinatie en kwaliteit.
Het model laat zien dat sturingsproblemen vaak ontstaan wanneer organisaties proberen te meten of te standaardiseren wat daar niet geschikt voor is. Ouchi benadrukt dat passende sturing begint bij een realistische inschatting van het werk zelf.
De belangrijkste lessen die ik meeneem uit de bijdrage van Arnoud Boot is dat meten en modelleren nodig blijven, maar hun uitkomsten moeten als input worden behandeld. Zodra uitkomsten als dictaat gaan functioneren, krijg je voorspelbare neveneffecten. Manipulatie, kortetermijnoptimalisatie, verdringing van waarden die moeilijk te meten zijn en een grotere kans dat systemen tegelijk falen. Beperk de speelruimte voor cosmetische ratio’s en semantische herverpakking, maak systemen waar mogelijk eenvoudiger zodat verborgen risico’s minder kans krijgen en organiseer tegenkracht en toezicht anticyclisch, juist in goede tijden. Voor organisaties in het publieke en private domein betekent dit vooral dat je bewust bepaalt waar meten helpt en waar meten schade doet, en behandel cultuur als expliciet sturingsvraagstuk wanneer output en proces niet goed in cijfers te vangen zijn.
Toch fijn om nog anderhalf uur te moeten reizen na afloop van zo’n avond, zodat je alles nog even goed kunt laten bezinken.
Bronnen
- Ouchi, W. G. (1979). A conceptual framework for the design of organizational control mechanisms. Management Science, 25(9), 833–848.
- Boot, A., & Phlippen, S. (2012, 11 september). Vaar niet blind op ’t CPB. NRC.
- Pagano, M., Langfield, S., Acharya, V., Boot, A., Brunnermeier, M. K., Buch, C., Hellwig, M. F., Sapir, A., & van den, I. (2014, June). Is Europe overbanked? (ESRB Advisory Scientific Committee Reports 2014/4). SSRN.
- Boot, A. (2017, 13 juli). Geen haast maar herbezinning in het corporategovernance-debat. Economisch Statistische Berichten (ESB).
- Wetenschappelijke Raad voor het Regeringsbeleid. (2019). Geld en schuld: De publieke rol van banken (WRR-Rapport nr. 100).
- Buitenhof. (2022, oktober). Waarom we niet elke prijsstijging kunnen wegcompenseren | Arnoud Boot & Sandra Phlippen [Video]. YouTube.
- Boot, A. (2025, 2 december). Meten, modellen en prikkelstructuren in financiële en publieke sectoren [Lezing tijdens de leergang Diversiteit & Innovatie, The Playing Circle, Amsterdam].