Luchtfoto’s ingezet om de bevolking te tellen

De Amerikaanse census (in mooi Nederlands ‘volkstelling’) vormt de basis voor de allocatie van belastinggeld en wordt gebruikt om de plaatsen in het House of Representatives te verdelen. Het is dan ook een politiek beladen telling, waarvan de invulling groot effect kan hebben op de macht van de verschillende partijen.

De census wordt eens in de 10 jaar uitgevoerd. En het is geen klein klusje om honderden miljoenen mensen te tellen. Zeker niet door mensen op pad te sturen om deze tellingen woning voor woning uit te voeren, wat tot en met 2010 gebruikelijk was.

Daarom wordt gekeken naar digitale (en daarmee goedkopere) oplossingen. Bij de meest recente telling in 2020 werden bijvoorbeeld nieuwe bouwprojecten op satellietfoto’s geïdentificeerd, wat 5 miljoen extra adressen toevoegde aan de lijst van huishoudens.

Toch zat de census van 2020 er op veel plaatsen nog naast. En niet evenredig. Native Americans, Hispanics en Latino’s werden bijvoorbeeld ongeveer 5% te laag ingeschat. Dat is oneerlijk, omdat daardoor staten met een grote Latino populatie (zoals Arizona, Texas en Florida) een te laag aantal zetels in het House of Representatives kunnen krijgen.

Niet alles is zichtbaar uit de lucht

Het gebruik van software en satellietfoto’s om het masterbestand met adressen te updaten is niet zonder nadelen. Je kunt op een satellietfoto niet zien wat er in de gebouwen precies gebeurt. Onder één dak kunnen woningen in meerdere kleinere compartimenten worden verdeeld zonder dat je dat aan de buitenkant kunt zien. Wat de verdeling binnen is kun je alleen maar zien als er iemand echt naar de adressen toe gaat, zoals dus tot 12 jaar geleden gebruikelijk was.

Deep learning modellen die de omvang van de populatie inschatten op basis van satellietfoto’s overschatten doorgaans de omvang van populaties in landelijke omgevingen en onderschatten deze in stedelijke gebieden. Dit hangt volgens analyses van MIT vooral samen met het moeilijk kunnen inschatten van de exacte hoogte van gebouwen.

Niet perfect, wel bruikbaar

Maar problemen zijn er om op te lossen. Als je kunt inschatten waar de modellen de fout in gaan, kun je gerichte verbeteringen in het model doorvoeren. Zo kun je steeds dichter bij de werkelijkheid komen. Er is nog veel tijd om verbeteringen door te voeren voordat het 2030 is en dus een nieuwe census moet worden uitgevoerd.

En laten we niet vergeten: als een modernisering niet meteen een perfect resultaat levert, kan het nog steeds bruikbaar zijn. In 2017 gebruikte de Nigeriaanse overheid (gesteund door de Bill & Melinda Gates Foundation) satellietfoto’s en machine learning om de geografische verdeling van de populatie in kaart te brengen. Dit werd gebruikt om vaccins tegen de mazelen te verdelen. Sindsdien is ditzelfde initiatief in 5 andere Afrikaanse landen ingezet. Het systeem werkt niet perfect, maar het is een stuk beter dan gokken.

Afweging tussen accuratesse en kostenbesparing

Uiteindelijk is het al dan niet inzetten van een model een afweging tussen kosten en baten. Misschien krijg je een telling op basis van satellietfoto’s niet op hetzelfde niveau van accuratesse als een telling door mensen die met een kladblokje alle straten en buurtschappen afstruinen. De keuze die gemaakt moet worden is hoe klein het verschil in accuratesse moet zijn. Als de uitkomsten van het Census model een paar procent afwijken van die van de echte ‘in person’ tellingen, is het dan nog opportuun om honderden miljoenen aan het old school tellen te besteden?

Machine learning modellen zijn tools om zaken te verbeteren, bijvoorbeeld in de vorm van kostenbesparingen. Hoe de afweging tussen accuratesse en kostenbesparingen wordt gemaakt, dát zou de vraag moeten zijn. Helaas wordt deze vraag in het gepolariseerde Amerika niet door iedereen als uitgangspunt genomen, maar wordt de mening gekleurd door de te verwachten effecten van een verhoging van de accuratesse. Het kan één van de partijen goed uitkomen als Florida of Texas minder te zeggen heeft, omdat haar bevolking onderschat wordt. Bijvoorbeeld omdat die partij het slecht doet bij Latino’s.

Dit principe van geanticipeerde uitkomsten kan zich ook in jouw organisatie voordoen, op – naar ik aanneem – wat kleinere schaal. Het kan uitdagend zijn voor de data professional om onpartijdig te blijven, maar daar zit juist je meerwaarde. Als je van tevoren weet wat de uitkomst moet zijn, dan lukt dat altijd wel. Er zijn ex-wetenschappers die je heel goed uit kunnen leggen hoe dat werkt! Maar jezelf voor het karretje laten spannen zorgt ervoor dat je het paard achter de wagen spant; een vreemd plaatje!

Advertentie

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

%d bloggers liken dit: