Kennis van de markt is essentieel bij het design van algoritmes

Artificial Intelligence wordt ingezet bij het beantwoorden van een scala aan vragen binnen vrijwel alle denkbare vakgebieden. Zo ook in de medische wereld (mocht je daar een boek over willen lezen, dan is Deep Medicine van Eric Topol een absolute aanrader!).

Tijdens de Covid pandemie zijn er heel snel heel veel Machine Learning algoritmes ontwikkeld. Veel artsen wisten nog weinig van Covid-19 en hoe met deze patiënten om te gaan, zodat een beter begrip van wat er precies met een patiënt aan de hand was kon helpen bij de behandeling. Helaas kwam het Britse The Alan Turing Institute tot de conclusie dat geen enkel algoritme echt had geholpen. Wat ging er mis?

Zoals in de meeste gevallen waarin een algoritme niet doet wat we hadden gewild, is het vooral misgegaan in de design fase. Oftewel: welke data voeden we ons model en welke output willen we dan van het model krijgen? In het geval van Covid-19 ging het met name om longfoto’s als data (waar in de trainingsfase vanzelfsprekend aan het algoritme werd meegegeven of het een Covid-patiënt betrof of niet) en om een diagnose ‘Covid’ of ‘Geen Covid’ óf een inschatting van de ernst van de situatie als output. Uitgangspunt bij de data moet dan wel zijn, dat je een zuivere vergelijking kunt maken tussen de mensen die bij de longfoto’s horen. Maar daar ging het in veel gevallen mis.

Er was bij één model bijvoorbeeld een grote set longfoto’s gebruikt, waar ook longfoto’s van kinderen tussen zaten. Kinderen kregen – zeker bij de eerste varianten – zelden Covid. Dus wat leerde het algoritme? Dat leerde longfoto’s van kinderen te onderscheiden van die van volwassenen.

Een ander voorbeeld betrof foto’s van patiënten die in sommige gevallen staand waren gefotografeerd en in andere gevallen liggend. Omdat het maken van een longfoto in liggende toestand vaker gebeurt als de patiënt ernstig ziek is (en dus moeite heeft om te staan), leerde het model hier om longfoto’s van staande en liggende mensen te identificeren.

En een laatste voorbeeld betrof een algoritme dat foto’s van verschillende ziekenhuizen als trainingsdata had gekregen. Omdat deze ziekenhuizen verschillende typen apparaten gebruikten om de longfoto’s te maken, verschilden de lettertypen die mee werden geprint op de foto’s. Omdat patiënten in het ene ziekenhuis er vaak ernstiger aan toe waren dan patiënten van het andere ziekenhuis, leerde het model om lettertypen te gebruiken bij de inschatting van de ernst van de situatie.

Kortom: de modellen werden getraind op de verkeerde data. In de designfase is hier dus foutief de aanname gemaakt dat de data zuiver was om een model op te bouwen dat (potentieel) ernstig zieke Covid-patiënten kon identificeren. In werkelijkheid leerden de modellen dus om volwassenen, liggende patiënten en lettertypen te identificeren. Dat is niet de schuld van het algoritme, dat doet precies wat het goed kan: patronen zoeken. Zoals al eens in het FD stond: het algoritme de schuld geven is alsof je in de spiegel kijkt en de spiegel de schuld geeft dat je lelijk bent.

Dit is een signaal dat we ook regelmatig in reguliere business omgevingen zien. Als je data ontvangt en die als een representatie van de zuivere waarheid gaat gebruiken om een model te trainen, kun je zonder businesskennis de mist in gaan. Data professionals en ‘de business’ moeten in elk dataproject elkaar vinden om gezamenlijk een passend algoritme te kunnen bouwen.

Advertentie

Eén reactie op “Kennis van de markt is essentieel bij het design van algoritmes”

  1. […] dan op de benchmarks? Dat komt vooral doordat modellen op zoek gaan naar ‘shortcuts’. In een eerdere post ging ik in op de slechte resultaten die geboekt werden door modellen die de ernst van een […]

    Like

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

%d bloggers liken dit: