Algoritmes bouwen is wel spannender, maar niet belangrijker dan benchmarks ontwikkelen

Hoe heeft Pythagoras gecheckt of zijn stelling klopte? Waarschijnlijk heeft hij een liniaal gepakt en gemeten of a² plus b² gelijk was aan c². Het sexy gedeelte van Pythagoras’ werk was natuurlijk het bedenken van de stelling, niet het achteraf meten of de stelling klopte. Maar om te meten of de stelling klopte, was een meetinstrument (de liniaal) wel onmisbaar. Liniaalfabriek Samos krijgt echter geen credits voor Pythagoras’ ontdekking.

De wereld van A.I. kan zich niet ontwikkelen zonder haar eigen liniaals. Computerwetenschappers stellen zogenaamde benchmarks samen, waarmee kan worden getoetst of een model de taak waarvoor het gebouwd is goed kan voltooien. Het is niet het meest sexy onderdeel van Artificial Intelligence om deze tests te ontwikkelen; het is indrukwekkender om in de kroeg te vertellen “Ik bouw een algoritme dat tumoren op longfoto’s kan identificeren” dan “Ik ontwikkel tests om te bepalen of een algoritme dat iemand anders heeft gemaakt goed werkt”.

Dus ondanks het grote belang van benchmarks, voelen mensen die zich bezig houden met Machine Learning vaak weinig incentives om benchmarks te gaan ontwikkelen. Er hangt gewoonweg meer glamour en publiciteit om het ontwikkelen van nieuwe algoritmes dan om het ontwikkelen van benchmarks om deze algoritmes te testen.

Er zijn wel wat mensen die zich met het belangrijke werk van benchmarkontwikkeling bezighouden. En dat het van groot belang is in de ontwikkeling van het vakgebied is evident; de strijd tussen A.I. ontwikkelaars om de hoogste scores op de benchmarks te halen heeft gezorgd voor grote sprongen voorwaarts in A.I.

Hele goede benchmarks om modellen te testen zijn dus onmisbaar in de evaluatie van modellen. Maar niet alle benchmarks zijn – door de gebrekkige aandacht die er uitgaat naar de ontwikkeling ervan – heel goed. Regelmatig blijkt heel goed scoren op een benchmark geen garantie te zijn voor heel goed scoren in de echte wereld. Een bekend voorbeeld hiervan is een experiment, waarin een paar stickers op een stopbord werden geplakt, waarna een beeldherkenningsalgoritme het plots als een 45mph-bord las. Dan doet je zelfrijdende auto iets heel anders dan stoppen!

Waarom presteren modellen in de echte wereld vaak slechter dan op de benchmarks? Dat komt vooral doordat modellen op zoek gaan naar ‘shortcuts’. In een eerdere post ging ik in op de slechte resultaten die geboekt werden door modellen die de ernst van een Covid-besmetting moesten inschatten op basis van longfoto’s. Vaak lagen shortcuts aan die fouten ten grondslag. De modellen baseerden de ernst van een besmetting bijvoorbeeld op het lettertype dat op de foto stond, omdat het ziekenhuis waar de ziekste patiënten lagen een ander lettertype op de longfoto’s had staan dan andere ziekenhuizen. Een goede benchmark zou dit soort shortcuts er meteen uit moeten halen.

De oplossing voor het probleem met benchmarks ligt uiteraard niet in het stoppen met benchmarks, maar in het verbeteren ervan. Je kunt een model dat de benchmark glorieus heeft doorstaan in de echte wereld aan de slag laten gaan en kijken waar het de fout in gaat. Op basis van die input kan de benchmark weer gericht aangescherpt worden. Het zou goed zijn als A.I. als vakgebied meer van haar ‘best and brightest minds’ in zou zetten in de ontwikkeling van benchmarks voor maatschappelijk belangrijke algoritmes, in plaats van alle nadruk te leggen op het ontwikkelen van nieuwe modellen.

Betere benchmarks leggen de lat voor algoritmes hoger. Ze zorgen echt voor betere algoritmes, waardoor fouten (en bias!) uit de modellen gehaald kunnen worden voordat deze uitgerold worden. Dat kan een hoop slechte geautomatiseerde besluiten schelen.

Advertentie

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

%d bloggers liken dit: