Statistische significantie kan ons beeld vertroebelen met onwerkelijke verbanden

Je herkent het misschien: je koopt meer boeken dan je kunt lezen. Vakantie is dan altijd een prima gelegenheid om te kijken welke van de boeken die je ongelezen in de boekenkast aan staan te kijken je gaat lezen.

Het boek dat me het meest aan het denken heeft gezet deze zomer is The Data Detective van Tim Harford. En wat me vooral hoofdbrekens heeft bezorgd, is de gedachtegang waarin statistische significantie in wetenschappelijk onderzoek min of meer failliet wordt verklaard.

Nou ja, niet helemaal failliet, omdat er geen (beter) alternatief is. Maar er zijn wel problemen met deze manier van toetsen, zo wordt duidelijk uiteen gezet in The Data Detective. En dat zit hem vooral in wat publication bias wordt genoemd. Wetenschappelijke journals kiezen voor artikelen die enerzijds statistisch significante resultaten overleggen en anderzijds op enige wijze opzienbarend zijn. Het is niet spannend om te publiceren dat mensen op basis van onderzoek niet in de toekomst blijken te kunnen kijken. Als je wél statistisch significant aantoont dat mensen in de toekomst kunnen kijken, dan is dat veel spannender om te publiceren. Want: opzienbarend én statistisch significant.

Het is geen verzonnen voorbeeld; er is echt een studie in 2011 gepubliceerd in het Journal of Personality and Social Psychology, waarin statistisch significante resultaten werden gepresenteerd dat mensen in een experimentele setting in de toekomst bleken te kunnen kijken. Het probleem dat zich achteraf echter voordeed was, dat deze studie bij herhaling door andere onderzoekers niet dezelfde resultaten gaf. Mensen bleken toch niet in de toekomst te kunnen kijken (goh, wat een verrassing).

Het hele probleem zit hem in de hoepel ‘statistisch significant’ waar onderzoekers doorheen moeten springen. Resultaten worden in de wetenschap doorgaans als significant betiteld als de kans dat het gevonden effect gebaseerd is op toeval kleiner is dan 5%. Maar stel dat een journal 100 papers ontvangt met significante resultaten op dat ‘5%-niveau’. Dan kunnen er zomaar 5 papers tussen die 100 zitten die puur op basis van toeval significante resultaten bevatten. En juist de studies waar hele opzienbarende resultaten uit komen, zouden wel eens tussen die 5 studies met op toeval berustende resultaten kunnen zitten.

De publication bias zorgt er zo voor dat er relatief heel veel opzienbarende resultaten in journals terecht komen, die bij nader inzien puur op toeval berusten. Dat betekent niet dat de wetenschappers iets verkeerd hebben gedaan of dat de peer reviews niet kloppen; het is ingebakken in het werken met statistische significantie op deze manier. De schattingen lopen uiteen, maar het heeft er alle schijn van dat ongeveer de helft van alle publicaties in het sociaalwetenschappelijke spectrum niet repliceerbaar zijn.

Maar wat dan? Ik kan zelf geen betere methode bedenken dan testen op statistische significantie. Wel zou er bij opzienbarende resultaten gekeken kunnen worden of er vóór publicatie al aan replicatie gedacht kan worden. 2 keer achter elkaar een statistisch significant resultaat kan in veel minder gevallen op toeval berusten; 5% maal 5% is 0,25% (1 op 400). Dat ziet er een stuk betrouwbaarder uit dan 1 op 20. Misschien minder opzienbarende artikelen in de journals als dit doorgevoerd zou worden, maar wel artikelen met daadwerkelijk kloppende resultaten!

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

%d bloggers liken dit: