Misleiding door statistiek
“Cijfers liegen niet”. Een logische gedachte, maar helaas niet geheel juist. Cijfers en statistieken worden nog wel eens verward met feiten. Hierdoor worden de conclusies van allerlei onderzoeken vaak geslikt als zoete koek. Door het vertrouwen dat men in cijfers heeft, zijn statistieken een uitstekend hulpmiddel om de waarheid te verdraaien. En dat gebeurt vaker dan je denkt.
Statistiek
Als je iets wil onderzoeken, zal je gegevens moeten verzamelen. Hierna zal je de verzamelde gegevens op een bepaalde manier moeten vertalen, zodat er conclusies getrokken kunnen worden. Tenslotte moeten de gegevens op een heldere manier gepresenteerd kunnen worden. Vaak gebeurt de presentatie van de uitkomsten door middel van tabellen of grafieken. Dit hele proces valt onder de noemer 'statistiek'. Interessant en nuttig. Jammer genoeg worden statistieken regelmatig gebruikt om mensen te misleiden. De uitkomsten van een onderzoek kunnen gemanipuleerd worden bij het verzamelen van de gegevens, het omschrijven van de conclusies en bij de presentatie van de uitkomsten.
Manipulatie van gegevens
Een onderzoek begint bij het verzamelen van gegevens. Vanaf dit punt kunnen kwaadwillenden al beginnen met manipulatie van de feiten. Uiteraard wil men niet liegen, maar men kan de feiten wel een beetje sturen. Hieronder staan een aantal manieren hoe men een onderzoek kan manipuleren.
Aselect onderzoek
Een goed onderzoek is aselect. Dit wil zeggen dat getallen of ondervraagde personen niet vooraf geselecteerd zijn, maar door het toeval zijn bepaald. Als je je niet aan deze spelregel houdt, zou je het onderzoek een beetje kunnen sturen. Een onderzoek in een bejaardenhuis zou bijvoorbeeld kunnen leiden tot de conclusie dat 80% van de Nederlanders een bril heeft (en slechthorend is). Dit onderzoek is dan niet aselect en ook niet representatief qua opbouw. Als de deelnemers vooraf geselecteerd worden, is een onderzoek niet meer betrouwbaar.
Representatief (m.b.t. opbouw)
Voor de betrouwbaarheid van een onderzoek is het ook van belang dat de belangrijke kenmerken van de onderzochte groep overeenkomen met de groep waar het onderzoek over gaat. Als het onderzoek gaat over inwoners van Nederland dan moet de onderzochte groep o.a. op basis van leeftijd en geslacht overeenkomen met de inwoners van Nederland. Als de onderzochte groep voor 80% uit vrouwen bestaat dan zou het onderzoek kunnen concluderen dat de meerderheid van de Nederlanders graag een jurk draagt en de nagels lakt. Voor een betrouwbaar onderzoek over Nederlanders zal je daarom ook de 'gemiddelde Nederlander' moeten ondervragen. Dit betekent o.a. dat de deelnemers voor een gelijk deel moeten bestaan uit mannen en vrouwen (van verschillende leeftijden).
Representatief (m.b.t. aantal)
Een goed onderzoek moet ook representatief zijn. Dit wil onder meer zeggen dat de onderzochte groep personen groot genoeg moet zijn ten opzichte van de groep waarover je iets wil gaan beweren. De grootte van de vereiste groep moet je vooraf vaststellen en vervolgens moet je uiteraard het vastgestelde aantal personen benaderen. Als je vier personen ondervraagd waarvan er één aangeeft dat hij homoseksueel is dan kan je niet concluderen dat een kwart van de bevolking homo is.
Vraagstelling
Bij een goed onderzoek moet de vraagstelling neutraal zijn. Het is dus niet de bedoeling dat de onderzochte persoon in een bepaalde richting geduwd wordt. Toch kan een subtiele wijziging in de vraag leiden tot net iets andere antwoorden. De onderzoekers kunnen hiermee de resultaten van een onderzoek dus een beetje sturen. Het formuleren van een neutrale vraag is niet eenvoudig, maar wel zeer belangrijk. Bij een groot onderzoek kan een niet-neutrale vraag namelijk leiden tot flinke afwijkingen van de waarheid.
Ankereffect
In sommige onderzoeken wordt gevraagd om ergens een schatting van te maken. De uitkomst kan vaak beïnvloed worden door gebruik te maken van het zogenaamde ankereffect. Hierbij wordt eerst een bepaald getal genoemd voordat de deelnemer wordt gevraagd om zelf een schatting te maken.
Voorbeeld:
Vraag 1: Denkt u dat een goede zeep meer of minder dan € 20,- kost?
Vraag 2: Wat denkt u dat een goede zeep kost?
Mensen zijn onbewust gefocust op de informatie die zij als eerste binnenkrijgen. Deze informatie fungeert vaak als uitgangspunt bij de schatting die gemaakt moet worden. Als de onderzoekers liever hogere schattingen terugzien in het onderzoek dan kunnen ze kiezen voor een wat hoger 'ankerpunt'. In het bovengenoemde voorbeeld zullen de schattingen van de deelnemers hoger uitkomen dan wanneer in de eerste vraag € 10,- had gestaan in plaats van € 20,-.
Manipulatie van de conclusies
Nadat de gegevens verzameld zijn, kunnen er conclusies getrokken worden. Je zou zeggen dat er dan niet zoveel gesjoemeld kan worden, maar dat is in de praktijk toch anders. Afhankelijk van de gewenste uitkomst kan men, zonder te liegen, toch nog een bepaalde draai aan de uitkomsten geven. Het manipuleren van de conclusies kan op verschillende manieren uitgevoerd worden.
Getallen vervangen door percentages
Soms maken getallen uit een onderzoek weinig indruk. In dat geval worden de getallen soms vervangen door percentages. Hierdoor kan de uitkomst wat meer spectaculair lijken dan het in werkelijkheid is. Het is geen liegen, maar het is het verhaal iets anders vertellen. Afhankelijk van het gewenste effect kunnen percentages natuurlijk ook door getallen vervangen worden.
Voorbeeld vervanging getal door percentage
In 2013 verkocht Rolls Royce wereldwijd totaal 3.630 auto’s. In 2014 waren dat er 4.063. Rolls Royce had in 2014 dus 433 meer auto’s verkocht dan in 2013. Dat klinkt niet echt spannend. In het nieuws werd echter melding gemaakt van een stijging van bijna 12%. Het is hetzelfde, maar het klinkt toch wat meer dan dat het werkelijk is. Dit effect wordt groter als de aantallen kleiner worden. In Nederland steeg de verkoop van Rolls Royce in 2014 namelijk maar liefst met 1200% ten opzichte van 2012 (In 2012 werd er in Nederland slechts één Rolls Royce verkocht en in 2014 werden er 13 verkocht).
Oorzakelijkheid koppelen aan correlatie
Soms tonen grafieken uit verschillende onderzoeken overeenkomsten met elkaar. Het feit dat er overeenkomst (correlatie) bestaat, wil echter niet betekenen dat er een oorzakelijk verband is. Het kan wel, maar het is geen vanzelfsprekendheid. Tussen de hoogte van je energierekening en de gemiddelde temperatuur in de winter bestaat bijvoorbeeld wel een correlatie en ook een oorzakelijk verband. Als de temperatuur laag is, zal je meer gas voor de verwarming gebruiken waardoor je energierekening hoger zal worden.
Voorbeeld correlatie en geen oorzakelijk verband
Tyler Vigen, een rechtenstudent aan Harvard, heeft een groot aantal opmerkelijke correlaties in grafieken ontdekt. Hoewel sommige grafieken nagenoeg gelijk aan elkaar zijn, is een oorzakelijk verband eigenlijk uitgesloten. Zo lopen de grafieken van 'Het aantal scheidingen in Maine' en 'De consumptie van margarine per hoofd van de bevolking' opvallend gelijk aan elkaar. Ook de grafiek van 'Het aantal huwelijken in Kentucky' vertoont sterke overeenkomsten met de grafiek van 'Mensen die jaarlijks verdrinken nadat ze uit een vissersboot zijn gevallen'. De correlatie is zeer sterk, maar een oorzakelijk verband is er niet. Meer verrassende correlaties staan op de
website van Tyler Vigen.
Bewust verkeerd interpreteren
Soms kunnen uitkomsten van verschillende onderzoeken op een onjuiste manier aan elkaar gekoppeld worden. Hierdoor kan de waarheid behoorlijk verdraaid worden. Dit kan per ongeluk gebeuren, maar uiteraard kan er ook slim gebruik van worden gemaakt. Een goed voorbeeld hiervan is de rechtszaak tegen O.J. Simpson.
Voorbeeld bewust verkeerd interpreteren
O.J. Simpson werd verdacht van de moord op zijn vrouw. Toen de aanklagers ontdekten dat hij in het verleden zijn vrouw had mishandeld, werd dit tegen hem gebruikt. Men stelde dat iemand die regelmatig zijn vrouw mishandelt ook wel in staat zou zijn om zijn vrouw te vermoorden. De advocaat van Simpson ontkrachtte deze aantijging door gebruik te maken van statistiek. Zijn stelling was dat in Amerika ieder jaar zo’n vier miljoen vrouwen mishandeld worden door hun man, terwijl er 'slechts' 2.500 door hun man vermoord worden. Zijn conclusie was dat de kans zeer gering was dat iemand die zijn vrouw mishandelt haar ook zal vermoorden. De jury kon zich wel vinden in deze uitspraak. Toch klopt het niet. De cijfers zijn namelijk op een verkeerde manier aan elkaar gekoppeld. De advocaat begon zijn verhaal met het noemen van het aantal vrouwen die mishandeld worden. Dat was hier niet meer aan de orde, omdat de vrouw van Simpson immers al vermoord was. De werkelijke vraag had daarom moeten zijn: "Welk percentage van de vrouwen die vermoord zijn en door hun echtgenoot mishandeld werden, zijn door hun echtgenoot vermoord?". Het antwoord op deze vraag zou 90% zijn.
Manipulatie van de presentatie
Om de uitkomsten van een onderzoek snel te kunnen overzien, wordt vaak gebruik gemaakt van grafieken en tabellen. Ook hierbij kan men zorgen voor een flink vertekend beeld. Ook voor het manipuleren van de grafieken en tabellen beschikt men over een uitgebreide trukendoos.
Een deel van de grafiek verwijderen
Stel dat een grafiek een wat grillige lijn vertoont met een stijging aan het einde. Als de onderzoekers gebaat zijn bij een stijgende lijn, kunnen ze ook gewoon een deel van de grafiek laten vervallen. Men laat gewoon alleen het laatste, stijgende stukje lijn zien. Op deze manier ziet de grafiek er gelijk een stuk positiever uit. Over het grillige verleden wordt gemakshalve maar niet meer gesproken.
Schaalverdeling Y-as aanpassen
Als een grafiek verschillen moet aangeven, kan men gebruik maken van een staafdiagram. De verschillende data worden dan afgebeeld als rechtopstaande staven, naast elkaar. Als je de verschillen tussen de staven wil benadrukken, kies dan voor een andere schaalverdeling op de (verticale) Y-as. Door in de schaalverdeling te kiezen voor getallen die dichter bij elkaar liggen, wordt er in feite ingezoomd op de staven. Hierdoor kunnen relatief kleine verschillen plotseling toch heel groot lijken. Uiteraard kan je dit ook andersom toepassen. Grote verschillen kan je (optisch) kleiner maken door de schaalverdeling te vervangen door getallen die wat verder van elkaar liggen.
Grafische aanpassingen
Grillige lijnen in een grafiek kunnen eenvoudig wat minder grillig gemaakt worden door de grafiek in de breedte wat op te rekken. De X-as wordt gewoon wat langer waardoor de pieken en dalen in de lijnen wat vlakker worden. Wil men juist wel een beetje grillige lijn? Dan kan de grafiek gewoon wat minder breed gemaakt. Hierdoor worden de schommelingen in de lijnen juist wat extra geaccentueerd. Als men de indruk wil wekken dat een bepaalde uitkomst echt spectaculair is, dan kan men kiezen voor een staafdiagram waarvan een staaf 'uit de grafiek knalt'. De betreffende staaf stijgt dan verder dan de verticale as. Men is dan al snel geneigd om extra waarde toe te kennen aan de enorme staaf. De uitkomst is blijkbaar zo groot dat het niet eens in de tabel past! Je zou denken dat dit wel een erg doorzichtige manier van manipulatie is, maar toch wordt dit wel degelijk gebruikt. Het werd bijvoorbeeld toegepast door Al Gore in zijn film 'An Inconvenient Truth' (2006).
Conclusie
Statistieken zijn bijzonder nuttig en vaak zelfs onmisbaar. Vertrouw echter niet blindelings op de uitkomsten van allerlei onderzoeken. Zeker indien onderzoeken een commercieel doel hebben, is een gezonde portie wantrouwen op zijn plaats. Men zegt niet voor niets: “Statistiek liegt niet, maar leugenaars gebruiken statistiek”.