Facebook als psycholoog
Facebook verzamelt veel gegevens over zijn gebruikers. Slechts een paar ervan, zoals leeftijd en geslacht, worden expliciet opgevraagd. Veel gegevens hoeven niet ook opgevraagd te worden omdat ze afgeleid kunnen worden uit het gedrag van de gebruikers. Vooral de likes spelen hierin een grote rol. Uit de manier waarop gebruikers berichten "liken" kan, bijvoorbeeld, met een grote nauwkeurigheid bepaald worden of de gebruiker een man of vrouw, homoseksueel of heteroseksueel, zwart of blank is. Met iets minder nauwkeurigheid kan zelfs uitgerekend worden of de gebruiker slim of dom is.
Facebook likes als psychologische test
Door op Facebook een bericht te "liken" geeft een gebruiker aan dat het bericht zijn of haar aandacht heeft gekregen. Er zijn natuurlijke talloze redenen om een bericht te liken. Welke redenen dat zijn, is niet altijd duidelijk, ook niet voor degene die "liked". Gezien als "data" is de verzameling van likes een tamelijk slordige collectie van gegevens. Maar hoe slordig ook, het blijkt wel degelijk mogelijk om daaruit met een verrassende nauwkeurigheid een groot aantal eigenschappen van de Facebookgebruikers te bepalen. En dat het niet eens ingewikkeld hoeft te zijn, is onder meer aangetoond door de onderzoekers
Kosinski, Stillwell en Graepel.
Aan hun onderzoek namen meer dan 58.000 vrijwillige (Amerikaanse) proefpersonen deel. Van hen werden alle likes geregistreerd en een groot aantal eigenschappen bepaald, zoals geslacht, leeftijd, seksuele oriëntatie, intelligentie, etniciteit, religiositeit, persoonlijkheid, drugsgebruik, enzovoort. Door gebruik te maken van zeer eenvoudige statistiek - veel meer dan lineaire regressie is het niet - konden sterke verbanden tussen het "like" gedrag en de genoemde psychologische dan wel biologische eigenschappen aangetoond worden.
Binaire eigenschappen
In de eerste fase werd gekeken naar verbanden tussen het "like" gedrag en binaire dimensies als ras (blank versus zwart) en geslacht (man versus vrouw). Een aantal van hun resultaten zijn in de volgende tabel weergegeven.
Kenmerk | Percentage |
Geslacht | 93 |
Homoseksueel of niet | 88 |
Lesbisch of niet | 75 |
Blank of zwart | 95 |
Single of niet | 67 |
Gebruikt drugs | 65 |
Gescheiden ouders of niet | 60 |
Deze tabel laat stevige resultaten zien. Het gaat beslist niet om amper waarneembare en net significante resultaten. Er is sprake van sterke, belangrijke en praktisch bruikbare resultaten.
Dat het geslacht met zo'n nauwkeurigheid op basis van de likes vastgesteld wordt, betekent dat mannen en vrouwen verschillende berichten liken. Waar dat verschil precies in zit, was geen onderwerp van studie. Een ander opvallend resultaat is dat ook het ras (blank versus zwart) met grote nauwkeurigheid vastgesteld kon worden. Er is eigenlijk geen reden om expliciet aan gebruikers te vragen wat hun geslacht of ras is, zo dat al toegestaan is. Het zit gewoon verborgen in de "likes". De vraag kan beantwoord worden zonder hem expliciet te stellen. De tabel laat zien dat hetzelfde geldt voor de seksuele geaardheid. Zolang deze groepen maar systematisch verschillen in hun like-gedrag, zolang kan geslacht, geaardheid en ras uit dat gedrag geëxtraheerd worden.
Minder nauwkeurig is de mate waarin het drugsgebruik van mensen bepaald kan worden. Maar ook hier geldt wel degelijk dat er sprake is van een sterk en bruikbaar verband is. De onderzoekers laten verder nog zien dat met een eveneens redelijke nauwkeurigheid voorspeld kan worden of iemand uit een gezin van gescheiden ouders komt. Dat is wederom geen informatie die snel gevraagd of gegeven zal worden, maar ook hier geldt dat een antwoord wel degelijk "uitgerekend" kan worden.
Likes versus psychologische tests
Likes blijken ook een voorspellende waarde te hebben voor zulke (niet binaire) grootheden als leeftijd, intelligentie en emotionele stabiliteit. De volgende tabel laat de sterkte, weergegeven als een correlatiecoëfficiënt, zien van een aantal verbanden die door de genoemde onderzoekers zijn onderzocht.
Correlatie tussen Likes en Testen
De voorspelbaarheid van de test scores bleek minder goed te zijn dan met de binaire kenmerken het geval was. De regel bij het interpreteren van deze correlaties is dat het kwadraat ervan de verklaarde variantie is. Dus met een correlatie van 0,75 wordt de geobserveerde varia(n)tie in leeftijd voor zo'n 56 % verklaard. De percentages in deze figuur zijn derhalve lager dan bij de binaire kenmerken, maar toch gaat het nog steeds om bruikbare informatie. Daar komt nog bij dat in de steekproef slechts gebruikt gemaakt werd van - gemiddeld - 107 likes per proefpersoon. De redelijke verwachting is dat de correlatie stijgt naarmate er meer likes in de analyse worden meegenomen.
Ook intelligentie kan in een zekere mate voorspeld worden. De onderzoekers hebben niet gekeken waarin het like-gedrag van de wat slimmere mensen verschilt van de wat minder slimme mensen, maar dat ze verschillen in hun like-gedrag is wel duidelijk. Hier geldt, net als bij de binaire kenmerken dat veel meetbare eigenschappen terug te vinden zijn als verschillen in het "like"-gedrag. Die verschillen kunnen op hun beurt gebruikt worden om de metingen als het ware te reconstrueren.
Slotoverweging
Het onderzoek van Kosinski et al. staat bepaald niet alleen. Zelf citeren ze meerdere onderzoekingen die grofweg hetzelfde resultaat neerzetten, zij het voor andere databases waarin online gedrag van mensen geregistreerd is. Al deze onderzoekingen laten zien dat met zeer eenvoudige modellen (lees formules) en tamelijk rommelige data (want zo mogen de likes toch wel gekenschetst worden) een verrassend goed en compleet beeld van mensen verkregen kan worden.
Dit effect moet niet onderschat worden. Te vaak is er de neiging om het voorspellen van menselijk gedrag op basis van simpele metingen en al even simpele modellen (lees formules) af te doen als een armzalig soort psychologie. Maar dat is pertinent onjuist. Uit veel onderzoek (o.a. samengevat in het werk van Meehl, zie het literatuurlijstje) is gebleken dat het menselijk gedrag in veel gevallen beter voorspeld kan worden met behulp van simpele modellen en formules dan op basis van menselijke oordelen en intuïties, zelfs wanneer deze intuïties afkomstig zijn van ervaren psychologen. De les is derhalve dat wat deze onderzoekers met hun simpele modellen gevonden hebben als een serieuze vorm van (diagnostische) psychologie gezien moet worden. Omdat Facebook over veel meer data beschikt dan, onder andere, de hier besproken onderzoekers, mag de conclusie zelfs zijn dat Facebook een van s'werelds beste psychologen (of - iets preciezer- diagnostisch psychologen) is.
En dat geldt overigens niet alleen voor Facebook. Google en Apple zijn twee andere bedrijven die over gigantisch veel informatie over mensen beschikken, om nog maar niet te spreken van allerhande overheidsorganisaties. Uit commerciële dan wel veiligheidsoverwegingen zullen deze hun kennis zelden volledig ter beschikking stellen aan het publiek. De simpele gevolgtrekking is derhalve dat veel hoogwaardige psychologische kennis verstopt zit in databases en soms simpele algoritmes die lang niet altijd publiekelijk toegankelijk zijn (zoals overigens met de Facebook likes wel het geval is). De psychologische kennis is daardoor vaak anoniem. Het is kennis die mensen beïnvloedt zonder dat ze zelf weten hoe dat precies in zijn werk gaat. Als er bijvoorbeeld fouten gemaakt worden, dan is dat niet meer naspeurbaar. Het minste dat daarover te zeggen valt, is dat het tot nadenken stemt.
Lees verder