Professional Documents
Culture Documents
Handboekdatajournalistiek Nieuw-2
Handboekdatajournalistiek Nieuw-2
© 2012 Henk van Ess & Hille van der Kaa | Boom Lemma uitgevers
Behoudens de in of krachtens de Auteurswet gestelde uitzonderingen mag niets uit deze uitgave wor-
den verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige
vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen of enige andere
manier, zonder voorafgaande schriftelijke toestemming van de uitgever.
Voor zover het maken van reprografische verveelvoudigingen uit deze uitgave is toegestaan op grond van
artikel 16h Auteurswet dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de
Stichting Reprorecht (Postbus 3051, 2130 KB Hoofddorp, www.reprorecht.nl). Voor het overnemen van
(een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (art. 16 Auteurs-
wet) kan men zich wenden tot de Stichting PRO (Stichting Publicatie- en Reproductierechten Organisa-
tie, Postbus 3060, 2130 KB Hoofddorp, www.cedar.nl/pro).
No part of this book may be reproduced in any form, by print, photoprint, microfilm or any other means
without written permission from the publisher.
ISBN 978-90-5931-885-4
NUR 813
www.boomlemma.nl
Het doorlopende onderzoek van The Guardian naar de oorzaak van de rellen
in Engeland is hier een goed voorbeeld van. Niemand begreep de oorzaken.
Niet omdat mensen de oorzaken geheim probeerden te houden, maar omdat
het vraagstuk gewoon te complex was. En daarom gebruikten de journalisten
krachtige datajournalistieke onderzoeksmethodes.
Onderzoeksjournalistiek is naar mijn idee een vorm van journalistiek die ver-
der gaat dan jagen en verzamelen. Nu informatie in groten getale aanwezig is,
wordt het verweken en extraheren belangrijker.
Toen ik veertig jaar geleden het boek Precision Journalism schreef, schaarden
veel lezers dit onderwerp onder de term ‘computer-assisted reporting’. Com-
puters waren in die tijd nog mysterieuze en dure machines, waar maar weinig
mensen – zeker in de journalistiek – toegang tot hadden.
Maar de computers vormden niet de focus van mijn activiteiten. Ik vatte
het belangrijkste punt samen in de subtitel van het boek: A Reporter’s
Introduction to Social Science Methods. Precision journalism, een term die
is gelanceerd door journalistiek docent Everette E. Dennis, was bedoeld als
beschrijving van de wetenschappelijke methodes die we gebruikten.
Datajournalistiek past goed bij dit concept. Grote hoeveelheden data kunnen
ingewikkeld zijn. Het blijft belangrijk om een vraag te kunnen stellen zon-
der voor de gek te worden gehouden door het antwoord. Wetenschappelijke
methodes minimaliseren de menselijke neiging tot zelfbedrog.
Philip Meyer*
Chapel Hill, North Carolina, VS
* Philip Meyer schreef deze inleiding speciaal voor dit handboek datajournalistiek. Philip
Meyer is emeritus hoogleraar en voormalig houder van de Knight-leerstoel Journalistiek
aan de Universiteit van North Carolina in Chapel Hill. Hij doet onderzoek op het gebied van
journalistieke kwaliteit, precisiejournalistiek, civic journalism, polling, de krantenindustrie
en communicatietechnologie. Meyer was een Nieman Fellow in 1966-1967. Voordat hij in
1981 professor werd, werkte Meyer ruim 25 jaar in de krantenindustrie. Door een onderzoek
dat hij in 1967 deed naar de oorzaken van de rellen in Detroit, geldt hij als de grondlegger
van computerondersteunde journalistieke werken.
1 Inleiding in de datajournalistiek 11
1.1 Grote hoeveelheden documenten 11
1.2 Grote hoeveelheden cijfers 15
1.3 Toegankelijk maken van data 17
1.4 Relevantie 18
1.5 Het verhaal 18
1.6 Andere definities 20
1.7 Competenties 22
1.8 Organisatievorm 22
1.9 Kansen 24
Er zijn veel geweldige verhalen die je kunt vertellen zonder data. Daar gaat dit
boek niet over. Het is gemaakt door mensen die verhalen willen vertellen met
behulp van cijfers en documenten. Voorkennis is niet vereist, maar we reke-
nen wel op je bereidheid om met ons een reis te maken. Voor dit boek spraken
we met datajournalisten uit heel de wereld.
In hoofdstuk 3: Verwerken van data ben je meestal alleen met bezig met het
spreadsheatprogramma Excel. Misschien zit je daar niet op te wachten. Maar
wij vinden dat je de basisvaardigheden voor sorteren, importeren en het ver-
gelijken van gegevens echt moet kennen. We beloven je dat we het zo concreet
en pijnloos mogelijk maken. Na dagen turen in een database ben je soms zo
blij dat je iets hebt gevonden, dat opeens de wetten verdwijnen voor ‘hoe vertel
ik een goed verhaal’. De beste uitleg is precies, duidelijk en snel te begrijpen.
Maar hoe doe je dat? Dat lees je in hoofdstuk 4: Presenteren van data.
‘Er zit geen principieel verschil in het bevragen van een woordvoerder en het
bevragen van een database.’ De Nederlandse pionier op het gebied van data-
journalistiek Dick van Eijk schreef dat al in 1994. Met dat besef kunnen cijfers
opeens spannend worden. Het maken van cijfers is immers mensenwerk.
Het onderzoek van Philip Meyer naar de rellen in Detroit in 1967 is voor
velen de bakermat van datajournalistiek of, zoals hij het zelf in zijn boeken
beschrijft, computer-assisted reporting.
Meyer deed als een van de eerste journalisten met een computer onderzoek
naar de achterliggende oorzaak van een gebeurtenis. De wereld van de data-
journalistiek is sinds 1967 flink veranderd. De rekenkracht, datasets en het
aantal tools om data mee te bewerken groeiden. Maar de achterliggende
gedachte? Die bleef hetzelfde:
Onze definitie lichten we stap voor stap toe in deze inleiding in de datajourna-
listiek.
Hoe ga je om met grote hoeveelheden informatie (par. 1.1)? Wat is het journa-
listieke nut van ‘een bak met cijfers’ (par. 1.2)? Welke kennis is nodig voor het
toegankelijk maken van data (par. 1.3)? Waarom is datajournalistiek af en toe
alleen relevant voor een klein publiek (par. 1.4)? En wat is eigenlijk een data-
journalistiekproductie (par. 1.5)?
Figuur 1.1 Grenzen aan begrijpelijkheid: wat is het verhaal achter honderd-
duizenden documenten?
Data worden meestal pas relevant als het een nieuwswaarde heeft voor de ont-
vanger.
Een zinnige, journalistieke conclusie kon pas worden getrokken nadat al deze
gegevens werden overgezet naar een programma waarmee zoeken en sorteren
mogelijk is, in dit geval Excel. Programmeurs, in samenwerking met journa-
listen, klaarden de klus:
NRC Handelsblad was niet tevreden met de persberichten van makelaars over
de huizenbewegingen in Nederland. Die waren meestal rooskleurig opge-
steld. De krant huurde een programmeur in om de voortdurend verande-
rende inhoud van huizenzoekmachine Funda.nl bij te houden. Het leidde tot
een serie verhalen en af en toe een nieuwtje, zoals deze:
Het Britse The Guardian ontving ruim 450.000 bonnetjes en documenten met
daarin de uitgaven van parlementariërs. Het publiek mocht aangeven welke
bonnetjes het meest interessant zijn voor nader onderzoek.
Figuur 1.6 Bonnetjes van Britse politici, openbaar gemaakt door journa-
listen van The Guardian, te vinden op http://forreporters.com/
guardian
1.4 Relevantie
De uitkomsten van datajournalistiek zijn niet per definitie geschikt voor een
breed publiek. Voor een fanatieke voetballiefhebber is een uitputtende ana-
lyse van spelersdata interessant, voor het grote publiek niet. Bepalend is de
doelgroep. Een landelijke krant vindt verhalen interessant die de meeste men-
sen aanspreken (Hoe stemt Nederland?), een special interest-tijdschrift wil
dat juist niet (Hoe stemmen autorijders?). De relevantie hangt ook af van het
belang en de impact van het verhaal.
Datajournalistiek in de praktijk
Zet journalisten en programmeurs dertig uur bij elkaar, geef ze pizza en koffie, en er
móét haast wel iets moois uitkomen.
Jerry Vermanen, werkzaam als dataredacteur bij Nu.nl, is een van de initiatief-
nemers van Regiohack, een samenwerking tussen de Stentor, Twentse Courant/
Tubantia en Hogeschool Saxion. Hij vertelt hoe het idee ontstond om dertig pro-
grammeurs en journalisten bij elkaar te zetten voor een marathonsessie van dertig
uur, waarbij ze opgedeeld in groepjes allemaal een journalistiek interessante vraag
zouden proberen te beantwoorden met behulp van computertechnieken. Beide
beroepsgroepen werken nog te veel langs elkaar heen. ‘Programmeurs vinden het
fantastisch om iets nieuws te maken, maar ze missen dan het verhaal. Journalisten
missen de technische kennis.’
Wie zijn de machtigste personen in Twente? Regiohack is bezig met het opzet-
ten van een database van belangrijke regionale mensen. De invloed wordt onder
andere afgemeten aan bestuursfuncties bij bedrijven, organisaties en overheden,
en aangezien er geen kant-en-klaar overzicht van die bestuurders bestaat, wordt
die dataset van de grond af opgebouwd. ‘Het mooie is dat je er vervolgens steeds
weer nieuwe vragen aan kunt stellen en verhalen uit kunt halen. Stel dat ergens een
bestuurder vertrekt, dan kun je in die database terugvinden met welke personen
hij veel te maken heeft gehad en kun je die om duiding vragen’, aldus Vermanen.
Wat voegen datajournalistiek en visualisaties nou toe aan de bestaande bericht-
geving? Regionale kranten kunnen zich ermee onderscheiden, zegt Vermanen. ‘Je
haalt nieuws uit de regio dat je anders zou missen, je hebt nieuws dat anderen niet
hebben. Daarmee kun je je onderscheiden en dat is, denk ik, belangrijk voor een
krant, zeker als het financieel niet altijd even goed gaat.’
Tim Berners-Lee, de uitvinder van het wereldwijde web, denkt dat het overleven
van journalistiek afhangt van mensen die data kunnen analyseren. Uit de ana-
lyse van 86 internationale banen voor datajournalisten blijkt dat de verwachtin-
gen over datajournalistiek bij hoofdredacties buitengewoon o ptimistisch zijn.
Redacties zoeken nerds met vijf poten, die bovendien s ociaal zijn, gevoel voor
nieuws hebben, goed zijn in visualiseren en ook nog eens teamspelers zijn.
Figuur 1.11 Voor dit boek maakten we een historische tijdlijn van alle Engels-
talige boeken over datajournalistiek. Het Britse dagblad The
Guardian publiceerde daar over. Het complete overzicht staat op
www.forreporters.com/guardian2
1.7 Competenties
Maar wat die nerds met vijf poten dan precies moeten kunnen? De Univer-
siteit van Tilburg, sinds 2012 actief met een master datajournalistiek, ziet zes
competenties voor een datajournalist:
• het vermogen om data te verzamelen en selecteren;
• de kundigheid om data op te schonen en te analyseren;
• de mogelijkheid om data te doorzoeken en afwijkingen te constateren;
• bekendheid met verschillende datastandaarden;
• vermogen tot het maken van datajournalistieke producties;
• de kundigheid om journalistieke verhalen te extraheren en te verspreiden.
1.8 Organisatievorm
Er zijn weinig mensen die alle disciplines beheersen. Samenwerking bij data-
journalistieke projecten is daarom onontbeerlijk. Bij The Guardian (een
van de grootste kranten in Groot-Brittannië) werken drie mensen in een
team. Volgens datajournalist Simon Rogers werkt het team veel samen met
andere departementen (ICT, gespecialiseerde journalisten, grafici) voor
het verzamelen en analyseren van data. Datajournalistieke teams bevat-
ten idealiter mensen met verschillende specialiteiten: online ontwikkelaars,
data-analisten, grafici en statistici. Vaak is de aanvoerder van een team een
journalist met data-analytische vaardigheden. De meeste mediabedrijven in
Nederland hebben niet zo’n team.
Als niet alle kennis in huis is, huren mediabedrijven experts in. The Mecha-
nical Turk en vWorker gelden als een veelgebruikte online marktplaats voor
programmeurs. Hier worden opdrachten aanbesteed en kunnen program-
meurs inschrijven op klussen zoals het opschonen van data of het omzetten
en analyseren van grote databestanden. De naam Mechanical Turk is afkom-
stig van de mechanische Turk-schaakmachine. Deze werd gepresenteerd als
een mechanische machine die kon schaken, terwijl er in werkelijkheid een
goede schaker in de machine verborgen zat.
Een andere vorm van samenwerking ontstaat bij het organiseren van Hacka-
tons, waarbij journalisten en programmeurs ‘data martelen’ en in een kort
tijdsbestek data omzetten naar verhalen. Vaak worden bij deze dagen studen-
ten en vrijwilligers uitgenodigd.
Hackatons kennen verschillende doelen. Ten eerste geven nieuwsorganisaties
met een datadag een begin aan datajournalistieke projecten. Door verschil-
lende groepen op verschillende manieren aan data te laten werken, kunnen ze
1.9 Kansen
Het meeste simpele advies om originele databases te krijgen is: vraag erom.
Bel, mail of bezoek de organisatie die de data heeft en leg uit wat je wilt.
Meestal lukt dat niet meteen (zie par. 2.3.2: Veertig deksels op je neus), maar het
loont de moeite om aan te dringen. De beloning is dat je gegevens krijgt die
niet via internet te vinden zijn. We bespreken hier hoe je aan materiaal komt
dat nog niet is uitgekauwd: waar vraag ik naar (par. 2.1.1), hoe vraag ik ernaar
(par. 2.1.4) en wat doe ik bij weerstand (par. 2.1.5)?
Hoe weet je of een bepaalde database bestaat? Zie voor één keer de leuke kan-
ten aan bureaucratie. Voordat iets wordt opgeslagen, moet het eerst worden
verzameld. Werknemers, ambtenaren, bestuurders of burgers moeten formu-
lieren invullen waarvan de antwoorden vroeg of laat in een database komen
te staan. De grondstof voor de database, het lege formulier zelf, wordt steeds
vaker online gezet. Daardoor zijn de meest obscure formulieren te vinden op
internet.
Figuur 2.2 Door formulieren goed te bestuderen weet je welke gegevens zoal
worden bijgehouden. Elke vraag leidt tot een antwoord dat in een
database is opgeslagen
Dit zijn lege formulieren. Als je weet dat er formulieren worden ingevuld,
weet je dat de informatie van die formulieren in een database staat. Zie je in
één van drie bovenstaande formulieren aanleiding tot nieuws – zeker als je
over de inhoud van de database beschikt?
Je vindt meer formulieren dan je lief is. Alleen al met onderstaande zoe-
kopdracht vind je ruim 18.000 formulieren. Dit is relatief simpele zoekactie
omdat je niet aangeeft in welke sector je een formulier zoekt:
“formulier voor”
Hiermee voorspel je wat je graag wilt zien in het document: dat in het formu-
lier staat waarvoor het formulier is.
filetype:pdf
Hiermee regel dat je alleen pdf-bestanden wilt zien, het favoriete bestands
formaat voor documentenverzamelaars.
site:nl
Hiermee beperk je de zoekactie tot alleen Nederlandse websites die eindigen
op .nl.
Nog eens ruim 50.000 kansen op het detecteren van een mogelijke database
zie je hieronder:
Figuur 2.5 Slecht behandeld door een ambtenaar in Losser? Vul je klacht in!
De gemeente Losser heeft zelf al een verslag gemaakt van alle klachten.
Download dit verslag van 21 Kb via http://forreporters.com/jaarverslag.
‘Verbeter de wereld, begin bij jezelf ’ is een mooi spreekwoord. Dat moet
een aanbeveling zijn voor de organisatie, maar meer nog voor het individu
(bestuurder, medewerker). Niet naar andere organisaties of naar ande-
ren wijzen, maar een kritische blik in de spiegel werpen en de vraag stel-
len waar de dienstverlening tekortschiet en waar verbetering mogelijk is.
De gemeente is er voor de burger en niet andersom.
Je hebt geen idee wat die ‘persoonlijke bejegening’ precies betekent. Ook merk
je dat de afhandeling van de klacht niet bepaald objectief te noemen is (2011).
De klacht wordt door de betrokken afdeling zelf behandeld:
Vaak blijkt al dat een gesprek met de klager al voldoende is om de klacht tot
tevredenheid van de klager af te handelen. Vooral het persoonlijke contact
leidt tot meer wederzijds begrip.
De omkeertruc
Je ziet dat een jaarverslag niet altijd een volledige weergave is van wat men-
sen op de formulieren hebben ingevuld. Daarom adviseren we je bij lezing
van vage jaarverslagen over klachten of andere registraties om op zoek te gaan
naar het onderliggende formulier.
Daardoor weet je veel preciezer wat er door een organisatie is bijgehouden. In
het voorbeeld van de gemeente Losser weet je wat de gemeente aan burgers
heeft gevraagd, maar vind je de indeling nauwelijks terug in het officiële stuk.
Door de database op te vragen krijg je wellicht meer inzicht.
meldpunt filetype:pdf
Hiermee zoek je naar meldpunten waar het publiek klachten of observaties
kan achterlaten:
registratieformulier filetype:pdf
registratie filetype:pdf
Je zoekt naar een bepaalde registratie. Niet altijd heet het registratieformu-
lier ook echt registratieformulier; vandaar de tip om alleen op registratie te
zoeken.
of nog beter:
Met het sterretje voorspel je een willekeurig woord en neem je ook zins
constructies mee als “dient minimaal de volgende gegevens te bevatten” of
“dient altijd de volgende gegevens te bevatten”.
Met bovenstaande tips vind je al heel veel formulieren. Maar kun je nog vijf
zoekacties bedenken die hier niet staan genoemd waarmee je een leeg formu-
lier kan vinden?
Case: hondenbelasting
Woonplaats
Woonplaats
7. Opmerkingen:
Voorspel de velden
Probeer nu te voorspellen hoe de lege velden op het formulier eruit zien in een
database. Voor het formulier hierboven zijn we zeker van de volgende velden:
Figuur 2.7 … leidt vroeg of laat tot een database. Voorspel de velden door
goed naar het formulier te kijken
Zet de mogelijke velden in Excel en neem ze één voor één door. Je hebt welis-
waar de gegevens niet, maar je weet nu wel wat er wordt bijgehouden. De over-
heid zal A1 (Naam) en B1 (Adres) nooit geven vanwege privacy-afwegingen,
maar werkt mogelijk wel mee aan verstrekking van de woonplaats en post-
code. De dataset die je wilt hebben, ziet er zo uit:
Wat kun je nu met dat formulier over hondenbelasting? Zoek naar opvallende
zaken. Een paar suggesties:
Als je iets opvallends ontdekt in data, stel dan altijd de ‘Nou en?’-vraag.
Waarom is deze afwijking of overeenkomst, de terugval of de enorme stijging
spannend? Het antwoord weet je van tevoren meestal niet. Dat is nou net de
charme van datajournalistiek. Je komt op ideeën om de juiste vragen te stellen
en de antwoorden krijg je pas als je verder onderzoek doet.
Datajournalistiek vormt meestal een beginpunt van een verhaal, niet het
eindpunt. Heb je geen ontzag voor cijfers en formulieren, dan kom je in een
wereld van vragen die weer andere vragen oproepen die vroeg of laat leiden
tot originele invalshoeken. Met datajournalistiek creëer je je eigen tips, bij-
voorbeeld: er zijn in deze stad meer honden vermist dan ooit, maar het aantal
honden bleef gelijk. Wat is er aan de hand?
‘Ik wil graag weten hoeveel burgers van het kastje naar de muur gestuurd
worden.’
Of:
‘Ik zou graag een geanonimiseerde database willen hebben die is gebaseerd
op formulier 23b.’
Drie tips om het vrijwel altijd tijdrovende proces van ‘data bedelen’ zo vlot
mogelijk te laten verlopen: 1. bestudeer de database, 2. vind de juiste persoon,
3. peuter details los, en 4. doe mee met een discussiegroep.
Volg de discussie een tijdje, praat hier en daar wat mee en stel na verloop van
tijd je vraag, bijvoorbeeld: ‘Wie weet hoe ik aan cijfers kan komen over het
aantal tuinmannen dat door toedoen van zijn werk gehandicapt is geraakt?’
Maar je kunt daar ook vragen stellen over een database die je al hebt, bijvoor-
beeld over wat bepaalde woorden betekenen. Een lijst met mogelijke woorden
tref je aan op http://forreporters.com/4wvh.
Leef je in
Als journalist wil je misschien precies het aantal parkeerbonnen per wijk
weten of hoeveel mensen de voornaam Hille hebben. Degene van wie je data
wil hebben, heeft er niet altijd belang bij om deze te geven. Besef vooraf aan
wie je deze gegevens vraagt.
Leef je in. Wie zit erop je te wachten? Is het een commercieel bedrijf? De over-
heid? Iets wat er tussenin zit? Wat zijn de weerstanden waarop je moet reke-
nen en hoe beweeg je als een echte judoka mee? Vier vervelende problemen
met vier ontsnappingsroutes zijn:
Plan B: Wees altijd eerlijk over je bedoeling, zegt Andrew Lehren van The New
York Times: je wilt de organisatie of persoon die beschikt over data nooit mis-
leiden. Maar je hoeft niet per se het achterste van je tong te laten zien. Toen
Lehren de (uiteindelijk gevoelige) data over de marathon van New York wilde
hebben van de organisatie, zei hij dat hij van plan was een serie artikelen over
de marathon te maken en dat de data hem bij zijn onderzoek handig leken.
Soms weet je van tevoren niet of de data nieuwswaardig zijn. In dat geval
kun je op de vraag ‘wat gaat u ermee doen?’ gerust antwoorden dat je dit nog
niet weet. Zeg in dat soort situaties: ‘Ik zou een slechte journalist zijn als ik
nu al kan vertellen wat mijn conclusie is, zonder uw cijfers ooit bestudeerd te
hebben.’
Plan B: Zeg toe dat je in het verhaal duidelijk de bron van de cijfers vermeldt.
Het neveneffect voor het bedrijf is gratis reclame. Formuleer de toezegging
precies. Zeg niet: ‘we gaan u in het artikel noemen’, want vooraf weet je niet
helemaal zeker of de cijfers interessant genoeg zijn. Beter is: ‘wanneer we de
data gebruiken, krijgt u volledige bronvermelding’, eventueel aangevuld met
‘en op de website krijgt u bovendien een link’.
Dat laatste lokkertje geeft soms net de doorslag: bedrijven zijn dol op linkjes
van de media omdat dit hun zichtbaarheid in zoekmachines vergroot. Formu-
leer ook deze toezegging nauwkeurig. Je bent geen reclamemaker, maar jour-
nalist.
‘Scheer je weg’
Plan B: Probeer over hetzelfde onderwerp een andere partij te vinden die wel
wil meewerken, maar waarschijnlijk niet veel verder komt dan een schatting.
Bel in dit voorbeeld een stoeptegelfabrikant die aangeeft dat in een gemid-
delde winkelstraat 50.000 tegels liggen. Leg deze uitspraak voor aan de par-
tij die niet meewerkt. ‘We hebben een schatting gekregen van een stoeptegel-
firma, kunt u zich daarin herkennen?’ Het eerste antwoord zal zijn dat ‘dit
soort cijfers niet worden verstrekt’, maar probeer te begrijpen waarom iemand
dat zegt. Hij wil van je af. Doordat je maar blijft aanhouden, ontstaat bij je
opponent het besef dat meewerken minder tijd gaat kosten dan tegenwerken.
Blijf dus de vraag herhalen. Probeer het je bron wel gemakkelijk te maken,
bijvoorbeeld door te melden dat hij de gegevens kan opvragen bij de afdeling
automatisering of hoe de afdeling ook mag heten (LinkedIn is je vriend).
Lukt ook dit niet? Doe dan maar passief-agressief: ‘Ik begrijp dat u de data
niet verstrekt. Ik zal uw weigering in het stuk waar nodig zorgvuldig verwoor-
den. Dus even voor de record: de stoeptegelfabrikant werkt wel mee, maar u
niet. Waarom? Hoe spel ik uw achternaam?’
Plan B: Wat doe je tegen ‘doodknuffelen’? Blijf vooral zelf vriendelijk. Con-
centreer je niet meer op wie verantwoordelijk is voor het verstrekken van de
cijfers, maar leg contact met de persoon die op de knop drukt om de cijfers
te exporteren. Dat is iemand van de afdeling automatisering, vaak te vin-
den via LinkedIn. Bel deze persoon en meld beslist dat je contact hebt gehad
met (… namen van allervriendelijkste mensen …). Vraag vervolgens om een
afspraak. De automatiseerder zal willen dat zijn bazen bij het gesprek zijn. Dat
is in dit stadium niet erg – je wilt immers een einde maken aan het eindeloze
wachten.
Je hoeft bijvoorbeeld niet te weten wat de namen zijn van hotelgasten die
kamers vernielen, maar je wilt wel weten hoe vaak dat gebeurt, in welke
periode en welk deel van het land. Het simpele feit dat je weet dat zulke zaken
worden bijgehouden, geeft je een voorsprong op journalisten die dat niet doen.
Met overredingskracht kun je een organisatie overhalen om niet-privacy
gevoelige gegevens te verstrekken voor nader onderzoek. Verwacht bij voor-
baat dat de eerste reactie niet positief zal zijn. De kans is niet denkbeeldig dat
de houder van de database geschrokken en uiterst afwerend reageert. Voor
meer uitleg zie: ‘Hoe praat ik data los?’.
Wat voor zwarte lijsten zijn er? Autoverhuurbedrijven willen bijvoorbeeld met
elkaar persoonsgegevens uitwisselen over dieven, mensen die expres schade
claimen of buitengewoon gewelddadig gedrag tentoonspreiden. Winkeliers
zetten ruziezoekers en winkeldieven in een database en hoteliers plaatsen ver-
velende gasten op een zwarte lijst. Een greep uit de zwarte lijsten:
egistratie, dat daarom een zwarte lijst heeft gemaakt. Een medewerker van
R
een hotel krijgt alleen te zien dat iemand op de lijst staat, niet waarom. Daar-
voor moet hij contact opnemen met de security van het hotel.
Voorbeeld
Op de zwarte lijst van verhuurbedrijven van auto’s worden voor ieder persoon
twaalf gegevens bijgehouden:
1. naam;
2. adres;
3. woonplaats;
4. rijbewijsnummer;
5. reden van registratie;
6. geboortedatum;
7. telefoonnummers;
8. voertuiggegevens (alleen in geval van verduistering van het voertuig);
9. land;
10. geslacht;
11. e-mailadres;
12. KvK-nummer indien het een zakelijke klant betreft.
Wie zijn de volgers van het raceteam Red Bull Racing? De conclusie is dat
mensen die van racen houden, ook merken en personen volgen die met auto’s
te maken hebben. Sociologisch is dit razend interessant, journalistiek gezien
wellicht niet.
Hirst werkt veel met Gephi, gratis exploratiesoftware voor netwerken (http://
forreporters.com/oohg). Ditzelfde programma wordt ook gebruikt om bij-
voorbeeld vliegbewegingen in beeld te brengen boven de VS.
Figuur 2.12 Met TwitCheck zie je in één oogopslag hoe vaak iemand per week
of per maand tweet, zoals hier een redacteur van de Leeuwarder
Courant
Praktische toepassingen
Een tweede toepassing van Follower Wonk is dat je moeilijk bereikbare men-
sen via hun gemeenschappelijke kennissen toch weet te bereiken.
Heel prettig is Follower Wonk voor het in kaart brengen van netwerken
die je nog niet kent. In een onderzoek naar prijsafspraken in een voor mij
onbekende branche had ik aanvankelijk maar weinig bronnen. Door ze met
elkaar te kruisen kreeg ik hun gezamenlijke contacten en vond zes nieuwe
namen uit dezelfde sector. Elke nieuwe naam zette ik in Follower Wonk en dat
leverde weer nieuwe namen op. Na een uurtje zoeken had ik vijftig namen van
mensen in een branche die ik tot kort daarvoor niet kende.
Figuur 2.13 De auteurs van dit boek delen 119 vrienden, vooral journalisten
Kijk eens naar figuur 2.14. Wie van deze mensen herken je?
Zag je de bedenker van de term Web 2.0 (figuur 2.15) of de voormalig evange-
list van Apple (figuur 2.16)?
Figuur 2.15 Tim O’Reilly, de man die de term Web 2.0 bedacht en voorvechter
van open data
Figuur 2.16 Guy Kawasaki, hier met een iets andere avatar dan in figuur 2.14
Met behulp van ranking tools en lijsten kom je erachter wie de experts zijn
over een niche-onderwerp. Andersom werkt het ook: heb je al een naam van
iemand, dan krijg je een idee waarover hij vooral praat in sociale media en hoe
peers (gelijken) hem inschatten.
Ranking tools
Ranking tools onderzoeken wie met wie praat over welk onderwerp en bereke-
nen vervolgens hoe belangrijk iemand is. Klout.com en peerindex.com zijn de
twee grootste ranking tools. Ze zijn niet perfect, maar als je weet hoe ze wer-
ken, kun je er wel wat mee. Wat?
Wat zie je hier? Het gaat om de onderwerpen waarover ik in sociale media het
meest praat – althans volgens Klout.com. De eerste drie kloppen aardig.
Laat je vooral leiden door de onderwerpen met het woord Strong erachter.
Bij Medium is meestal het volume van uitingen te klein en slaat de computer
maar een wilde slag naar iets. Zo heb ik geen idee waarom ik enigszins gezag-
hebbend zou zijn over Colorado.
Bij Mark Rutte (VVD) weet de computer dat hij gezaghebbend is over het
onderwerp government (http://forreporters.com/m4ei).
Dit soort diensten komen tot wasdom wanneer de onderzochte personen zeer
actief zijn in sociale media: hoe meer informatie, hoe beter het meest geuite
onderwerp kan worden voorspeld.
In Peerindex.com kun je soms ook zien wat de meest geciteerde bronnen zijn
van iemand (als er voldoende tweets zijn). Zanger Marco Borsato noemt dag-
blad De Telegraaf het vaakst – de stukken gaan vooral over hemzelf.
Lijsten
Specifiek voor Twitter zijn lijsten. Individuele twitteraars bergen hierin hun
favoriete personen op. Veel van de lijsten zijn openbaar en te doorzoeken via
http://listorious.com.
Figuur 2.22 Handig: een zoekmachine voor Twitter-lijsten, vooral goed in het
vinden van Engelssprekende experts
Stel, je wilt weten wie de topexpert is op het gebied van rellen in London.
Flipboard kijkt onder meer naar de Twitter-lijsten over de rellen in Londen
en meet welke experts het vaakst genoemd worden. In een discussie over het
gebruik van sociale media op radiozender BNR gaf de Britse correspondent
voor persdienst GPD aan dat zij vooral Paul Lewis van The Guardian volgt.
Deze tip van een kenner komt ook tevoorschijn als je in Flipboard op ‘Paul
Lewis’ zoekt. Hoe kan het dat een computer het net zo goed weet als een
expert? Omdat juist de meningen van experts zijn bijgehouden. Journalist
Paul Lewis komt in Twitter-lijsten vaak voor met de naam ‘London Riots’.
LinkedIn, het netwerk van mensen met een aktetasje, bestaat uit meer dan
drie miljoen Nederlanders die vrijwillig hun cv hebben achtergelaten. De
enorme hoeveelheid data is toegankelijk via de optie Geavanceerd Zoeken,
http://forreporters.com/linkedin2 – registratie is vereist, voertaal is Engels.
Stel, je zoekt voor een verhaal contact met mensen die bij supermarktketen
Lidl hebben gewerkt, maar nu actief zijn als consultant. Zet achter Company
de bedrijfsnaam en klik op Past not current.
Figuur 2.24 Met deze zoekactie sluit je mensen uit die eerst bij Lidl werkten en
er later weer terugkeerden
Je ziet nu honderden mensen die van zichzelf beweren dat ze bij Lidl hebben
gewerkt.
Op deze manier kun je mensen vinden die eerst bij een Nederlandse bank
hebben gewerkt, maar nu croupier zijn. Ook stel je vast welk KLM-personeel
nu bij defensie werkt of welke voormalige Shell-medewerker nu in de eco
logische sector zit. Ook voor de actualiteit is de database van LinkedIn han-
dig, bijvoorbeeld als je snel wil weten welke Nederlanders in de buurt wonen
van een Japanse kernreactor die bedreigd wordt door een tornado.
Figuur 2.28 Zoeken op postcode binnen 80 kilometer of meer kan ook bij Lin-
kedIn
Plak nu al deze functies in Google. Bovenaan zie je nu een zekere John Brink
staan:
Vergelijk figuur 2.31 met figuur 2.29: je ziet nu dat op de naam na beide scher-
men hetzelfde zijn.
Zoeken op locatie
Zoeken op tijdstip
Figuur 2.34 Google had vroeger Google Timeline, maar wist het contract met
Facebook en Twitter niet te verlengen. Bing (Microsoft) ging er
met het idee vandoor
Figuur 2.35 Het peperdure Datasift maakt het mogelijk om oude tweets en
berichten van LinkedIn terug te vinden
API’s kijken
Hoe krijg je nog niet gepubliceerde informatie van de overheid in handen? (In
par. 2.4 bespreken we de openbare gegevens van de overheid.)
Dat is soms best lastig. We telden maar liefst 41 bezwaren van ambtenaren
waarin zij aangeven waarom de gevraagde database niet wordt gegeven. Dit
hoofdstuk geeft je materiaal om je niet te laten afpoeieren. Desnoods doe je
een beroep op de Wet openbaarheid van bestuur.
Persoonsgegevens
Om de privacy te beschermen hebben alleen direct betrokkenen toegang tot
persoonsgegevens in documenten.
In figuur 2.37 zie je maar liefst veertig redenen waarom een ambtenaar geen
medewerking verleent. Deze lijst is gebaseerd op onze ervaring met verzoeken
om data.
Geld/Tijd Praktisch/Technisch
Het heef voor ons geen waarde Bestand is niet goed genoeg
Akkoord, maar het kost u veel geld We hebben het alleen op papier
Figuur 2.38 De 41ste reden kregen we via Twitter te horen. Jeroen Veen-
stra vindt journalisten soms onfatsoenlijk en stuurt ze alleen al
daarom direct door naar een afdeling voorlichting
Volgens Brenninkmeijer zou de Wob overbodig moeten zijn. ‘De wet is bedoeld
om informatie los te krijgen, maar in de praktijk komen journalisten terecht in een
oerwoud van procedures die het hen juist erg moeilijk maakt.’ Zie ook http://for
reporters.com/wob1 en http://forreporters.com/wob2.
Hoe pareer je een dreigende weigering? Leer de taal spreken van ambtenaren.
Dat is misschien saai, maar het werkt wel. Probeer je in te leven in hun pro-
blemen – ook al vind je ze vreemd. Laat je inspireren door het ‘Wob-manifest’
van de Nationale Ombudsman. Dat zijn acht suggesties die hij aan ambtena-
ren deed op grond van analyse van de werking van de Wob. Normaal gespro-
ken zijn die alleen voor ambtenaren interessant, maar jij kunt ze misschien
gebruiken om de discussie net in je voordeel te laten kantelen. Dan hoef je
geen tijdrovende Wob-procedure te beginnen en is de ambtenaar uiteindelijk
ook minder tijd kwijt.
4. Vermijd een juridische strijd rond het al dan niet verstrekken van over-
heidsinformatie. Als redelijkerwijs discussie mogelijk is over het al dan niet
openbaar maken, ga dan een open gesprek aan en bekijk welke informatie
bijdraagt aan transparantie voor de geïnteresseerde burger.
Haal dit argument aan als de ambtenaar geen millimeter ruimte geeft.
Persoonlijk contact kan soms wonderen verrichten. Probeer een gesprek niet
meteen te laten ploffen, maar vraag om een (nieuwe) afspraak.
8. Als er strijd ontstaat over het al dan niet verstrekken van informatie, stelt
u zich dan primair de vraag welk maatschappelijk belang met de strijd
gediend is en welk aandeel u of uw overheidsorganisatie heeft in deze strijd.
Zeg: ‘Als we een Wob-procedure beginnen, welk maatschappelijk belang ver-
dedigt u dan in onze strijd?’
Mislukt het overleg, dan moet je aan de slag met de Wob. Kies alleen zaken
die over een jaar ook nog interessant kunnen zijn. RTL had op een bepaald
moment meer dan vijf miljoen verkeersovertredingen in handen op grond
waarvan een interessante serie items kon worden gemaakt. Ook wist de
omroep de individuele uitgaven van ministers te melden. KRO’s Reporter
kreeg na maanden helder tegen welke bedragen (ex-)journalisten zich door de
overheid lieten inhuren.
De Wob regelt de openbaarheid van documenten van bestuursorganen. Dat
zijn bijvoorbeeld ministeries, gemeenten en provincies, maar ook zelfstan-
dige bestuursorganen zoals het Hoofdbedrijfschap Detailhandel, het Cen-
traal Bureau Rijvaardigheidsbewijzen en de Stichting Landelijke Mestbank.
Weet jij wat alle zelfstandige bestuursorganen zijn in Nederland? Een lijstje
van organen vind je op http://forreporters.com/bestuursorganen en http://for
reporters.com/zbo.
De belangrijkste voorwaarde voor het opvragen van een document is dat het
bestaat. Het moet officieel zijn. Notulen zijn bijvoorbeeld documenten. Maar
als het voorlopige notulen betreft, is dit nog geen vastgelegd document. Ook
een rapport bestaat pas als het is afgerond. Een rapport in concept is dus niet
te wobben.
Een video en een e-mail zijn weer wel documenten, want ze bestaan officieel.
De strijd over wat wel en niet een document is, wordt in veel landen gestreden.
Dit lijkt juridisch getouwtrek, maar voor een wobber is dit wel degelijk van
belang. De overheid zal eerder bij gevoelige documenten met de document-
definitie rommelen. En dat zijn juist de stukken die een Wob-procedure de
moeite waard maken.
De procedure
Hoe weet je of je een kans maakt? Hoe stel je een verzoek op? Ga hiervoor naar
http://forreporters.com/wobtoets.
Krijg je de stukken niet meteen, dan rest je niets anders dan een procedure
bij de rechtbank. Die duurt behoorlijk lang (één tot twee jaar). Journalisten
kunnen een beroep doen op een versnelde behandeling, maar begin nooit een
Wob-procedure vlak voor een deadline.
Figuur 2.40 Roger Vleugels, Wob-specialist, legt in een video uit waar je op
moet letten, zie http://forreporters.com/wobtoets
De Stichting Dat zou jij wel willen weten komt met de volgende tips als je niet
direct de gewenste stukken krijgt. Drie problemen, met drie ontsnappings-
routes:
In dit onderdeel leer je wat open data zijn, waar je deze kunt vinden en maak
je kennis met alle basisregistraties die de overheid heeft. Met open data over
gevaarlijke gaslekken proberen we zélf nieuws te maken.
Figuur 2.41 De droom van elke datajournalist: alle gegevens van de Neder-
landse overheid zijn openbaar, gemakkelijk vergelijkbaar en zon-
der speciale programmatuur toegankelijk (fantasiefoto, met dank
aan @opendatanl)
Het enige, verouderde cijfer dateert uit 2009: er zijn zeker 3500 overheidsdata-
bases met daarin meer dan 5000 personen, bijvoorbeeld het biometrische pas-
poort, de Verwijsindex Risicojongeren, nationale profielen en allerlei andere
digitale profielen van burgers. Veel van dit materiaal is niet toegankelijk voor
journalisten.
Figuur 2.42 Drie applicaties die met behulp van open data zijn gemaakt.
Hoge Nood vindt het dichtstbijzijnde openbare toilet, Brugalarm
is een waarschuwsysteem voor watersporters die vooraf willen
weten wanneer de brug sluit en met de Uitrukscanner volg je de
Amsterdamse brandweer in actie
Niet alle informatie is gratis, zoals toegang tot het handelsregister van de
Kamer van Koophandel of het kadaster. De meest succesvolle toepassingen
van open data zijn vaak regionaal gebonden: wat is het weer in deze straat,
waar zitten de beste scholen in mijn buurt, waar vind ik een openbaar toilet,
welke bouwbesluiten zijn er genomen, welke liften zitten vaak vast, hoeveel
gaslekken zijn er of hoeveel allochtonen wonen er in mijn wijk?
De data zijn door de overheid verzameld bij de uitvoering van een publieke
taak en gefinancierd met publieke middelen. Open data moeten voldoen aan
‘open standaarden’: deze moeten bij voorkeur door een computer kunnen
worden gelezen. Het bestand moet zo worden aangeboden dat het gemak-
kelijk vergeleken en bestudeerd kan worden. In de praktijk valt de uitwissel-
baarheid nog tegen, maar langzamerhand ontstaat er meer animo om data in
bruikbare vorm openbaar te maken. Op www.pleio.nl kun je meelezen met
ambtenaren die meer data openbaar willen, en op sociaal netwerk LinkedIn is
er ‘Open Data Nederland’, waarin je in gesprek kan gaan met de mensen ach-
ter open data-initiatieven.
Figuur 2.44 Bij het bronnenonderzoek voor dit boek gebruikten we ook zelf
‘Open Data Nederland’ op LinkedIn, http://forreporters.com/
datagroep
Open data zijn te vinden bij (rijks)overheid (par. 2.4.2), bij provincies
(par. 2.4.3) en bij gemeenten (par. 2.4.4) en af en toe ook bij andere bedrijven
en organisaties die zelf overheidsinformatie aan elkaar hebben geknoopt en
het resultaat daarvan delen met anderen.
Zelf controleren
Figuur 2.49 Dagverse open data via sociale media: de verwijzingen zijn maar
een paar uur oud
inurl:opendata site:nl
inurl:open data site:nl
inurl:open_data site:nl
Het gaat je vooral om actuele informatie. Doe eerst een zoekactie en kies dan
links ‘Meer opties’ en je ziet
2.4.2 Rijksoverheid
van het CBS, bestaat uit tabellen die naar thema geordend zijn. Uit deze tabel-
len zijn selecties samen te stellen die je kunt exporteren naar Excel.
StatLine wordt dagelijks aangevuld met informatie die gedurende het jaar
door bedrijven en instellingen, personen en gezinnen beschikbaar komt. Uit-
gangspunt is dat maandcijfers de maand daaropvolgend worden uitgebracht.
De basisregistraties
Welke bestanden zijn openbaar en wat kun je er zoal mee? Dat zie je in het
volgende schema:
Basisadministratie (GBA)
Welke gegevens?
De database bevat fouten. Bij 5% van alle personen staan foutieve gegevens;
oorzaak hiervan is meestal het niet opgeven van een verhuizing. Het gaat om
ruim 800.000 Nederlanders (gegevens 2009).
Dat zijn:
• alle overheidsdiensten die daarvoor toestemming hebben, bijvoorbeeld
de Belastingdienst, Justitie (bekeuringen), de Rijksdienst voor het Weg
verkeer en de Sociale Verzekeringsbank;
• notarissen, advocaten, curatoren, pensioenfondsen, onderwijsinstellingen,
gezondheidsinstellingen, banken, verzekeraars, maatschappelijke diensten,
Bureau Kredietregistratie, waterschappen;
• wetenschappers, bijvoorbeeld voor bevolkingsonderzoeken naar borst-
kanker.
Persoonsgegevens zijn belangrijk voor het dagelijkse werk. Je wilt zeker weten
dat je de juiste persoon te pakken hebt. Journalisten hebben geen toegang
tot het GBA, maar via een omweg is een gedeelte van de adresgegevens van
Nederlanders met een eigen huis toch te achterhalen. Dat komt omdat het
kadaster een rechtstreekse koppeling heeft met het GBA. In het GBA mag je
niet zoeken, in het kadaster wel (tegen betaling). Zo krijg je alsnog toegang tot
miljoenen adresgegevens.
Het Handelsregister
Deze database van de Kamer van Koophandel bevat alle ingeschreven bedrij-
ven in Nederland en de stukken die ze volgens de wet moeten produceren,
zoals jaarverslagen, concernrelaties, deponeringen, statuten en bedrijfs
omschrijvingen.
Welke gegevens?
Bouw
Detailhandel
Financieel
Groothandel
Horeca
Industrie
Landbouw, bosbouw en visserij
Overig
Persoonlijke diensten
Vervoer
Zakelijke diensten
Kun je de branche niet snel genoeg vinden, type deze dan in op de algemene
zoekmachine www.kvk.nl, in dit voorbeeld: rijschool of rijscholen. Verfijn
vervolgens je resultaat door op ‘Informatie en advies’ te klikken. Je komt dan
alsnog uit bij een overzicht. Je ziet dan dat in de laatste drie maanden van 2011
bijna 400 rijscholen over de kop zijn gegaan, informatie die wellicht de basis
kan vormen voor een verhaal.
De Kamer van Koophandel maakt voor de weergave van data gebruik van
gratis Google-tools, te weten http://forreporters.com/chart en http://forrepor-
ters.com/combo.
Vrijwel elke provincie is bezig met een open data-initiatief. We noemen er een
paar:
• provincie Flevoland: www.flevolandopentdata.nl;
• provincie Zuid-Holland: http://forreporters.com/zuidholland;
• provincie Noord-Holland: http://forreporters.com/noordholland;
• provincie Utrecht: http://forreporters.com/utrecht.
Laten we eens aan de slag gaan met een provinciaal bestand. Netwerkbedrijf
Alliander, in handen van Nederlandse gemeenten en provincies, publiceert
vrijwillig databases met daarin de storingen in het gas- en elektriciteitsnet.
We gaan grasduinen in de gaslekken van de provincie Flevoland.
Ga naar Flevoland Opent Data, http://forreporters.com/7m8l, en klik op
Dataset ‘Gas storingen Flevoland’.
Download het bestand en open het in Excel. Je hoeft niets te converteren.
Klik links van cel A1 en ga naar Gegevens -> Filteren. Hiermee zet je het filter
aan.
1. Bewaar de data
Het belangrijkste advies is: bewaar de data. Schrijf ze weg naar je harde schijf
of zet ze op een USB-stick of mobiele schijf. In de wereld van open data is het
niet ongebruikelijk dat data opeens verdwijnen van het web omdat een ambte-
naar of politicus het achteraf gezien niet zo verstandig vond om tot openbaar-
making over te gaan.
De auteurs van het boek maakten mee dat gegevens werden verwijderd toen
we vroegen om een nadere toelichting op de opbouw van de cijfers. De amb-
tenaar antwoordde: ‘Als het u niet duidelijk is, zal ik het wel van de site halen.’
2. Vraag door
Een goed open databestand bevat een keurige uitleg van alle begrippen.
Helaas ontbreekt de uitleg vaak of is deze onduidelijk of niet ter zake. Neem
daar geen genoegen mee. Als jij het niet snapt, hoe moet je het dan je lezer of
kijker uitleggen?
Neem de omschrijvingen boven de ruim twintig kolommen door. Begrijp je
alles? Weet je wat een gasdruk is? Wat is een inlaatdruk? Wat betekent deel-
systeem? Hoe hoog moet die zijn bij normaal gebruik? Wat bedoelen ze met
aantal verbruikersminuten?
Helaas word je niet veel wijzer van het derde Tab-blad ‘Verklaring’. Schroom
niet het bedrijf te mailen of te bellen als je het niet snapt. Pas daarna kun je
aan de slag met grasduinen. Een goed open databestand bevat een keurige uit-
leg van alle begrippen. Helaas moet je bij dit bestand zelf aan de slag.
veld is in tientallen gevallen leeg. Wat betekent dat? Betekent dat er 0 klanten
betrokken waren? Of zijn de waarden per ongeluk weggevallen? Als je boven-
dien kolom AU sorteert ( Was de veiligheid in geding?), dan vind je meer dan
dertig gevallen waarbij er gevaar was, maar dat er geen klanten bij betrok-
ken waren. Hoe kan er gevaar zijn als niemand in gevaar is? Of bedoelt het
netwerkbedrijf misschien iets anders met ‘veiligheid in geding’? Of ontbreken
de gegevens van klanten van wie de veiligheid in het geding is?
Soms weet je niet wat je niet weet. Lees altijd de Verklaring of Toelichting
omdat daar soms velden staan genoemd die jij helemaal niet ziet in Excel
omdat ze verwijderd zijn. Dat is ook het geval met ons bestand van gaslekken:
In de verklaring staan meer dan 54 velden, terwijl jij er nog geen dertig voor je
neus hebt. De meest interessante is:
Deze kolom komt niet terug in de cijfers voor 2010, wel voor 2011. Vraag er
alsnog naar.
Je ziet in kolom W, over de oorzaken van de gaslekken, soms ook staan ‘Anders,
toelichting bij opmerkingen’. Maar het veld Opmerkingen ontbreekt. Dit moei-
zame proces is niet voorbehouden aan gaslekken. We hebben nog nooit een
open databestand gevonden dat compleet is of geen fouten bevat. Het is aan jou
om de missende gegevens op te vragen en de fouten te h erstellen.
Je ziet al gauw dat elf van de gevaarlijke gaslekken zijn ontstaan door aan-
legfouten in het verleden. Als je kolom AE sorteert, tel je dat door verkeerde
installatie van de gasmeter zelf vijftien keer aanlegfouten zijn gemaakt. Het
is een vermoeiende klus om dit per keer per categorie te moeten uitrekenen.
Daarvoor zijn draaitabellen uitgevonden: vergelijk zonder zelf te hoeven reke-
nen je favoriete gegevens.
6. Vergelijken
We willen alleen werken met de gaslekken waarbij de veiligheid in geding
is geweest. Zorg ervoor dat je alleen kolom AL gefilterd hebt op JA. Kopieer
dit hele bestand naar een nieuw werkblad – vergeet niet het plakken te laten
beginnen in A1. Zet Gegevens – Filteren aan. Klik op CTRL-A (markeer alles)
en ga dan naar Gegevens – Draaitabel en klik op OK. We komen in het vol-
gende hoofdstuk nog uitgebreid terug op de draaitabel. Voor nu gaat het ons
om het beantwoorden van de volgende vraag:
Waar komen gevaarlijke gaslekken het meest voor: bij mensen thuis of in de
verbindingen?
Hier zie je dat de gasmeter vooral lekt vanwege ouderdom: betekent dat mis-
schien dat het netwerkbedrijf te lang heeft gewacht met vervanging?
7. Visualiseer je data
Het is misschien interessant om op een kaartje te zien op welke plekken de
graafmachines de gasleiding het vaakst beschadigen. Dat gaan we doen met
de gratis webdienst Google Fusion Tables waarmee je online data kan bewer-
ken en visualiseren. We moeten eerst in Excel de andere oorzaken weghalen.
Ga naar kolom W, klik op het pijltje en zorg ervoor dat alleen GRAAFWERK
aanstaat. Markeer alles met CTRL-A, open een nieuwe werkmap en plak met
CTRL-V. Schrijf dit bestand weg als graafwerk.xls.
Figuur 2.65 Geel? Dan snapt Google dat het om een plaats gaat
Je ziet dat de plaatsnamen opeens geel zijn geworden. Dat komt omdat Google
Fusion snapt dat dit plaatsnamen zijn. Alleen, we willen heel precies kunnen
zien waar de gaslekken zijn veroorzaakt, het liefst op postcode. Dat kan alleen
als Google weet dat de waarden onder POSTCODE geografische gegevens
zijn. Dat doe je zo:
Klik op Modify columns en klik op Postcode. Verander onder Type het type
van Text naar Location, vergeet niet Save te klikken.
Figuur 2.67 Google weet nu dat POSTCODE een locatie-veld moet zijn …
De postcodes worden nu ook geel ten teken dat Google de gegevens voortaan
als geografisch beschouwt:
Hoeveel databanken van de Nederlandse overheid zijn er? Dat weet niemand.
Het enige, verouderde cijfer dateert uit 2009: er zijn zeker 3500 overheids
databases met daarin meer dan 5000 personen, bijvoorbeeld het biometrische
paspoort, de Verwijsindex Risicojongeren, nationale en allerlei andere digitale
profielen van burgers. Veel van dit materiaal is niet toegankelijk voor journa-
listen.
Het gebruik van open data in gemeenten is sterk in opkomst. Een actueel
overzicht van bruikbare datasets staat op http://forreporters.com/rwrp.
Figuur 2.72 Gemeenten in de weer met applicaties op basis van open data
Om welke gegevens kun je vragen bij gemeenten? Uit een onderzoek onder
alle gemeenten blijkt dat onderstaande lijst met meer dan twintig datasets
doorgaans met een telefoontje naar de juiste afdeling te verkrijgen is:
Wie heel goed kijkt, ziet dat de ene voetbalclub spreekt van E-pupillen,
de andere van E – pupil, met een spatie voor en na het koppelteken. Wie in
Google alleen ‘E-pupil’ had ingetikt en niet ‘E – pupil’ had deze bron niet
gevonden. Het woord ‘contributie’ staat wel in beide documenten, maar weer
andere voetbalclubs spreken liever van prijzen.
Dat lijkt muggenzifterij en dat is het ook. Een computer is nu eenmaal pre-
cies. In het ene document wordt het woord euro voluit genoemd, in het
andere komt het niet eens voor. Wie zoekt op het euroteken, vindt nooit wat in
Google. Het is niet toegestaan daarop te zoeken. (Ook zoeken naar negatieve
waarden gaat niet. Tik maar eens -1 in Google: 0 resultaten.)
Dit proces is voor geoefende datajournalisten in een dag te doen. Groot voor-
deel is dat je dit onderzoekje een jaar later kunt herhalen en dan kunt zien
vergelijken waar de grootste prijsdalingen of -stijgingen zijn door de prijzen
met elkaar te vergelijken. De techniek stelt je bovendien een staat om per voet-
balclub automatisch een mailtje te krijgen als de contributie verandert. Het
maakt dat je zonder de hulp van Google databases kunt maken en dat opent
de deur naar nieuwe ideeën. Een paar suggesties:
• monitor de prijzen van hotels;
• krijg inzicht in de details van een supermarktoorlog;
• ontwaar (doorgaans niet geoorloofde) prijsafspraken in bepaalde branches;
• ontdek of een bepaalde gemeente nieuwe documenten online heeft gezet;
• krijg als eerste een signaal als een bepaald trefwoord op het web wordt gezet.
Het vakblad Medisch Contact haalde de uitspraken van het Tuchtcollege voor
de Gezondheidszorg naar de harde schijf en liet er een zoekmachine op los.
Daaruit bleek dat de verschillen in tuchtrechtspraak per regio soms zeer groot
zijn en werd ook duidelijk welke vergrijpen het vaakst voorkomen in welke
beroepsgroepen.
Een van de auteurs van dit boek trok op de Dag van de Persvrijheid een feeste-
lijk pak aan in een poging om ter plekke interessante, nieuwe databases te vin-
den. Na twee uur bleef de teller op twintig bronnen steken, meer dan genoeg
als eerste oogst. De truc? Besef dat Google niet alle databases van de wereld
ziet. Soms ziet de zoekmachine alleen maar de voordeur van een website en
niet de achterkamertjes.
Het is alsof Google van een flatgebouw alleen de eerste drie etages ziet,
daarna gaat het mis. Prima databases worden door Google genegeerd. Een
voorbeeld: op www.advocatenorde.nl staan bijna alle advocaten van Neder-
land in een database. Stel. je zoekt mr. G.Th. Offreins. Met het commando
site:advocatenorde.nl bevraag je direct wat Google van deze database ziet.
Het onthutsende antwoord: niets.
Hoe kan het dat de database van de advocaten alleen bij een rechtstreeks
bezoek antwoord geeft, maar niet via Google? Google kan domweg niet zien
wat er in de database staat.
Op de ‘voordeur’ van de advocatensite staat alleen maar ‘Vind uw advocaat’
met een serie lege velden en wat omschrijvingen. Pas als een mens een naam
van een advocaat of een woonplaats intikt, opent de database zich. Dyna-
misch gegenereerde zoekresultaten bestaan pas als eerst een mens iets aan
de computer heeft gevraagd. Google heeft geen flauw idee wat er in de witte
zoekvelden moet worden ingetikt. De database geeft zijn inhoud niet prijs aan
Google.
Je hebt maar één manier om dit soort verborgen databases te vinden: door de
voordeur te voorspellen. Stel, je zoekt een databases met daarin patenten. Veel
zekerheden heb je niet: op de site zelf zal een knop staan met het woord Search
en waarschijnlijk ook Patents. Tik deze twee woorden in: search patents. Je
krijgt nu in de top tien drie grote databases te zien met daarin patenten. Hier-
onder geven we een checklist om snel zelf onbekende databases te vinden:
• Het probleem: databases blijven verborgen omdat Google er niet in kan
kijken.
• Waarom dit zo is: alleen de voordeur is soms zichtbaar voor Google, en
wat bijkamertjes, de hoofdkamers niet.
• De oplossing: beschrijf nauwkeurig de voordeur en zoek pas in de database
verder.
zoek, zoeken, search, find, trace, database, databank, register, track, search
by, zoek naar, select, selecteer, index, online, enter name, naam, vind, over-
zicht, lijst.
Extra tips
Dit langste hoofdstuk van dit boek doet je hopelijk beseffen dat er voldoende
materiaal bestaat om datajournalistiek mee te bedrijven. We kunnen hier niet
eens alles melden: je kunt ook eigen data creëren met behulp van onderzoe-
ken, of je in de wereld van mobiele data verdiepen. Op http://forreporters.
com/datavinden lees je meer.
Formulieren vinden
Probeer via internet vijf formulieren te vinden die interessant zijn om nader te
onderzoeken. Kijk heel precies naar welke gegevens het formulier vraagt. Zet
de omschrijving van de gegevens in Excel in kolommenindeling. Begin vanaf
cel A1.
Formulier bestuderen
In figuur 2.4 zie je dat de gemeente Losser een ‘FORMULIER KLACHT
TEGEN BESTUURLIJK OF AMBTELIJK OPTREDEN’ heeft – de hoofdlet-
ters zijn van de gemeente zelf. Download dit formulier nu via http://forrepor-
ters.com/klacht.
Het is 75 Kb groot en bestaat uit een pdf.
Open het document en bekijk welke gegevens worden bijgehouden: gaat het
alleen om de afdeling, om medewerkers, om bestuurders of deze allemaal?
Op welke manier wordt de database nog verder gevuld? Met gedwongen vra-
gen of juist open vragen? Wordt ook de datum van het voorval bijgehouden?
Wat voor gegevens worden bijgehouden van de persoon die de klacht indient?
Door goed na te denken over de vraag tot wat voor databasevelden zo’n for-
mulier leidt, kun je gerichtere vragen stellen aan het gemeentebestuur. Wordt
misschien ook de postcode van klagers genoteerd? Dan kun je proberen om
een uitsplitsing op te vragen op postcode: in welke wijken wordt het meest
geklaagd over de gemeente?
Verbanden vinden
Ga naar Follower Wonk (http://forreporters.com/wonk) en kies voor de optie
‘Compare Users’. Vul nu de Twitter-namen in van drie mensen en kijk wie
hun gemeenschappelijke vrienden zijn. Wat zegt dit? Wat vind je opvallend?
Wat niet?
Beargumenteren
Natuurlijk is een goed gekozen argument niet bij voorbaat het recept voor suc-
ces. Maar als je niets probeert, weet je zeker dat je moet procederen. Zet achter
elk van de veertig bezwaren van ambtenaren, zoals deze zijn weergegeven in
paragraaf 2.2.3, één of meer tegenargumenten van de Nationale Ombudsman
uit paragraaf 2.2.4, zoals je hieronder ziet:
Wat is openbaar?
Af en toe moet er zelfs een rechter aan te pas te komen om te bepalen wat een
zelfstandig bestuursorgaan is – zo onduidelijk kan het soms zijn. Er zijn ruim
260 officiële zbo’s die je kunt doorbladeren op http://forreporters.com/zbo.
Stel je voor: je hebt eindelijk dat prachtige databestand gevonden. Tijd om aan
de slag te gaan! Dan ontdek je de bittere praktijk van spelfouten, dubbele rijen
en gekke variabelen. Niet ieder databestand is direct geschikt voor een gede-
gen analyse. Sommige databestanden schreeuwen om een grote schoonmaak.
Dit hoofdstuk biedt een richtlijn om stap voor stap data te importeren, op te
schonen en een eerste eenvoudige analyse te maken. Het biedt oplossingen
voor problemen als:
Hoe je dit doet, is afhankelijk van wat je te importeren hebt. Excel houdt
natuurlijk het meest van haar eigen formaat, .xls (of een variant hiervan, zoals
.xlsx). Als je zo’n bestand hebt, dan is het binnenhalen geen probleem, mits
het niet langer is dan zo’n 65.000 rijen, of breder dan 250 kolommen. Dan
sputtert Excel namelijk tegen. Mocht je een bestand hebben dat groter is, zet
het dan even om naar bijvoorbeeld een .csv- of .mdb-bestand. Daarvan accep-
teert Excel 1.048.576 rijen en 16.384 kolommen. Nogal een verschil.
Een .csv (Comma-separated value) bestand geldt als een Excel-vriendelijk for-
maat. Net als zijn andere Excel vriendelijke broeders .txt (Text file) en .xml
(Extensible Markup Language). Deze kun je over het algemeen zonder proble-
men gebruiken, als je ze even omzet. We bespreken in dit boek de twee meest
voorkomende afwijkende formaten: .csv, en .txt. Zie de handleiding van Excel
(http://forreporters.com/importeren) voor een bespreking van het importe-
ren van .html, .mdb, .xml en .pdf. Daar vind je ook meer informatie over de
manier waarop je data direct van een website in Excel kan importeren.
Een .csv-bestand kun je in Excel gewoon openen, zonder gekke toeren. Excel
herkent de komma’s als scheidingsteken en zet op basis van dit scheidings
teken de data direct in kolommen. Mocht je onverhoopt toch problemen
tegenkomen, volg dan de instructies als die voor een .txt-bestand.
Vergeleken met het importeren van een .xls- of .csv-bestand is er bij .txt is
iets meer werk aan de winkel. .txt-files zijn vaak files met daarin op het eerste
gezicht onduidelijke lappen tekst (bijvoorbeeld een namenlijst). Een voorbeeld
van een .txt-bestand is het open databestand van de gemeente Amsterdam met
een overzicht van bedrijven die een auto-deelservice aanbieden en de locaties
waarop de auto’s te vinden zijn (http://forreporters.com/parkeerplaatsen). Het
tekstbestand bevat ongeveer 900 regels en ziet er na het openen zo uit:
De Wizard scant de data en vraagt of je het wilt openen als een bestand met
tekens die als scheiding werken, of als een bestand waar een vaste ruimte
wordt gebruikt om de onderdelen de scheiden. In het geval van ons deelauto-
bestand bepaalt het teken ‘:’ de scheiding tussen verschillende data. Dit vertel
je bij de volgende stap aan Excel (bij een .csv-bestand geef je hier aan dat het
om een komma gaat).
Nadat je dit hebt gedaan, zie je meteen de kolommen ontstaan in de Text
Import Wizard.
Als je nu verder gaat, zie je dat je .txt-bestand keurig opgedeeld in het werk-
blad verschijnt; de grote schoonmaak kan beginnen.
Net als het maken van typefout gaat er ook wel eens iets mis bij het samenvoe-
gen van verschillende bestanden. Soms ontstaan hierdoor dubbele waarden.
Een dubbele waarde is een waarde in een rij die exact gelijk is aan de waarde(s)
in een andere rij. Dat weten wij, maar Excel in eerste instantie niet. En zo kan
het ineens zo zijn dat er door een foutje in de database niet één, maar twee
Greenwheels- bedrijven gevestigd zijn aan de Amstel 266.
Dubbele waarden worden vastgesteld door de waarde die in de cel wordt weer-
gegeven en dat hoeft niet per se de waarde te zijn die in de cel is opgeslagen.
Als je bijvoorbeeld dezelfde datumwaarde in twee verschillende cellen hebt
staan en de ene cel is opgemaakt als ’13-4-1979’ en de andere als ’13 april 1979’,
telt Excel twee unieke waarden. Terwijl het toch echt een en dezelfde dag is.
Zorg trouwens dat je, voordat je aan dit schoonmaakwerk begint, altijd een
kopie bewaart van je originele bestand. En maak een nieuw werkblad voor
elke verandering die je maakt, zodat je bij een foutje niet gelijk in de stress
hoeft te schieten.
Als je voorzichtig wilt beginnen en alleen wilt checken of er dubbele waarden
in je bestand zitten, zonder deze direct te verwijderen, kun je dit doen door bij
het tabblad Start de opdracht Voorwaardelijke opmaak in de groep Stijlen te
geven. In het auto-deeldatabestand lichten direct een aantal rijen op.
voorkomt. Heel normaal zelfs. Wel is het wat gek dat er verschillende straat-
namen oplichten. Maar ook hierbij blijkt na een nadere inspectie niets aan
de hand te zijn. De geocodes verschillen en dit betekent dat zich in sommige
straten gewoon meerdere locaties bevinden. Wel gaat hier een klein alarmbel-
letje rinkelen: je ziet hier duidelijk dat sommige straatnamen wél en sommige
straatnamen géén huisnummer bevatten.
Als je wél dubbelingen in een bestand vindt, kun je ervoor kiezen om deze
tijdelijk te verstoppen. Hiervoor filter je de unieke waarden door de opdracht
Geavanceerd in de groep Sorteren aan te klikken en te filteren op het tabblad
Gegevens. Als je de dubbelingen direct wilt verwijderen, kun je de opdracht
Duplicaten verwijderen in de groep Hulpmiddelen voor gegevens op het tab-
blad Gegevens aanklikken.
Het is verstandig eerst op unieke waarden te filteren of deze voorwaardelijk op
te maken om te controleren of de resultaten naar wens zijn voordat je dubbele
waarden verwijdert. Dat kan altijd nog.
Als je dubbele waarden verwijdert, heeft dat alleen gevolg voor het geselecteerde
cellenbereik of de huidige tabel. Eventuele dubbele waarden buiten het cellenbe-
reik of de tabel worden niet verwijderd.
Omdat je de gegevens definitief verwijdert, is het aan te bevelen om eerst het oor-
spronkelijke cellenbereik of de oorspronkelijke tabel naar een ander werkblad of
andere werkmap te kopiëren. Vervolgens doorloop je de volgende stappen:
1. Maak een selectie van het cellenbereik, of zorg ervoor dat de actieve cel zich in
een tabel bevindt.
2. Klik op het tabblad Gegevens, in de groep Gegevenshulpmiddelen, op Duplica-
ten verwijderen.
3. Voer een of meer van de volgende handelingen uit:
• Selecteer onder Kolommen een of meer kolommen.
• Klik op Alles selecteren als je alle kolommen in één keer wilt selecteren.
• Klik op Alle selecties opheffen als je de selectie van alle kolommen wilt
opheffen.
Als het cellenbereik of de tabel veel kolommen bevat en je slechts enkele kolom-
men wilt selecteren, is het handiger om eerst op Alle selecties opheffen te klikken
en daarna onder Kolommen de gewenste kolommen te selecteren.
4. Klik op OK.
Er verschijnt een bericht waarin wordt aangegeven hoeveel dubbele waarden er
zijn verwijderd en hoeveel unieke waarden er resteren, of om aan te geven dat er
geen dubbele waarden zijn verwijderd.
5. Klik op OK.
Excel maakt nu een scheiding bij alle spaties, dus ook bij de spaties tussen
twee tekstdelen van een straatnaam. Zo gaat het niet lukken.
Hoe verwijder ik een tekenreeks? (voorbeeld: verwijderen van alle cijfers uit een kolom)
1. Maak een selectie van het cellenbereik dat je wilt doorzoeken. Als je het hele
werkblad wilt doorzoeken, klik dan op een willekeurige cel.
2. Klik op het tabblad Start, in de groep Bewerken, op Zoeken en vervangen en klik
vervolgens op Vervangen.
3. Geef in het vak Zoeken naar de tekst of getallen op die je wilt zoeken.
4. Als je een opmaak wilt opgeven voor de zoekopdracht, klikt dan op Opmaak en
selecteer de gewenste opties in het dialoogvenster Opmaak zoeken.
5. Klik op Opties om de zoekopdracht verder te definiëren.
In het vak Binnen kun je Start of Werkmap selecteren om een werkblad of een hele
werkmap te doorzoeken.
6. Geef in het vak Vervangen door de vervangingstekens op.
Als je de tekens in het vak Zoeken naar wilt verwijderen, laat dan het vak Vervan-
gen door leeg.
7. Klik op Volgende zoeken.
8. Klik op Vervangen om alleen de gemarkeerde weergave van de gevonden
tekens te vervangen. Klik op Alles vervangen om de gevonden tekens overal te
laten vervangen.
Hoe verwijder ik een bepaald aantal tekens links of rechts van een tekst? (voorbeeld:
abonneenummer uit telefoonnummer slopen)
Gebruik de functies LINKS en RECHTS om deze taak uit te voeren.
LINKS: LINKS geeft het eerste teken of de eerste tekens in een tekenreeks als
resultaat, op basis van het aantal tekens dat je opgeeft. De formule =LINKS(A2;
LENGTE(A2)-3) verwijdert bijvoorbeeld de drie meest linkse tekens van een waarde
uit vakje A2 (bijvoorbeeld 013 uit de reeks 0135182049 als je enkel het abonnee
nummer wilt bewaren).
RECHTS: RECHTS geeft het laatste teken of de laatste tekens in een tekenreeks als
resultaat, op basis van het aantal tekens dat je opgeeft. De formule =RECHTS(A3;
LENGTE(A3)-9) verwijdert bijvoorbeeld het abonneenummer uit de reeks
0135182048, waarmee je alleen het netnummer overhoudt.
Figuur 3.8 Overzicht van het aantal ingeschreven eerstejaars bij wo-instel-
lingen van 2007 tot en met 2011
Dit bestand kent een eindeloze opsomming van rijen en kolommen. Gelukkig
hebben ze al wel kopteksten als ‘provincie’ en ‘gemeente’ zodat je vrij mak-
kelijk kunt zien wat wat is. Maar toch: een eerste blik legt geen relaties. Terwijl
je bijvoorbeeld graag zou willen weten hoe het staat met het aantal inschrij-
vingen van vrouwelijke studenten op verschillende universiteiten. En ook wat
voor studies een daling of stijging veroorzaken.
Selecteer hiervoor via het invoegmenu een tabel en geef direct aan dat jouw
tabel kopteksten bevat. Mocht dit niet zo zijn, geef dan een naam aan de tabel
en vervang de generieke kopteksten door een herkenbaar label. In dit geval
kent het databestand al duidelijke labels en is dat niet nodig. Plaats je cursor
vervolgens in de tabel en kies via het tabblad Invoegen de knop ‘Draaitabel’. Je
krijgt dan een totaal andere weergave van je data.
Rechts vind je alle variabelen waarmee je kunt gaan spelen. Om de trends bij
de inschrijvingen van vrouwen te zien zetten we de instellingen in een rij en
de vrouwelijke ingeschreven studenten van de verschillende jaren in ‘values’
(blok rechtsonder). Het gewenste overzicht verschijnt.
gen aan de rij. Zo wordt bij dit bestand duidelijk dat de toename van vrouwe-
lijke studenten aan de Wageningen Universiteit vooral zit in de richting Dier-
wetenschappen.
Wil je vervolgens zien of dit alleen voor Wageningen geldt, of ook voor andere
universiteiten, dan deselecteer je de instellingsnaam en zoek je alleen op
opleidingsnaam. Zie je liever niet de som, maar bijvoorbeeld het percentage,
klik dan op de kolomnaam en selecteer de berekening die je wilt.
Tot slot van deze paragraaf nog even terug naar de data van de deelauto’s.
Dankzij een simpele Pivot- tabel zien we dat het overgrote deel van de auto-
verdeelpunten zich in het centrum van Amsterdam bevindt.
Een leuk weetje, maar het zegt nog weinig. Want wat zit hier achter? Komt dit
doordat het centrum van Amsterdam relatief veel meer inwoners heeft? Of is
de buurt simpelweg veel groter? Op deze vraag kun je antwoord krijgen door
het combineren van data.
Meer weten over het maken van draaitabellen? Bekijk de instructie van data-expert Doug
Finney op http://forreporters.com/pivottable.
Dan Nguyen van ProPublica gebruikte Google Refine in zijn Dollars for
Doctors-project in 2010 (http://forreporters.com/propublica). Bij dit project
zocht hij uit welke artsen het meest toegestopt krijgen door de farmaceutische
industrie. Hij ontdekte dat bijna vierhonderd artsen in de Verenigde Staten
jaarlijks meer dan een honderdduizend dollar ontvangen van één van de acht
onderzochte farmaceuten. Is dat nieuws? Misschien.
De data waren beschikbaar gesteld door de farmaceuten zelf. De journalisten
van ProPublica haalden de data uit pdf-bestanden en transformeerden deze
naar een spreadsheet in Google Refine.
De spreadsheet was niet direct bruikbaar; zo waren niet alle namen consistent
gespeld. Waar Excel dit oplost door het controleren van de spelling en het ver-
vangen van namen, zet Google Refine zogenaamde ‘text’ facets in.
Leent je bestand zich niet voor een draaitabel, maar wil je wel bepaalde waarden
optellen of een gemiddelde bepalen? Dan kun je met de verschillende functies van
Excel werken. De functies vind je in het tabblad Home, bij het somteken ∑. Selecteer
de kolom waarvan je de waarden wilt aanpassen en klik op de ∑-knop. De totaal-
som van de kolom verschijnt onder aan de kolom. Je vindt hier ook andere functies
om bijvoorbeeld het gemiddelde, de mediaan of de uiterste waarden te bepalen.
Op http://forreporters.com/functies vind je een uitgebreid overzicht van deze en
andere functies van Excel.
Door de text facet in te zetten verschijnt in de linker balk een overzicht van
alle waarden uit een kolom. Daarbij staat ook meteen hoe vaak de waarde
voorkomt. Als je merkt dat hier verkeerde omschrijvingen bij zitten, of meer-
dere beschrijvingen van dezelfde waarde, kun je deze aanpassen. Je ziet de
samenvoeging dat direct in de linker balk verschijnen.
Dit is een prima methode als de lijst in de linker balk niet te lang is en met de
hand te repareren valt. De journalisten van ProPublica stonden echter voor
een grotere uitdaging: in de linker balk verschenen duizenden verschillend
gespelde namen, waarvan een groot deel dezelfde personen beschreef. G oogle
Refine gaat deze lijst te lijf door data te clusteren. Voor het vergelijken van
namen kent het programma vijf algoritmen, variërend van heel erg streng tot
heel erg los. De veiligste methode heet de vingerafdruk (‘fingerprint’) functie.
Deze selectiewijze gaat ervan uit dat twee namen identieke letters uit het alfa-
bet bevatten, ongeacht hoofdletters of interpunctie. Zo vertaalt de vingeraf-
druk-functie zowel ‘Johnny R. Cash’, ‘JOHNNY CASH R.,’ en ‘Cash, Johnny
O,’ naar ‘cash johnny r.’. Door deze functie toe te passen op het bestand met
namen van artsen gaf Google Refine een overzicht van mogelijke gelijke
namen (zie http://forreporters.com/clusteren voor andere clustermethodes).
Figuur 3.18 Eindproduct: een database waarin bezoekers zelf kunnen zoeken
Soms geeft Refine na het gebruik van de Text Facet een verschil in spelling
aan, maar zie je zelf het verschil niet. Voordat je gaat wanhopen: vaak is er
dan sprake van een (verborgen) spatie aan het einde van het woord. Bekijk het
volgende voorbeeld: in eerste instantie lijkt er geen verschil te zijn tussen de
eerste twee. Toch blijkt er wat aan de hand. Door aan de linkerzijde de ‘edit’-
knop te selecteren kun je de fouten aanpassen en eventuele verborgen spaties
verwijderen.
Soms is een databestand zo groot, dat je niet gelijk kunt zien of er lege plekken
staan in een bestand. Je kunt met Refine makkelijk zien of een databestand
numerieke fouten bevat door het nummer face’ te gebruiken. Je krijgt dan een
normaalverdeling van de resultaten. Als je hierbij het vakje ‘error’ aanklikt,
krijgt je een overzicht van rijen met een nulwaarde, oftewel een leeg veld.
Maar pas op: bij bestanden met bedragen die in de miljoenen lopen, kan een
nul ook betekenen dat een bedrag onder de miljoen valt. Dit kun je ook met
Refine aanpassen met het nummer facet aanpassen.
Andere schoonmaakmiddelen
Refine kent, vergeleken met Excel, een unieke toevoeging: het maken van geauto-
matiseerde API-calls, oftewel geautomatiseerd extra velden aan je data toevoegen.
Een hele handige API is de Google Maps Api. Deze zet automatisch de GPS-coördi-
naten bij een plaatsnaam. Hierdoor kun je makkelijk een kaartje maken.
Om dit te doen selecteer je bij de facets ‘add columns’ de optie ‘add column by
fetching URLs’. Bij het ‘expression’-veld vul je de Google Maps API (of een wil-
lekeurige andere API-call) in: “http://maps.google.com/maps/api/geocode/
json?sensor=false&adress=“. Geef de kolom een nieuwe naam en hij verschijnt in je
overzichtssheet. Door dit stukje GPS-materiaal aan je plaatsnamen toe te voegen
kun je deze gegevens uit de kolommen en rijen eenvoudig met Google Maps op
een kaartje zetten. Kijk online voor een uitgebreide tutorial over het toevoegen van
geocodes online.
Wie, wat, waar, wanneer, waarom? En hoe? De vijf w’s en die ene h zitten er
bij de klassiek geschoolde journalist al van vroeg af aan ingeramd. Zijn ze ook
van toepassing op datajournalistiek? Meestal wel. Of de nieuwsuitkomst voor
de schrijvende pers ook altijd het overbekende oprolbare bericht moet zijn?
Misschien niet. Datajournalistiek leent zich voor vele andere soorten verhaal-
lijnen.
Journalisten zoeken in de basis naar verhalen met nieuwswaarde, een verhaal
van een zeker algemeen belang. Een verhaal dat nog niet eerder bekend was en
afwijkt van het gewone. Journalisten proberen dit met een objectieve, trans-
parante blik. Tony Harcup en Deirdre O’Neill onderscheidden in 2001 in hun
onderzoek (http://forreporters.com/newsvalue) naar algemene nieuwswaar-
den tien invloeden die afzonderlijk of in samenhang met elkaar een verhaal
nieuwswaardig maken:
1. Het verhaal gaat over invloedrijke en machtige personen, organisaties of
instanties.
2. Het verhaal gaat over bekende mensen.
3. Het verhaal heeft een entertainmentwaarde.
4. Het verhaal kent een verrassende uitkomst of een contrast.
5. Slecht nieuws: verhalen met een conflict of tragedie in zich.
6. Goed nieuws: verhalen met een positieve boventoon.
7. Het verhaal heeft een grote impact omdat het veel mensen raakt.
8. Het verhaal gaat over groepen of landen die relevant zijn voor het publiek.
9. Verhalen die voortborduren op iets dat eerder in het nieuws was (follow-
up).
10. Verhalen die passen binnen de agenda van de nieuwsorganisatie zelf
(media-agenda).
Een journalist kan zich bij het maken van een verhaal baseren op een onge-
kend scala aan bronnen; gesprekken met specialisten of ooggetuigen, rap-
porten en andere klassieke bronnen. Of ruwe data. Dataverhalen lenen zich
bij uitstek om duiding te geven aan een actueel vraagstuk. Dit deden NRC-
redacteuren Arlen Poort en Thalia Verkade na de verkiezingen in 2010. Ze
verzamelden de stemgegevens per stembureau in Nederland en zetten deze
resultaten op een kaart.
Met behulp van de kaart toonden zij verschillende clichés aan: mensen
in dure buurten stemmen VVD, in wijken met veel gezinnen wordt CDA
gestemd. GroenLinks-stemmers wonen dicht op elkaar. En D66’ers zijn vaak
alleenstaand. Een ander feit: hoe meer allochtonen een buurt telt, hoe vaker er
PvdA gestemd wordt. Tot slot bleek er een sterk verband te bestaan tussen het
aantal ongeldige stemmen dat op een bureau werd uitgebracht, en het percen-
tage allochtonen in de omgeving.
Poort en Verkade gebruikten aan de ene kant de stemdata om een analyse te
maken. Aan de andere kant maakten zij de data volledig beschikbaar, zodat
Naast het duiden van actuele thema’s kunnen data unieke verhalen genereren
die anders nooit naar boven zouden komen. Verschillende voorbeelden wor-
den in dit boek genoemd; zie bijvoorbeeld het verhaal van Dan Nguyen van
ProPublica over de geldstromen tussen farmaceuten en artsen (in het hoofd-
stuk over het verwerken van data). Zonder het verzamelen en combineren van
data had hij het verhaal nooit zo sterk kunnen brengen.
ProPublica maakte de data openbaar. Via een online database kunnen lezers
gegevens over hun eigen huisarts bekijken en hier hun eigen conclusies aan
verbinden. Het is een service die de Amerikaanse Sunlight Foundation ook
aanbiedt. Deze organisatie geeft data vrij over de manier waarop bedrijven,
lobbyisten, politici en industrieën aan elkaar gekoppeld zijn. Zonder hier een
waarde oordeel aan toe te voegen; dat laat zij aan de gebruiker zelf over.
In het geval van de Influence Explorer spreken de data voor zich: het prin-
cipe van database storytelling. Database storytelling, ook wel gestructureerde
storytelling genoemd, is het principe waarbij nieuws gecentreerd zit rondom
data en door gebruikers geïnterpreteerd wordt. Dit in tegenstelling tot data-
journalistiek, waarbij de journalist het verhaal duidt. De rol van de journalist
(of informatiebeheerder) is bij database storytelling het in stand houden van
de database, zodat gebruikers of andere journalisten zelf hun verhalen uit de
database kunnen halen.
Hetzelfde principe geldt voor het Nederlandse COELO, een onafhankelijk
onderzoeksinstituut zonder winstoogmerk, verbonden aan de Faculteit Eco-
nomie en Bedrijfskunde van de Rijksuniversiteit Groningen. Het COELO ver-
richt onderzoek op eigen initiatief, maar ook in opdracht van derden, zoals
ministeries, provincies, waterschappen, gemeenten en lokale rekenkamers.
Het onderzoek van het COELO richt zich op onderwerpen die verband hou-
den met de decentrale overheden (gemeenten, provincies en waterschappen).
Het onderzoeksinstituut publiceert jaarlijks een onderzoek naar de tarieven
van ozb, reinigingsheffing en rioolheffing van de verschillende Nederlandse
gemeentes. De data maken zij online beschikbaar, zonder hier direct een ver-
haal aan te hangen. Gebruikers kunnen zelf nagaan wat de gemiddelde kosten
zijn in hun gemeente.
Figuur 4.5 The Guardian maakte een online productie over de Afghanistan
War Logs (http://forreporters.com/warlogs)
De vraag wie of wat het verhaal vertelt, staat centraal in het artikel ‘Narra-
tive Visualization: Telling Stories with Data’ van Edward Segel en Jeffrey Heer
(2010, lees het hele stuk via http://forreporters.com/telingstories). Zij onder-
scheiden drie vormen van verhalen: een auteur gedreven verhaal, een lezer
gedreven verhaal of een tussenvorm. Deze keuze beïnvloedt volgens hen de
narrativiteit van een verhaal. Een auteur gedreven verhaal volgt volgens hen
een lineair pad, zonder mogelijkheden tot interactie. Een lezer gedreven ver-
haal is vaak niet lineair; de gebruiker kiest zijn eigen pad. In de tussenvorm
trekt een auteur conclusies op basis van data, maar is er ook ruimte voor inter-
actie.
Martiniglas-structuur
Deze structuur begint met een auteur gedreven aanpak. De auteur stelt vra-
gen waarop hij antwoord wil geven, observeert en schrijft een conclusie voor-
dat hij een dataset of visualisatie van de dataset introduceert. De dataset of
visualisatie vertelt een eenduidig verhaal (het pootje van het Martiniglas),
maar biedt tevens een lezer gedreven onderdeel, waar verschillende paden
gevolgd kunnen worden (het driehoekige glas).
Een voorbeeld hiervan is een verhaal van de Washington Post over de uitkom-
sten van een Klimaatconferentie in Cancun in 2010. De journalisten geven
een leidraad voor het verhaal mee: een overzicht van de voor hen belangrijkste
beslissingen en uitkomsten. Daarnaast biedt het verhaal een aantal interac-
tieve visualisaties, bijvoorbeeld over de uitstoot van vervuilende gassen. De
lezer kan deze informatie combineren en op basis van feiten zien of zijn eigen
denkbeelden overeenkomen met die van de journalist.
Figuur 4.7 De lezer kan op basis van deze informatie zien of zijn eigen denk-
beelden overeenkomen met die van de journalist (http://forrepor
ters.com/emissions)
Interactieve slideshow
Deze structuur biedt een slideshow met een vorm van interactie op iedere
slide. Deze structuur biedt de gebruiker de mogelijkheid om verschillende
onderdelen van de presentatie te exploreren voordat hij naar een volgend
verhaalonderdeel gaat. In tegenstelling tot de Martiniglas-structuur stelt de
interactieve slideshow de gebruiker in de gelegenheid om stap voor stap een
verhaal te ontdekken, zonder aan het einde in één keer in het diepe te worden
gegooid.
Een voorbeeld hiervan is het verhaal uit The New York Times in 2010 waarin
de voorspellingen over het begrotingstekort door de overheid worden verge-
leken met het werkelijke tekort. De voorspellingen blijken te optimistisch. Per
periode kan de gebruiker kijken welke voorspellingen er zijn gedaan en hoe
die afweken van wat er werkelijk gebeurde, waarna het totale plaatje ontstaat.
De slideshow vormt het grotere verhaal over een langere tijd, de slides bevat-
ten de periodes die de lezer gedetailleerder kan bekijken.
Figuur 4.8 De slideshow van The New York Times toont het verhaal over lan-
gere tijd (http://forreporters.com/budget)
Een ander (geen datajournalistiek) voorbeeld komt van The Guardian uit
2010. In een interactief verhaal over de redding van 33 Chileense mijnwerkers
krijgen alle personages een apart gezicht. Lezers banen zich zelf een weg door
het verhaal door op de verschillende portretten te klikken en zo hun eigen
verhalen naar boven te halen.
Figuur 4.9 Lezers bepalen zelf waar ze beginnen bij het interactieve verhaal
van The Guardian (http://forreporters.com/miners)
Figuur 4.10 De keuze is aan de kijker bij dit interactieve verhaal (http://for-
reporters.com/miners)
Drill-Down-verhaal
Figuur 4.11 Na een korte inleiding bepaalt de gebruiker zelf welk pad hij volgt
(http://forreporters.com/prison)
Een voorbeeld hiervan is een visualisatie van de Washington Post over het
bestaan van vijf strafkampen in Noord-Korea. Na een korte inleiding bepaalt
de gebruiker zelf welk pad hij volgt. De journalist heeft hierbij al wel een selec-
tie gemaakt in de data die hij de lezer wil aanbieden.
De modellen van Segel en Heer gaan ervan uit dat het verhaal zich afspeelt op
één en hetzelfde platform: een scherm dat in verbinding staat met internet. In
de praktijk lopen datajournalistieke verhalen vaak over meerdere platformen,
bijvoorbeeld een ‘Martiniglas-pootje’ in een journaaluitzending of artikel in
de krant, waarna de lezer doorverwezen wordt naar een online pagina. Soms
stuurt een mediamaker de lezer via een gerichte lijn door deze platformen
(bijvoorbeeld met een ‘lees verder online’-ankeiler na een item). In dat geval is
er sprake van crossmediaal verhalen vertellen. Verhalen zijn dan vaak lineair
en kennen soms dubbelingen, omdat het verhaal online gedeeltelijk herhaald
wordt met beelden van de journaaluitzending.
Een video waar al deze elementen goed samenkomen, is het video verhaal
‘Trapped in an elevator’ van The New Yorker. De video toont de versnelde
beelden van vier bewakingscamera’s, die gericht staan op een man die veertig
uur vastzit in een lift. Het ruwe materiaal geeft een beschrijving van de omge-
ving en kent door de muziek een dramatisch effect.
Een foto die al deze elementen in zich heeft, is de wereldberoemde foto van
‘The Marlboro Man’ in Fallujah. Korporaal James Blake Miller werd in 2004
hét symbool van het Irak-conflict.
Figuur 4.13 ‘The Marlboro Man’, originele foto uit de Los Angeles Times
(Luis Sinco via Associated Press), later verwerkt tot Mediastorm-
documentaire
De originele foto is later meerdere malen bewerkt; onder meer tot een beklem-
mende MediaStorm-fotoslideshow met geluid. Dit bewegende fotoverhaal
vertelt het persoonlijke relaas van The Marlboro Man (http://forreporters.
com/marlboro). Zie http://forreporters.com/foto voor deze en andere sterke
beeldverhalen.
Tekst (voorbeelden op http://forreporters.com/tekst) is volgens de Knight
Foundation bij uitstek geschikt om:
• achtergrondinformatie te geven en context te bieden;
• de voors en tegens van een ontwikkeling aan te geven;
• historie of personen te beschrijven;
• samenvattingen te geven of breaking news toe te voegen.
Waar het ontwerpen van infografieken eerder vooral voorbehouden was aan
grafici en technici, nemen journalisten in het geval van datajournalistiek
soms een aantal van hun taken over. Gratis (online) tools helpen hierbij.
De belangrijkste uitdaging bij het maken van visualisaties is de informatie
begrijpelijk houden voor de lezer, zegt auteur en designer David McCandless
in zijn boek Information is Beautiful (http://forreporters.com/information).
In dit boek demonstreert hij het belang van een originele, overzichtelijke en
creatieve weergave van feiten en cijfers. McCandless vindt dat er in de media
nogal gegoocheld wordt met bedragen. Dat soms zelfs ‘miljoen’ en ‘miljard’
worden verward. Om dit te illustreren maakte hij de ‘Billion Dollar-o-gram’,
die niet meer doet dan een aantal uitgaven tegen elkaar afzetten.
Bij deze visualisatie draait het vooral om verhoudingen; de exacte cijfers zijn
van ondergeschikt belang. De visualisatie maakt in één oogopslag duidelijk
hoe groot de kosten zijn van de financiële crisis. Duidelijker dan welke tabel of
tekstbeschrijving ooit had kunnen doen.
Information is Beautiful bevat meer van dit soort experimenten om infor-
matie toegankelijk te maken en op een originele manier aan te bieden.
McCandless stelt dat informatie interessant (betekenisvol en relevant) en
integer (accuraat, consistent) moet zijn. Daarnaast biedt een goed design vol-
gens hem overzicht in de cijferberg, een uitnodiging tot kijken en ontdekken,
meerdere detailniveaus, een heldere vormgeving, bronnen en een verrassing
of grappig element.
Visualisaties zijn er in verschillende vormen en maten. Tabellen, grafieken,
diagrammen en kaarten komen veelvuldig terug bij datajournalistieke visu-
alisaties. Al lijken deze door interactieve technieken al lang niet meer op de
grafieken zoals we ze ooit op school voorbij zagen komen.
Valkuilen
Kijk eens goed naar onderstaande grafiek uit The Economist. Wat is hiermee
aan de hand?
Op het eerste gezicht lijkt het alsof de criminaliteit sterk is afgenomen. Het
zegt echter niets over het aantal incidenten. De grafiek presenteert relatieve
cijfers in plaats van absolute getallen en kan zo een vertekend beeld geven als
je dit niet in je achterhoofd houdt.
Nog eentje. In welke visualisatie is de stijging van het aantal miljonairs het
grootst?
Het lijkt alsof het aantal miljonairs in de eerste grafiek meer is toegenomen
dan in het tweede plaatje. De stijging is echter even groot; in het linker plaatje
start men simpelweg met een hoger nulpunt. Een visualisatietruc die vaak
gebruikt wordt om cijfers te dramatiseren.
Tot slot kunnen statistieken helpen bij het beantwoorden van vragen waar je
het antwoord al op denkt te weten. Zie de voorbeelden van Vali Chandraseka-
ran op de site van Bloomberg Businessweek (http://forreporters.com/business
week).
Excel
Online kun je nog veel verder gaan. Google Fusion Tables, ManyEyes en
Tableau zijn drie handige programma’s waarmee je zowel statische als inter-
actieve grafieken kunt maken. Google Fusion Tables is een online applicatie
waarmee een journalist kaarten, tijdlijnen en grafieken creëert. De applicatie
zit in de cloud, waardoor het gemakkelijk is om met meerdere mensen samen
aan één project te werken. Als je ingelogd bent bij Google Fusion Tables, kun
je openbare tabellen bekijken of een eigen set uploaden. Het doorbladeren van
beschikbare tabellen kan een goede manier zijn om inspiratie op te doen naar
vragen die je kan stellen of gewoon om een idee te krijgen van wat er allemaal
is aan data. Als je een bestand uploadt (Google Fusion Tables accepteert de
meeste gangbare formaten), houd er dan rekening mee dat Excel-bestanden
maar 1 Mb groot mogen zijn. CSV-bestanden kunnen tot 100 Mb. Als je dit
hebt gedaan, krijg je een tabel te zien waarop je een aantal handelingen kan
uitvoeren. Zoals filteren, berekeningen maken, sub-tabellen creëren en visu-
aliseren.
Aljazeera maakte in 2009 gebruik van een interactieve tijdlijn met hulp van
Google Fusion Tables. In de interactieve tabellen kunnen gebruikers informa-
tie naar boven halen. Zo krijgen zij meer inzicht in het aantal geweldsdelicten,
gewonden en doden tijdens de oorlog in Afghanistan. Gebruikers kunnen op
verschillende punten in de grafiek klikken en krijgen zo extra informatie over
een bepaald punt in de visualisatie.
Figuur 4.19 Interactieve tijdlijn, gemaakt met Google Fusion Tables (http://
forreporters.com/aljazeera)
ManyEyes
Bovenstaand voorbeeld van een boomgrafiek geeft een overzicht weer van
de gemiddelde wachttijden in een ziekenhuis in Groot-Brittannië, gebaseerd
op open data van de overheid. Deze grafiek is gemaakt met het programma
ManyEyes. ManyEyes (www-958.ibm.com) is een gratis tool om grafieken en
tekstanalyses te maken. De mogelijke grafieken zijn bij dit programma onder-
verdeeld in vijf categorieën:
• grafieken om verschillende waarden te vergelijken, zoals een staafdia-
gram, een blokkenstructuur of een bubble chart;
• grafieken om relaties aan te geven zoals een spreidings-, matrix- of net-
werkdiagram;
• grafieken om data als onderdeel van een geheel te tonen, bijvoorbeeld een
taart- of boomstructuur;
• lijngrafieken die het verloop over een bepaalde tijd aangeven;
• geografische kaarten.
Het gebruik van ManyEyes is gratis. Je bent wel verplicht om bij publicatie je
dataset en je visualisatie openbaar te maken.
Tableau Public
4.7 Kaarten
Tableau, ManyEyes en Fusion Tables bieden naast het maken van interac-
tieve grafieken en diagrammen een bijzondere optie: het maken van geogra-
fische kaarten. Deze kaarten kun je gebruiken als de data gekoppeld zijn aan
een geografische ligging, bijvoorbeeld als je een overzicht wil maken van de
hoogte van gemeentebelastingen. Door te werken met verschillende kleuren
wordt in één oogopslag zichtbaar waar het meest moet worden betaald. Daar-
naast werken de programma’s met verschillende lagen; zo kan een journalist
een kaart zo aanmaken dat de gebruiker zowel op provincie als op gemeente
kan selecteren.
The Guardian maakte in 2010 gebruik van verschillende tools om de rellen in
Londen in kaart te brengen. Een daarvan was een interactieve kaart, gemaakt
in Google Fusion Tables, waarbij naar een verband wordt gezocht tussen
armoede en het ontstaan van de rellen.
Visualisaties met kaarten kunnen ook andere vormen aannemen dan een
overzicht van gekleurde vakjes. Een voorbeeld van een kaart, gemaakt in
Tableau (New Scientist, 2011), toont een patroon van stormen van de afgelopen
jaren. Op basis van deze oude gegevens wordt een stormachtig jaar voorspeld.
De gekleurde slierten geven inzicht in het verloop en de kracht van de s tormen.
4.8 Woordenwolken
Een woordenwolk geeft het relatieve gebruik van woorden in een tekst aan.
Woorden die vaker voorkomen in de tekst, worden groter weergegeven.
Datajournalisten gebruiken woordenwolken om een simpel overzicht te
geven van een lange tekst of verbanden te zoeken binnen bepaalde woorden-
wolken. Voor schrijvers is het daarnaast een ideale manier om je eigen tekst
op overmatig woordgebruik (bijvoorbeeld op het woordje ‘toen’) te con-
troleren. Daarnaast gebruiken veel mensen woordenwolken om zichzelf te
introduceren.
Online vind je veel tools om woordenwolken te maken. Vooral Wordle wordt
vaak gebruikt.
Wordle genereert na de invoer een eerste woordwolk, die je verder naar wens
kunt aanpassen. Ook kun je invloed uitoefenen op de woorden die in de
word cloud zijn opgenomen. Wordle probeert de taal van de tekst te herken-
nen en verwijdert vervolgens automatisch de stopwoorden ‘de’, ‘het’ en ‘een’.
Toch werkt dit niet helemaal perfect. Het is dus handig als je de wolk zelf nog
nakijkt. Zo voorkomt Wordle bijvoorbeeld niet dat afgeleide woorden, zoals
stoel en stoeltje, apart worden opgenomen. Na het aanpassen van de woorden-
wolk kan een journalist de woordenwolk kopiëren of embedden in een site.
NRC Handelsblad maakte in 2010 met behulp van Wordle een analyse van de
belangrijkste toespraken van president Obama. Hierbij zie je dat Wordle niet
perfect werkt. ‘South’ en ‘Carolina’ worden als twee aparte woorden gezien,
terwijl je dat idealiter niet zou willen.
Een andere woordenwolkdienst, Tagxedo, kent wat extra trucjes ten opzichte
van Wordle:
• het herkennen van afgeleide woorden en het opnemen van de meest
gebruikte vorm in de word cloud (vooralsnog Engelstalig);
• de mogelijkheid tot het inladen van een bestand;
• het bepalen van de vorm van de word cloud (bijvoorbeeld een hartvorm,
rechthoek, ster of op basis van een tekst of afbeelding die je ingeeft);
• het bepalen van de verhouding van de word cloud (3:2, 4:3, 16:9).
ManyEyes gaat nog een stukje verder dan Wordle en Tagxedo. Het presenteert
niet alleen resultaten op basis van de frequentie van woorden, maar probeert
ook een relatie te leggen tussen bepaalde woorden. Het werkt niet perfect,
maar kan wel binnen enkele secondes een eerste indruk geven van de relaties
binnen een tekst.
De woordenboom van ManyEyes geeft bijvoorbeeld de verschillende con-
texten van een woord of meerdere woorden aan. De context wordt getoond
door middel van een boomstructuur. Onderstaand voorbeeld uit ManyEyes
geeft de boomstructuur aan van een toespraak van Rutte bij het afscheid van
Tjeenk Willink als vice president van de Raad van State. In de visualisatie zie
je direct hoe Rutte Tjeenk Willink in verband brengt met bepaalde zaken.
Figuur 4.25 Visualisatie afscheidsspeech Mark Rutte met hulp van ManyEyes
Een andere intelligente toepassing van ManyEyes is het in kaart brengen van
het netwerk van woordengroepen. Dit diagram toont relaties tussen verschil-
lende woorden aan. Bijvoorbeeld door woordennetwerken naar boven te
halen met een ‘en’-, ‘van’- of ‘is gelijk aan’-relatie. Je kunt bij Engelse teksten
gebruikmaken van een reeks vooropgezette verbanden en bij Nederlandse
teksten zelf je gewenste relatiewoorden toevoegen. Deze optie geeft inzicht in
relaties die een schrijver zelf in een tekst heeft gelegd.
4.9 Tijdlijnen
Journalisten laten regelmatig tijdlijnen zien bij hun productie. Het idee daar-
achter is dat je snel de historische ontwikkeling van een onderwerp ziet, bij-
voorbeeld van kernenergie.
Figuur 4.27 Dezelfde tijdlijn twee uur later, gemaakt met Timeline 3D
Bij veel media worden verklarende illustraties vaak gemaakt op de afdeling
infographics. Op het web werkt dat niet altijd even goed: een brede illustra-
tie waardoor je helemaal naar rechts moet scrollen of een lange lap tekst die
naar onderen doorloopt, is niet van deze tijd. Bovendien ontbreekt er enige
interactie.
De redactie van het Nederlands Instituut voor Beeld en Geluid maakte met
TimeRime een tijdlijn met daarin 60 jaar Nederlandse televisiegeschiedenis.
Het materiaal op de site www.tv60jaar.nl is afkomstig van verschillende col-
lecties van het Nederlands Instituut voor Beeld en Geluid en de Nederlandse
Publieke Omroep, Nationaal Archief/Spaarnestad Photo en EYE Film Instituut
Nederland. In de tijdlijn staan televisie-uitzendingen, foto’s en filmfragmenten.
Voor wie wil werken met grotere bestanden (bijvoorbeeld CSV) kan gebruik-
maken van ProPublica’s open source TimelineSetter. De Los Angeles Times
gebruikte deze tool bij het visualiseren van een verhaal over corrupte politici.
Figuur 4.29 Tijdlijn gemaakt met TimelineSetter. De Los Angeles Times won
een Pulitzer-prijs voor het complete verhaal (http://forreporters.
com/bell)
Fusion Tables, Tableau, Wordle, TimeRime; het is slechts een kleine greep uit
alle visualisatietools die voor datajournalisten beschikbaar zijn. Ieder heeft zo
zijn favorieten. Kijk op de website van dit boek voor een actueel overzicht van
visualisatietools óf lees over de favoriete tools van een aantal datajournalisten
in het laatste hoofdstuk van dit boek.
Rommel je erop los totdat je iets ziet wat nog nooit iemand zag? Of heb je
vooraf een hypothese die je probeert te bewijzen? Deze twee strategieën vullen
elkaar meestal goed aan. Meestal leidt het rommelen tot een vaag v ermoeden.
5.1.1 ‘Rommelen’
Breek met de regels tijdens je rommelfase. Probeer altijd eerst zélf de cijfers
te visualiseren via eenvoudige grafieken in Excel, zie http://forreporters.com/
grafiekenmetexcel. Pas dan vallen je bijzondere stijgingen of dalingen op.
Maak gerust een grafiekje die niet begint bij 0, maar met 9.5 omdat je anders
de nuances niet ziet. Hieronder zie je een lijst van klachten van werknemers
bij een groot Nederlands bedrijf. Je ziet dat er tussen de jaren 2008, 2009, 2010,
2011 en 2012 nauwelijks verschil zit. Dat komt omdat je een schaal gebruik van
0 tot 100:
Laten we de schaal nu eens beginnen in de buurt van het gemiddelde van die
vijf jaren (dat is 10.94). We beginnen met 9.5 en eindigen bij 12.5. Dezelfde cij-
fers zien er nu opeens zo uit:
Je ziet dat er in 2012 meer klachten zijn geweest dan je kon zien in figuur 5.1.
Het gaat erom dat je in de rommelfase de data zo presenteert voor jezelf dat je
slimme vragen kan gaan stellen. Misschien gebruik je bovenstaande grafiek
nooit in je verhaal. Maar het helpt je wel de cijfers te beoordelen. Dat doen veel
datajournalisten: ze visualiseren de gegevens vaak voor zichzelf en niet voor het
publiek. Pas helemaal aan het eind van de productie gaat de grafische afdeling
misschien aan de slag met een illustratie of productie voor een breed publiek.
Hypothese
Een hypothese is een vraag die je baseert op een (soms vaag) vermoeden.
Je hebt een lijst van alle oorspecialisten van Nederland waarin staat met welke
verzekeraar ze zaken doen. Ook heb je rapportcijfers van patiënten. Wat zou
je met deze lijst kunnen doen? Een hypothese kan zijn: ‘Zitten de slechtst
beoordeelde oorartsen bij dezelfde verzekeraar?’
De sorteerfunctie in Excel helpt je hypotheses te toetsen. Je kijkt naar de
onderste twintig artsen in de lijst en controleert of bepaalde verzekeraars mis-
schien vaker voorkomen dan andere. Is dat niet het geval? Pas je hypothese
dan aan: ‘Zitten de best scorende oorartsen bij dezelfde verzekeraar?’
In dit voorbeeld blijkt dat inderdaad zo te zijn. Deze constatering is op zichzelf
nog geen nieuws. Het gaat om de reden: waarom scoort de ene verzekeraar zo
goed en de rest niet? Als het de duurste verzekeraar is, dan lijkt de verklaring
logisch. Mensen die meer betalen, krijgen betere zorg. Als het een gemiddeld
dure verzekeraar of juist een goedkope verzekeraar is, dan wordt het al interes-
santer. Hoe kan het dat de goedkoopste verzekeraar ook de beste is?
Zo op het eerste oog zit er geen nieuws in een bestand dat al maanden geleden
is gepubliceerd:
5.2.1 De rommelfase
In deze rommelfase dacht Lehren: wat mis ik eigenlijk aan deze cijfers? Ik zie
alleen de gefinishte mensen. Misschien is het interessant om te zien wie juist
niet finishte en waarom. Hij vraagt een tweede database van de marathon op.
Zijn interesse gaat uit naar de kolom DNF: Did Not Finish. Hij besluit 400
afgehaakte lopers nader te analyseren, want de nieuwe marathonloop in New
York staat voor de deur. Zijn onderzoek leverde een leuk voorverhaal op voor
de liefhebbers, zie http://forreporters.com/marathon.
Figuur 5.4 Voor de liefhebbers: wie haakt waar af bij de marathon van New
York?
Lehren kon na de publicatie de data nog niet loslaten. Hij had een hypothese.
Dat mag jij nu ook doen. Ga naar http://forreporters.com/nytdata en je krijgt
de originele database die Lehren zelf samenstelde op grond van zijn onder-
zoek. Hij heeft deze op verzoek van de auteurs aan jou beschikbaar gesteld.
Het eerste probleem dat je moet oplossen, is dat het bestand is weggeschreven
in CSV. In paragraaf 3.1 lees je hoe dat moet. Als je het bestand hebt ingelezen,
ziet het er nog niet helemaal goed uit. Vooral de vierde kolom irriteert: daar
zijn de naam, leeftijd, sponsor en het land van de loper op één hoop gegooid:
De lange namen, zoals Marilson Gomes Dos Santos, worden verkeerd over de
kolommen verdeeld.
4. Maak het bestand in meerdere stappen schoon. Ga naar Overige en vul ( in:
8. Klik weer op kolom E en ga naar Gegevens -> Tekst naar kolommen en klik
op Volgende. Ga naar Overige en vul ) in en klik op Volgende.
Figuur 5.9 Bijna klaar: sponsors en landen staan nog wel in één kolom
Klik op kolom F en ga via Gegevens weer naar Tekst naar Kolommen en Vol-
gende. Nu kun je als scheidingsteken wel een komma aanvinken.
10. Het laatste klusje dat je nu nog moet doen, is dat je boven de kolommen de
juiste omschrijving zet.
Onderzoek welke sponsor het beste scoort: wie heeft de hoogst geklasseerde
lopers? Wie de laagst geklasseerde? Welke landen scoren het best? Welke het
slechtst? Wie is de hoogst geklasseerde oudste deelnemer? Wie is de jongste?
5.2.2 De hypothese
Nu kwam Lehren met een hypothese: hebben de renners die meer dan een
keer de mat hebben gemist, gefraudeerd?
Sorteer de renners nu zo dat ze de eerste mat moeten hebben gemist, maar wel
een eindtijd hebben (40K). Dat doe je zo:
Scroll naar beneden totdat je Lege Waarden ziet. Vink dit aan.
Je hebt nu een lijst van mensen die de eerste rondetijd hebben gemist. Je wilt
echter alleen mensen zien die ook werkelijk de finish hebben gehaald. Klik op
het pijltje in cel P1 en haal nu juist het vinkje weg bij Lege Waarden.
Opeens ruik je nieuws. Sommige renners hebben twee, drie, vier en zelfs alle
matten gemist, behalve de eindmat. Ze zijn toch geklasseerd. Hoe kan dit?
Figuur 5.15 Rokende pistolen in beeld: hoe kan het dat iemand vele matten
mist en toch mag finishen?
Lehrens tussendoortje (‘ik wilde een beetje ontspannen met cijfers over mijn
favoriete sport’) wordt nu opeens een hoofdnummer. Hij wist de foto’s van
de mensen te vinden die mogelijk gefraudeerd hebben – via een site waarop
renners foto’s kunnen nabestellen. Het viel hem op dat een winnaar in de cate-
gorie ouderen een jonge, gebronsde Italiaan was. Het complete verhaal dat
ontstond dankzij deze data, vind je op http://forreporters.com/verhaal.
Wat vind jij nieuws? Je ziet dat het aantal ongelukken is gedaald met 60.
Afgezien van het flauwe woord ‘oudjes’ lijkt er niks mis te zijn met deze kop.
Het aantal ongelukken is gedaald en dat staat ook in het artikel. Maar is dit
het echte nieuws? Is een daling interessant genoeg voor een bericht? Dat hangt
natuurlijk van de oorzaak af. Maar voordat je daarnaar op zoek gaat, moet je
eerst onderzoeken hoe nieuw de cijfers zijn. Want anders word je misschien
slachtoffer van de ‘De Goed Nieuws Show’.
Sommige journalisten zullen het nieuws in figuur 5.17 niet melden omdat ze
een daling niet spannend genoeg vinden. Ze willen liever een alarmerende
stijging. Die lijkt niet aanwezig. Maar zo redenerend doen ze in de case van
Bejaardentehuis Het Rokende Pistool precies wat de directie hoopt: de echte
verhalen worden genegeerd.
Het tehuis blijkt nog nooit in zijn bestaan cijfers over ongelukken naar buiten
te hebben gebracht. Het is de allereerste keer dat ze het doen. Deze nieuwe cij-
fers zijn weggemoffeld in een persbericht over andere zaken.
de cijfers opvraagt, zie je direct dat meer dan 80% van de deelnemers aan het
onderzoek ouder is dan 60 jaar. Wat zegt dat? Dat vooral ouderen geen ver-
schil zien tussen reclame en niet-gesponsorde zoekresultaten.
Een van de simpelste, maar splijtende vraag die je aanbieders van cijfers kunt
stellen, is: welke gegevens ontbreken? Ik onderzocht de sterfte in een kinder-
ziekenhuis die ogenschijnlijk wel meeviel. Maar het ziekenhuis had de minst
voorkomende operaties uit de statistieken gehaald om te voorkomen dat zeld-
zame ingrepen met dodelijke afloop te zwaar zouden meewegen. Dat kwam
ik pas te weten door de simpele vraag te stellen: zijn dit alle cijfers van alle
operaties?
Een ontkennend antwoord levert vaak de kiem voor nieuws. Waarom zijn de
cijfers niet meegenomen? Waren ze soms te gevoelig? Zo ja, waarom dan?
Je ziet nu dat niet alleen het aantal ongelukken is gedaald, maar ook het aantal
bewoners. Dat werpt een ander licht op de cijfers.
Probeer de cijfers vergelijkbaar te maken. Zet de data uit figuur 5.18 in Excel.
We gaan nu bekijken hoe het aantal ongelukken zich verhoudt tot het aantal
bewoners.
Stap 1
We gaan nu het aantal ongelukken delen door het aantal bewoners.
Stap 2
Klik op B6 en je krijgt figuur 5.4 te zien. Zet achter B6 het deelteken / en klik
op cel C6. Dit is wat je ziet:
Stap 3
Tik ENTER. In kolom D6 komt nu een getal te staan: 240/1600 = 0.15.
Je ziet dat in beide jaren hetzelfde percentage bewoners een ongeluk kreeg. Er
is dus geen sprake van minder ongelukken; ze bleven gelijk. De kop moet op
dit moment zijn, als het al nieuws is:
Ook met dit ‘nieuws’ is het bejaardentehuis blij. Er is niks aan de hand!
Maar wacht even, weet je eigenlijk wel hoeveel bewoners een ongeluk hebben
gehad? Nee, dat weet je niet. Kijk nog even naar figuur 5.19. Je weet alleen het
aantal bewoners per huis en het aantal ongelukken.
Vraag opnieuw aanvullende cijfers op. Dat is niet raar. Bij je onderzoek zal dat
vaak gebeuren. Cijfers zijn net als zegslieden: antwoorden geven vaak aanlei-
ding om door te vragen.
Figuur 5.23 Nog meer cijfers: nu met het aantal slachtoffers. Hoeveel mensen
kregen een ongeluk?
In 2011 zijn 180 verschillende bewoners betrokken geweest bij een ongeluk. In
2010 waren dat er maar 100. Dus sommige bewoners kregen vaker een onge-
luk in dat jaar. Wat betekent dit voor het beoordelen van de ernst van de cij-
fers? Dat is aan jou. Ga je uit van ongelukken of mensen?
Aan welke invalshoek hecht jij de meeste waarde en waarom? Waarschijnlijk
gaat het je om de mensen in het tehuis, niet om het veel abstractere ‘ongeluk-
ken’. In 2011 waren er meer mensen die een ongeluk hadden (180) dan in 2010
(100). Het aantal slachtoffers is juist gestegen. Eindelijk ben je bij het nieuws
dat het bejaardentehuis liever had verzwegen:
Figuur 5.24 Vergelijk deze kop met figuur 5.17. Bijna was je de mist ingegaan.
Je ziet dat er in 2011 tien mensen zijn overleden door een ongeluk. Bepaal eerst
de nieuwswaarde (paragraaf 5.3.1). Is hier al eens over geschreven? Is er mis-
schien een brand geweest? Of zijn dit compleet nieuwe cijfers? Het blijkt dat er
nooit over is gepubliceerd. De meest ernstige kop heb je nu pas:
Je ziet dat de categorie Val in 2010 veel kleiner is dan de categorie Overig.
Dat is soms ook een truc om je op een dwaalspoor te brengen. Het is vreemd
om een categorie die het grootst is Overig te noemen en de kleinste categorie
wel een naam te geven (Val). Vraag op dit soort momenten altijd een betere
onderverdeling op:
Figuur 5.29 Alweer nieuws, dit keer door de cijfers uit 2010 nog eens beter te
bekijken
Nog even terug naar figuur 5.27. Kijk naar het aantal mensen dat gevallen is.
Onderzoek de oorzaken. In dit geval was er bezuinigd op schoonmaakperso-
neel, waardoor de vloeren veel te glad waren:
Hieronder staan nog even alle zes krantenkoppen die we tegenkwamen gedu-
rende het onderzoek naar De Rokende Pistolen. De eerste twee koppen, ‘Min-
der oudjes gewond’ en ‘Evenveel oudjes gewond’, geven nieuws aan waarmee
de directie van het bejaardentehuis niet ontevreden is: de journalist heeft nau-
welijks meer gedaan dan het persbericht overschrijven. De andere vier kop-
pen kwamen voort uit datajournalistiek en zijn natuurlijk interessanter dan
de eerste twee.
We vroegen Dick van Eijk, een van de eerste datajournalisten van Nederland,
naar zijn beste tips om rokende pistolen te vinden. Ook Pulitzer-prijswinnaar
Sarah Cohen gaf deze. Ze staan beiden op het standpunt dat cijfers net zo
betrouwbaar zijn als een woordvoerder: soms wil de belanghebbende niet de
vuile was buiten hangen.
Definities zijn belangrijk, omdat je vaak data uit verschillende bronnen met
elkaar zult vergelijken. En verschillende bronnen willen nog wel eens verschil-
lende definities hanteren. Als de ene dataset ‘gepensioneerden’ definieert als
65-plussers en de andere als ontvangers van een ouderdomspensioen, heb je een
probleem. Niet elke 65-plusser ontvangt een ouderdomspensioen en niet elke
ontvanger van een ouderdomspensioen is boven de 65. Daar gaat je vergelijking.
Soms zijn zulke problemen op te lossen, maar lang niet altijd. Je bespaart jezelf
veel werk door zo veel mogelijk aan te sluiten bij gangbare definities, bijvoor-
beeld die van het CBS. Ja, er is ook kritiek op die definities – alleen al over de
definitie van allochtoon zijn boekenplanken vol geschreven – maar ervan afwij-
ken maakt het doorgaans erg lastig om goede data te krijgen.
Een fictief voorbeeld. Stel dat Nederlandse mannen een kans van 20 procent heb-
ben op haaruitval, en dus een kans van 80 procent dat dit niet gebeurt. De kansver-
houding op haaruitval is dan 20/80 = 0,25. Stel dat Belgische mannen onder gelijke
omstandigheden 50 procent kans hebben op haaruitval. Hun kans verhouding is
dan 50/50 = 1,00. De kans voor de Belgen op haaruitval is dan 2,5 keer zo hoog als
voor de Nederlanders (50 gedeeld door 20), maar hun odds zijn maar liefst 4 keer zo
hoog (1 gedeeld door 0,25). En die 4 heet dan de odds ratio.
Verwarring ligt hier op de loer – en journalisten zijn meestal al beter met woorden
dan met cijfers. NRC Handelsblad maakte volgens briefschrijvers een ‘klassieke fout’
in de berichtgeving over een opzienbarend onderzoek in het Nederlands Juris-
tenblad (‘Verdachte met buitenlands uiterlijk krijgt eerder celstraf’, 14 maart). De
krant meldde dat verdachten met een ‘buitenlands’ uiterlijk ‘een vijf keer hogere
kans [hebben] op onvoorwaardelijke celstraf dan Nederlanders, in plaats van een
werkstraf of boete’. Spreken zij de taal niet, dan neemt die kans toe tot twintig keer
hoger.
Hier werden kansen, odds en odds ratios door elkaar gehaald, meenden diverse
kenners. Was dat zo?
Aanvankelijk schreven de verslaggevers inderdaad gewoon over grotere ‘kansen’
om in de cel te belanden. Op de valreep lieten ze zich overtuigen door onderzoeker
Hilde Wermink dat dit niet correct was en pasten ze hun tekst aan. Het onder-
zoek stelt immers niet vast dat groep A een grotere kans heeft op y1 dan groep B,
maar dat bij groep A de kans op y1 ten opzichte van de kans op y2 groter is dan bij
groep B.
Alleen, hoe vermijd je zulke formules en lastige Engelse termen?
Wermink stelde de journalisten deze formulering voor: ‘De kans om wel veroor-
deeld te worden tot een onvoorwaardelijke gevangenisstraf versus de kans op
geen onvoorwaardelijke gevangenisstraf is ruim 20 keer groter voor mensen met
een buitenlands uiterlijk die niet de Nederlandse taal spreken in vergelijking met
verdachten met een Nederlands uiterlijk die de Nederlandse taal spreken.’
Maar de onderzoekster waarschuwde al dat ook die formulering tot misverstanden
kan leiden.
5.4.3 Afrondingen
Meeteenheden zijn niet altijd helder, maar je moet precies weten wat de mee-
teenheid is om je data te kunnen interpreteren. Gaat het om individuen of
huishoudens? Gaat het om buurten of postcodegebieden? Gaat het om kiezers
of kiesgerechtigden? Om netto-inkomen, bruto-inkomen, belastbaar inko-
men of besteedbaar inkomen?
Als je de toelichting hebt gelezen en hebt bekeken wat voor velden en records
er in de database zitten, heb je een eerste idee van wat voor vlees je in de kuip
hebt. Vaak heb je dan al lang een rij journalistieke vragen klaarliggen. Je had
immers juist die dataset opgevraagd om je vragen te kunnen beantwoorden.
Maar of je nu wel of geen vragenlijst hebt liggen, het kan nooit kwaad eerst
eens wat te vissen in je data. Gewoon een beetje stoeien om te kijken of er iets
interessants in zit. Hoe pak je dat aan?
5.4.8 De bandbreedte
Bereik vertelt je hoe groot de grootste zijn en hoe klein de kleinste. Hoeveel
mensen wonen er in een grote buurt, hoeveel mensen in een kleine? Wat is
het gemiddeld inkomen in een steenrijke buurt, wat in een straatarme? Pro-
beer ook te kijken naar de verdeling. Zijn er een paar uitschieters? Of gaat een
waarde van een veld heel geleidelijk van hoog naar laag? Dit kun je het snelst
zien door even een grafiekje te maken. Met uitschieters is vaak iets bijzonders
aan de hand. Wetenschappers proberen uitschieters in een dataset meestal
weg te moffelen: die vinden ze lastig, omdat ze verbanden verstoren. Journa-
listen zijn dol op uitschieters, want daar zitten vaak verhalen in. Maar pas op:
een uitschieter kan ook een artefact van de dataset zijn, of een fout. Juist bij
uitschieters moet je extra goed kijken of dat cijfer wel klopt.
Tot dusverre hebben we alleen naar afzonderlijke velden gekeken. Als je naar
meer velden tegelijk kijkt, kun je grofweg twee dingen doen: gevallen zoeken
en verbanden leggen.
Gevallen zoeken is typisch journalistiek werk. Neem een set buurtgegevens
van het CBS. Zoals al is opgemerkt, zal het vaak zo zijn dat een buurt met veel
werkloosheid een arme buurt is. Maar dat is niet per definitie zo. Door te fil-
teren op meer dan één variabele kun je gericht op zoek gaan naar intrigerende
gevallen, bijvoorbeeld rijke buurten met veel werkloosheid, of arme buurten
waarin iedereen een baan heeft. Zijn die er? Dat blijkt uit je data. En zo ja, wat
is daar dan aan de hand? Daarvoor moet je nader onderzoek doen, en daar-
voor heb je vaak niet genoeg aan je data, maar moet je ter plekke gaan kijken.
Het kan bijvoorbeeld zijn dat een buurt een rijk deel en een arm deel heeft.
Dat zie je niet in de data, maar misschien wel op luchtfoto’s. En in elk geval in
het echt. Wetenschappers die met dezelfde data in de weer zijn, kijken overi-
gens zelden naar losse gevallen: ze zijn vooral geïnteresseerd in verbanden.
Let wel, we zijn nog lang niet aan definitieve analyses bezig om antwoorden
te kunnen geven op zulke vragen. We zijn alleen maar aan het vissen, aan het
kijken of er mogelijk interessante verbanden opduiken waar je journalistiek
gezien wellicht iets mee kunt, die nader onderzoek vergen omdat er op het
eerste gezicht iets onverwachts of nieuwswaardigs uitkomt.
Bij zo’n nader onderzoek ga je preciezer kijken naar de manier waarop die
categorieën zijn gedefinieerd, hoe het zit met ontbrekende variabelen. En
natuurlijk ga je er meer over lezen: wat is er al bekend over citoscores van
allerlei etnische categorieën, of over de salarissen van mannen en vrouwen?
Niet alleen helpt het lezen van boeken, rapporten en artikelen je zoeken naar
zinnige vragen en naar nieuws, het helpt je ook valkuilen vermijden. Is er
rekening gehouden met leeftijd, met ervaring, met kinderen die de citotoets
niet hebben gemaakt? Realiseer je dat je bij het onderzoeken van verbanden
op het terrein begeeft waarop ook beleidsonderzoekers en wetenschappers
actief zijn. Dat is handig, want dan is er al vergelijkbaar onderzoek. Maar
het is ook link, omdat je gemakkelijk in methodologische haarkloverijen
terechtkomt. Die gaan gegarandeerd over de hoofden van je lezers of kijkers
heen, en doen de geloofwaardigheid van je verhaal zelden goed.
Het analyseren van data biedt een waardevolle aanvulling op het journalis-
tieke repertoire, maar het komt niet in de plaats van kennis van zaken over het
onderwerp. Als je niet weet waar je het over hebt, ga je geheid de mist in, hoe
handig je ook bent in het stoeien met datasets.
Tot zover de tips van Dick van Eijk. Sarah Cohen werkte jarenlang als data-
base-editor bij de Washington Post en won met haar werk de prestigieuze
Pulitzer-prijs. Ze is nu werkzaam als professor journalistiek aan de Duke Uni-
versity in Durham. Voor dit boek vroegen we naar haar drie beste tips in de
zoektocht naar rokende pistolen.
Cohen merkt ook regelmatig dat ze cijfers soms eerder kan krijgen door bij
verschillende leveranciers navraag te doen. De auteurs van dit boek heb-
ben gemerkt dat sommige cijfers van het CBS die nog niet openbaar zijn, wel
beschikbaar zijn bij Eurostat. Dat komt doordat de deadline voor bepaalde
Nederlandse statistieken voor Europa strenger is dan voor het CBS zelf. Zo
vind je via een omweg toch de cijfers.
Sarah Cohen werkt liever ‘vanaf de grond omhoog’ dan vanaf ‘statistieken
naar beneden’. ‘Wat ik daarmee bedoel, is dat ik het liefst individuele gevallen
vind – door een straatinterview of gewoon vragen stellen – en dan omhoog ga
om te berekenen hoe wijdverspreid het patroon is. Toen ik werkte aan onder-
zoek naar landbouwsubsidies, was ik in eerste instantie niet bezig met allerlei
cijfers, maar met een tip dat mensen subsidie voor rijst kregen terwijl ze hele-
maal geen rijst verbouwen. Vervolgens ben ik gaan nadenken: kan ik zoiets
ook terugvinden in een database? Waar moet ik dan op letten? Ergens moet
zijn vastgelegd dat ze subsidies krijgen, maar dat ze kennelijk geen bewijs
hoeven te leveren over wat er daadwerkelijk wordt verbouwd. Al gauw bleek
dat nergens in de regels stond dat ze bewijs moeten leveren, zelfs niet om in
aanmerking te komen voor aanvullende subsidies bij lage prijzen of weerram-
pen, zoals overstromingen of droogte. Door de databases goed te bestuderen
vonden we honderdduizenden landbouwers die een beetje subsidie kregen
voor helemaal niets doen. Het ging om een periode van vijf jaar, waarin ruim
1,3 miljard dollar werd uitgekeerd.’
Bedenk vooraf hoe een database is opgebouwd door na te denken wat wel
en niet wordt bijgehouden. Kom vooraf met een modus operandi. Sarah
Cohen: ‘Stel dat je op zoek bent naar fake overheidscontracten. Hoe zou-
den die zijn verwerkt in officiële data? Wat zou iemand moeten doen om het
te verbergen? Is het misschien zo dat kleinere bedragen niet hoeven te wor-
den gespecificeerd en dat je ze in de statistieken in een algemenere post terug
kan vinden? Zo ja, wat is die post dan? Wordt er misschien een uitgavenpost
bedacht die ongebruikelijk is?’
Sarah roemt een stuk van The New York Times over het omkopen van Mexi-
caanse ambtenaren door winkelketen Wall-Mart, zie http://forreporters.com/
walmart.
Figuur 5.33 Farmsubsidy.org houdt ook voor Nederland bij wie subsidie krijgt
en waarom, zie http://forreporters.com/subsidie en http://www.
hetlnvloket.nl/databank-eu-subsidiegegevens-2011
De journalisten van The New York Times ontdekten dat de bedragen voor
omkoping werden weggewerkt via rekeningen met daarop steeds dezelfde,
maar ongebruikelijke (want niet gangbare) code. ‘Kijk dus naar codes en
omschrijvingen die je niet snapt omdat je ze nooit eerder zag. Roep desnoods
vergelijkbare cijfers van een ander bedrijf in dezelfde branche op en vergelijk
hun modus operandi. Wat afwijkt, is vaak een “smoking gun”: kijk naar de
codes die een bepaalde ambtenaar gebruikt en verder niemand.’
Vrijwel alle cijfers bevatten omschrijvingen die je niet meteen begrijpt. Leer
het speciale jargon kennen en durf bij voortduring te vragen om wat iets bete-
kent. Vraag om een legenda, een ‘code book’, instructies of wat dan ook dat
bijdraagt aan begrip van de database. Het helpt je dingen te zien in een data-
base waarop je normaal gesproken niet let. Als jij het al niet begrijpt, hoe moet
je lezer, luisteraar of kijker het dan begrijpen?
Hypothese bedenken
Op vakantie ben je voor € 2,50 per boeking verzekerd tegen het niet doorgaan
van je reis vanwege calamiteiten, zoals een faillissement. Dat geld wordt geïnd
door de Stichting Garantiefonds Reisgelden. Je beschikt over een lijst van het
aantal personen dat zich verzekerde tegen calamiteiten. Ook heb je het jaar-
verslag van de stichting waarin staat hoe vaak ze schade hebben gehad. Wat is
nu een interessante hypothese?
Hoe kan een cijfer nou niet waar zijn? Een werkloosheidspercentage is mis-
schien gebaseerd op een ingewikkelde berekening, maar is altijd exact. Als
je een buitentemperatuur voelt van 30 graden Celsius, is dat een precieze
meting. Het is dan gewoon warm – geen punt van discussie.
Als het Centraal Bureau voor de Statistiek meldt dat meer mensen dan ooit
geld lenen, dan is dat toch boven elke twijfel verheven? De omzetcijfers van de
detailhandel of inflatiecijfers: hoe kunnen die er nu naast zitten? Waarom zou
je maar een moment twijfelen aan de waarheid van exacte getallen?
Vraag je bij elk cijfer altijd af: hoe is het tot stand gekomen? Het werkloos-
heidspercentage is niet zo precies als het klinkt. Wie stop je in een werkloos-
heidscijfer? Natuurlijk niet kinderen of mensen die al met pensioen zijn. Maar
wie dan wel? In 1984 daalde de werkloosheid onverwachts. Bij nader onder-
zoek was dat nogal logisch. De overheid besloot dat jaar om 50.000 werklozen
boven de 57,5 jaar niet meer mee te rekenen. Zo wordt er voortdurend aan het
getal gesleuteld. Probeer altijd bij de maker van de cijfers op te vragen in welk
jaar wat is veranderd in de ‘cijferformule’. Soms is het botte feit dat de over-
heid sleutelt aan de berekening van cijfers al nieuws. De toenmalige minister-
president Ruud Lubbers zei af te zullen treden als meer dan een m iljoen
Figuur 6.1 Foutieve berichtgeving van het CBS – het gebeurt maar zelden
Het CBS heeft op 22 februari op deze website een artikel gepubliceerd over con-
sumptief krediet. Naar aanleiding van een artikel in De Volkskrant is onduidelijk-
heid ontstaan met betrekking tot de creditcardkredieten. Onderzocht wordt welke
gevolgen dit heeft voor de cijfers en conclusies in het artikel. Totdat hierover zeker-
heid is trekt het CBS dit artikel terug uit zorgvuldigheidsoverwegingen.
Jelke Bethlehem werkt als wetenschapper bij het CBS en doet onderzoek naar
de manier waarop cijfers worden vergeleken en hoe ze tot stand komen. Hij
ziet niet alleen het gevaar van berichtgeving op basis van wankele cijfers,
maar ook het gevaar van vergelijken. Als voorbeeld maakte hij een pun-
tenwolk, waarbij voor elke provincie de waarden van twee variabelen tegen
elkaar zijn afgezet: de omvang van het brandweerkorps (het operationele deel)
en het aantal branden met schade. Zelden zie je een zo duidelijk verband. De
punten liggen vrijwel op een rechte lijn. De conclusie is duidelijk. Naarmate
er meer brandweerlieden in een provincie zijn, doen zich meer branden voor.
Hieruit zou je kunnen concluderen dat er bij bezuinigingen op brandweer-
korpsen minder gebouwen in vlammen opgaan. Of als je nog korter door de
bocht gaat, dat alle brandweerlieden pyromanen zijn!
Je bent vergeten rekening te houden met een andere factor: de dichtheid van
de bebouwing. En daarmee het aantal mensen dat in de regio van een brand-
weerkorps woont. Wanneer er sprake is van een dichtere bebouwing, zijn
er meer kansen op brand en daarvoor zijn meer brandweerlieden nodig.
Het probleem is niet dat je appels met peren vergelijkt, je bent domweg de
bananen vergeten.
Een andere denkfout die vaak wordt gemaakt bij onderzoek, is de Simpsons
paradox. Die is genoemd naar de statisticus E.H. Simpson, die er in 1951 voor
het eerst over publiceerde. De paradox verklaart waarom de resultaten van
groepen lijken om te draaien, als je ze op een onhandige manier combineert.
Stel je voor: in twee klinieken (we noemen ze Het Alziende Oog en Snel
Weer Zien) worden twee oogingrepen uitgevoerd, een ingreep aan staar en
een minder risicovolle laserbehandeling. De meeste van deze operaties gaan
goed (+), maar soms gaat er ook wel eens iets mis (-). In de volgende tabel staan
de aantallen ingrepen van een kalenderjaar uitgesplitst.
Kliniek + - Totaal
Het Alziende Oog 2400 80 2480
Snel Weer Zien 700 20 720
Totaal 3100 100 3200
We zijn nu geneigd om te zeggen dat Snel Weer Zien een betere score heeft,
immers:
• percentage succesvolle ingrepen Het Alziende Oog: 2400/2480 = 0.968;
• percentage succesvolle ingrepen Snel Weer Zien: 700/720 = 0.972.
Maar is dit wel terecht? Dat kunnen we pas zien als we verder de cijfers
induiken. Dan blijkt dat Het Alziende Oog relatief vaker de meer risicovolle
staaringreep uitvoert. Allereerst de cijfers van de lichte ingreep, de laser
behandeling.
Kliniek + - Totaal
Het Alziende Oog 600 15 615
Snel Weer Zien 600 16 616
Totaal 1200 31 1231
Nu zien we een ander beeld: Het Alziende oog scoort ietsje beter (0.976) dan
Snel Weer Zien (0.974). Dat komt nog ietsje duidelijker naar voren bij de wat
zwaardere staaringrepen.
Kliniek + - Totaal
Het Alziende Oog 1800 65 1865
Snel Weer Zien 100 4 104
Totaal 1900 69 1969
Het Alziende Oog scoort ook nu beter (0.965) dan Snel Weer Zien (0.962).
De boodschap zal nu wel duidelijk zijn. Als je ergens een statistisch ver-
band vindt, dan moet je niet in de val trappen om onmiddellijk een oorza-
kelijk verband vast te stellen. Ook het CBS moet daarmee oppassen. In het
CBS-webmagazine van 20 mei 2009 staat een artikel met de kop ‘Boeren met
meewerkende partner hebben grootste boerderij’. En het bericht begint met
de zinnen: ‘Boeren met een meewerkende levenspartner hebben grotere land-
bouwbedrijven dan alleenstaande boeren of boeren met een niet-meewer-
kende partner. Van de boeren in Nederland heeft 62 procent een partner die
ook op de boerderij werkt. Ongeveer 27 procent heeft geen partner.’ Het staat
er niet, maar het roept de suggestie op dat als je boer maar zo gauw moge-
lijk een partner moet nemen, want dan wordt je bedrijf groter. Maar zo zit het
natuurlijk niet. Het oorzakelijk verband zal eerder andersom liggen: op grote
boerderijen heb je een meewerkende partner nodig. Misschien had de kop
beter anders kunnen luiden, zoiets als ‘Grote boerderijen hebben meer mee-
werkende partners’.
Hoe dan ook, met de statistiek kom je meestal niet veel verder dan het vast-
stellen van een verband, het samengaan van twee verschijnselen. Pas op met
het wekken van de suggestie van oorzakelijke verbanden.
‘Huh, volgens mij verdienen de meeste studenten uit mijn groep helemaal
niets bij.’
Van de tien studenten heeft alleen Kees een bijverdienste van 6000 euro
per maand. Dat komt omdat hij een succesvol bedrijfje heeft in iPhone-
applicaties. De rest van de groep heeft geen bijbaantje en moet zelfs geld lenen
om rond te komen.
Gemiddelde
Het is een raar ding, een gemiddelde. Niemand in de groep verdient echt 600
euro bij. Cijferaars hebben gewoon alle inkomens bij elkaar opgeteld en door
tien gedeeld. Op Kees na verdient iedereen 0 euro. Vrijwel niemand in de
groep herkent zich in de statistisch verantwoorde uitspraak dat de rekenkun-
dig gemiddelde bijverdienste van de tien studenten 600 euro per maand is.
Zo is het wel vaker met een rekenkundig gemiddelde. Op grond van boven-
staand voorbeeld denk je dat vrijwel iedereen wel wat bijverdiensten heeft, ter-
wijl vrijwel niemand een bijverdienste heeft.
Lees beide uitspraken nu nog eens. Bij nader inzien ligt de opmerking van
de student het dichtst bij de waarheid: op Kees na heeft niemand een bijver-
dienste. Stel dat je zonder nader onderzoek in je productie had gemeld dat de
gemiddelde bijverdienste 600 euro is. Niemand klaagt je aan voor deze con-
statering. Maar een grote bijdrage aan waarheidsvinding lever je niet.
Daarom zijn in de statistiek ook andere gemiddelden bedacht die je een beter
beeld geven van de werkelijkheid dan maar gewoon alle waarden bij elkaar op
te tellen en te delen door het aantal waarden. Hier zijn er twee:
De modus
Dit geeft je in één oogopslag een prima beeld van welk getal het vaakst voor-
komt. Je berekent het zo:
1. Open Excel.
2. Vul in kolom A de tien namen van studenten in en in kolom B de juiste
waarden (allemaal 0, behalve Kees 6000).
3. Klik op vakje B17 en klik één keer op het formule-teken.
Figuur 6.6……………..
Figuur 6.7………………
Klik op ENTER en je ziet de MODUS voor deze cijferreeks, die je al van mij-
lenver zag aankomen: 0. Dat klinkt al heel anders dan het gemiddelde inko-
men is 600 euro per maand – het meest voorkomende inkomen is 0 euro.
De mediaan
De mediaan is een maat die ook kijkt naar de verdeling van cijfers. Welke 50%
ligt boven het middelste cijfer? Welke 50% ligt onder het middelste cijfer?
Een mediaan is precies dat: het midden in een verdeling van cijfers.
Stel je voor: je hebt een aantal kwaliteitsmetingen van water. Het gemiddelde
wordt berekend door een aantal getallen bij elkaar op te tellen en vervolgens te
delen door het aantal getallen. Voorbeeld: het gemiddelde van kwaliteitsme-
tingen met de waarden 2, 3, 3, 5, 7 en 10 is 30 gedeeld door 6; de uitkomst is 5.
De mediaan is het middelste getal van een groep getallen. Dat wil zeggen dat
de helft van de getallen een waarde heeft die groter is dan de mediaan, en de
helft van de getallen een waarde heeft die kleiner is dan de mediaan. Voor-
beeld: de mediaan van 2, 3, 3, 5, 7 en 10 is 4.
De mediaan is nuttig bij journalistieke verhalen als je uitspraken wilt doen als:
‘De helft van de leerlingen scoorde hoger dan een acht op hun eindexamen.’
Wellicht ten overvloede: deze berekeningen kun je niet maken voor zoge-
naamde categorische variabelen (ook wel aangeduid als kwalitatieve of klasse-
variabelen). Voorbeelden van categorische variabelen zijn bijvoorbeeld de
bloedgroep met als klassewaarden A, B, 0 of AB, mannelijk of vrouwelijk,
licht of donker, zwart of wit, et cetera. Je kunt wel rekenen met kwantita-
tieve variabelen. Onder kwantitatieve variabelen verstaan we variabelen als
lichaamslengte, gewicht, de tijd, aantal kinderen, een score op een toets of IQ.
Samenvattend:
• Het rekenkundig gemiddelde bestaat uit alle waarden bij elkaar opgeteld,
gedeeld door het aantal waarden.
• De modus laat zien welk getal het vaakst voorkomt.
• De mediaan is het middelste cijfer in een reeks.
Datajournalist Dick van Eijk vindt het soms best ingewikkeld om op basis van
een goede dataset correcte conclusies te trekken: ‘Verwarring van correlatie
en causaliteit, rekenfouten of gebrek aan statistische kennis kunnen gemak-
kelijk leiden tot betwistbare of zelfs onzinnige conclusies.’
Die lezers hadden gelijk. Wat was er aan de hand? Iets geks in elk geval, want
veel gemeenten hadden wel de juiste kleur, maar niet allemaal. Nader onder-
zoek leerde dat elke gemeente op alle kaarten de kleur had die de gemeente die
daar in het alfabet op volgde, had moeten hebben.
Soms heeft een partij ongeveer evenveel gewonnen of verloren in twee
gemeenten die elkaar in het alfabet opvolgen, maar vaak ook niet natuurlijk.
Wat was er misgegaan? Bij het verwerken van de gegevens in Excel was een
blok gegevens één rij te ver verplaatst. Dick van Eik: ‘Eén muisklik, het equi-
valent van een typefout, en een hele pagina met kaarten was verprutst. Op
maandag 11 mei werd de hele pagina opnieuw afgedrukt, nu goed. In kleur,
wat toen nog niet alledaags en dus extra duur was. Het is waarschijnlijk de
grootste correctie uit de geschiedenis van NRC Handelsblad.’
En dat door één verkeerde muisklik. Een datajournalist heeft krachtig gereed-
schap in handen, ook om fouten te maken.
Deze fout was eenvoudig te voorkomen geweest als voor plaatjes dezelfde pro-
cedure zou zijn gevolgd als voor tekst: eindredactie.
Controleer op elke kaart een stuk of tien gemeenten handmatig. Als die klop-
pen met de brondata, kloppen ze waarschijnlijk allemaal. Als er ook maar één
niet klopt, kloppen er waarschijnlijk veel meer niet, en moet de data-analyse
worden overgedaan, in elk geval vanaf het punt waar het misging (als je dat
snel kunt vinden). Van Eijk: ‘Te gemakkelijk werd op de redactie gedacht: dit
komt uit de computer, dus het klopt. Natuurlijk is dat onzin, maar dat reali-
seer je je pas als het een keer gruwelijk misgaat. Zorg er dus voor dat alles wat
je als datajournalist produceert, of dat nu teksten zijn of plaatjes, wordt gecon-
troleerd door iemand anders – iemand die begrijpt wat hij moet controleren
en die toegang heeft tot de brondata.’
Dát in dit geval snel werd ontdekt waardoor de fout was veroorzaakt, kwam
doordat bij de databewerking een vaste procedure was gevolgd. Die is eigenlijk
heel eenvoudig: sla bij elke bewerkingsslag het tussenproduct op. Bij kleine,
eenvoudige bestanden kan dat op een apart werkblad in een Excel-bestand.
Bij heel grote bestanden gaat dat niet of is dat onpraktisch. Sla dan telkens
een tussenbestand op met een nieuwe, logische naam. Door in die naam een
ummer op te nemen kun je later makkelijk stap voor stap het hele proces nog
n
eens langslopen en uitvissen waar er eventueel iets is fout gegaan. Bovendien
kun je dan met het laatste bestand voor de fout verder werken, en hoef je niet
álles opnieuw te doen.
Van Eijk: ‘Dat kan zo maar dagen werk besparen.’ Leg ook vast wat je in elke
tussenversie hebt gedaan, in het bestand zelf, in de eigenschappen van het
bestand, of in de naam. Een bestand met een naam als ‘Verkiezingen 1998 ver-
sie 07 – na uniformeren partijnamen’ is ook jaren later nog te interpreteren.
In bovenstaand voorbeeld had Dick van Eijk zelf een fout gemaakt in het ver-
werken van ruwe gegevens tot analyseerbare data, het zogeheten data clean-
sing of data poetsen. Nog lastiger te ontdekken en nog lastiger te voorkomen
is het als er in de brondata al fouten zitten. Wellicht ben je er niet op bedacht
dat degelijke instellingen als het CBS, de Kamer van Koophandel of een
gemeente foute data verstrekt. Maar dat gebeurt soms wel. Het is helaas lang
niet altijd mogelijk zo’n fout tijdig op te sporen, maar met een paar procedures
zijn de risico’s wel te beperken.
De grootste risico’s zitten op de plekken waar de afwijkingen zitten, de uit-
schieters. Immers, juist die vormen vaak aanleiding tot verhalen of in elk
geval tot zinnetjes in een verhaal. Daarom verdienen uitschieters – in de nega-
tieve zin – extra aandacht.
‘Die verklaring is plausibel, maar je moet ze stuk voor stuk checken, voor alle
buurten waar het percentage heel hoog is. Zo was er een buurt waarover de
afdeling voorlichting van de gemeente liet weten dat daar geen sprake was
geweest van stadsvernieuwing. Toch zou meer dan een derde van alle huis-
houdens in één jaar zijn verhuisd. Zo’n hoog percentage komt eigenlijk alleen
voor in heel slechte buurten, waarvan hier geen sprake was. Wat dan?’
Voorlichting wist het niet. Op naar de afdeling Wonen. Ook daar had men
geen idee: er was geen grote nieuwbouw, geen sloop, en ze konden zich niet
voorstellen dat er zo veel mensen verhuisd waren. Maar ja, het stond in de
officiële data van de gemeente. Volgende loket: de afdeling Bevolking. Na drie
keer het verhaal te hebben uitgelegd aan even zovele medewerkers was het
raak: de man die het bestand had gemaakt, wist hoe het zat. De gemeente had
nu eenmaal elk jaar te maken met allerlei administratieve correcties en men-
sen die niet meer te achterhalen waren. Voor het gemak had men die allemaal
in één buurt laten vallen, dan klopten de totalen voor de gemeente in elk geval
weer. Dat die op buurtniveau niet klopten, vond men niet zo erg, want met die
cijfers deed men eigenlijk niets.
Dit is een voorbeeld van een verschijnsel dat zich nogal eens voordoet als je
data gaat gebruiken voor een heel ander doel dan ze zijn verzameld: de data
zijn niet zuiver, althans niet voor jouw doeleinden.
Dick van Eijk: ‘Je kunt je dan echt lelijk in de vingers snijden. Neem criminali-
teitscijfers: agenten moeten bij een aangifte een postcode invullen van de plek
waar het delict heeft plaatsgevonden. Soms is die bekend, bijvoorbeeld bij een
inbraak in een woning, maar soms is dat niet zo duidelijk, bijvoorbeeld bij een
beroving op straat. Maar ja, de agenten moeten wat invullen en op sommige
politiebureaus hadden ze de gewoonte om dan de postcode van het politiebu-
reau in te vullen. Voor hen was daarmee de kous af, het formulier was inge-
vuld, de aangifte kon worden verwerkt.’
Totdat iemand alle delicten per postcode in kaart ging brengen en enkele
onverwachte black spots in de stad ontdekte, plaatsen met zeer veel crimina-
liteit. En het duurde ook nog even eer duidelijk werd dat dit toevallig allemaal
plaatsen waren waar een politiebureau stond … De data waren nooit bedoeld
Vraag je daarom bij elke dataset die je krijgt af wie de set heeft samengesteld
en met welk doel. Er is niets op tegen om die data met een heel ander doel te
analyseren. Niet zelden levert dat nieuws op, omdat niemand eerder op die
manier naar die data heeft gekeken. Maar wees je bewust van de risico’s, vraag
je af of je oneigenlijk gebruik tot problemen of foute conclusies kan leiden.
‘Wees alert op rare uitkomsten: die kunnen nieuws zijn, maar ook een fout in
het bestand. Check waar nodig en waar mogelijk bij degene die de data heeft
verzameld hoe het zit. Te veel checken bestaat niet. Ja, het kan je een primeur
kosten – en een rectificatie besparen.’
En dan denk je dat je alles hebt gecheckt, en dan gaat het nog fout. Bij het ana-
lyseren van data over werkgelegenheid in alle gemeenten van Nederland bleek
dat in een bepaalde periode van economische voorspoed (tweede helft van de
jaren negentig van de vorige eeuw) in vrijwel alle gemeenten het aantal banen
was toegenomen. In sommige gemeenten heel veel, in andere minder of wei-
nig. Slechts in enkele gemeenten was het aantal banen afgenomen. Die gingen
we stuk voor stuk controleren, voordat we een top tien van werkgelegenheids-
krimpers in de krant zetten.
En wat bleek? In alle gemeenten waar het aantal banen was afgenomen, was
iets bijzonders aan de hand. Dat moet ook haast wel in zo’n bloeiperiode. Slui-
ting van grote bedrijven en instellingen, zoals scheepswerven of kazernes –
dat soort oorzaken zorgde voor een forse afname van het aantal banen in zo’n
gemeente en nivelleerde de groei bij de andere bedrijven daar.
Toen bleek dat er een gemeente was waar niet zulke voor de hand liggende
oorzaken te vinden waren voor de krimp van de werkgelegenheid. Wat was
daar dan aan de hand?
Door een gemeentelijke herindeling was een bepaalde gemeente een stuk
grond kwijtgeraakt aan een buurgemeente. Op dat stuk grond lag onder
meer een bedrijventerrein met redelijk wat banen. Het aantal banen in die
gemeente was weliswaar afgenomen, maar dat kwam niet doordat het daar
economisch niet goed ging. De banen bestonden nog steeds, op dezelfde plek,
alleen lag die toen in de buurgemeente. Het is ondoenlijk om dit soort din-
gen voor meer dan vierhonderd gemeenten te gaan checken. Maar doe dat wel
voor de uitschieters. Een blunder in je top tien staat erg stom.
Maar zelfs als je alle uitschieters checkt, kan het nog fout gaan. In een Bra-
bantse gemeente met een krimpende werkgelegenheid bleken inderdaad twee
grote bedrijven te zijn gesloten, dus een afname van het aantal banen was best
plausibel. Op de dag dat het verhaal in de krant stond, vergaderde de gemeen-
teraad toevallig, en de raad legde de wethouder van economische zaken het
vuur na aan de schenen: die had immers steeds gezegd dat het zo goed ging
met de economie in die gemeente, maar in de krant stond dat de gemeente
qua werkgelegenheid tot de slechtst presterende van Nederland behoorde. De
wethouder probeerde zich te verdedigen: wat in de krant stond, klopte niet,
het ging écht goed.
Maar de raad achtte de krant een geloofwaardiger bron dan de wethouder,
en even leek de gemeente op een regelrechte bestuurscrisis af te stevenen. De
volgende morgen een wanhopige wethouder aan de telefoon: wat in de krant
stond, klopte écht niet, zei hij tegen Dick van Eijk.
De ervaringen van Bethlehem en Van Eijk staan niet op zichzelf. Cijfers zijn
meningen. Onderzoeken kennen verschillende doeleinden. Mensen maken
bewust en onbewust fouten. Toch moet een journalist altijd streven naar een
valide en betrouwbare uitkomst van een onderzoek. Wat dat betreft kent zijn
werk overeenkomsten met dat van een wetenschapper.
Validiteit zegt iets over de inhoud: wordt er gemeten wat de bedoeling is?
Betrouwbaarheid heeft te maken met de stabiliteit van het onderzoeksre-
sultaat. Wanneer het onderzoek zou worden herhaald, komen dan dezelfde
resultaten naar voren? Of geeft het een volledig nieuw beeld? Dit kan bijvoor-
beeld misgaan als je met een open vraag naar het uitgaansgedrag van mensen
vraagt. Voor de één is dit alleen cafébezoek, voor een ander valt een avondje
naar de bioscoop of een dagje naar de Efteling hier ook onder.
Datajournalisten maken doorgaans gebruik van bestaand onderzoek of
bestaande datasets. Om erachter te komen of deze valide en betrouwbaar zijn
moet je je van tevoren een aantal zaken afvragen. Welke vragen je jezelf moet
stellen, hangt af van het soort data waarmee je werkt.
Dit onderscheid is van belang omdat het kwaliteitsvraagstuk voor beide cate-
gorieën verschillende invalshoeken kent. Bij de eerste categorie spelen vooral
methodologische vraagstukken een primaire rol. Bij de tweede categorie staat
de nauwkeurigheid van de apparatuur en het raffinement van de toegepaste
algoritmiek centraal.
Het onderscheid valt niet zonder meer samen met de scheiding tussen mense-
lijke (‘zachte’) en exacte (‘harde’) vraagstukken. Zo behoren gedigitaliseerde
tekstcorpora uit de geesteswetenschappen tot de eerste categorie data en
werken onderzoekers met een sociale of economische achtergrond met data
verzamelingen uit beide categorieën.
1 Is de afzender betrouwbaar?
‘Samen koffie drinken blijkt nog altijd een populair middel onder jongeren
om onderlinge contacten te verstevigen. Waar sociale netwerken als Hyves en
Twitter ervoor zorgen dat we elkaar altijd kunnen bereiken en constant weten
waar onze “vrienden” zijn, zien jongeren nog altijd een duidelijk verschil tus-
sen online contacten en hun echte vrienden, met wie ze graag bijkletsen onder
het genot van “een bakkie”.’ Dit blijkt uit een onderzoek onder jongeren tus-
sen 18 en 35 jaar dat in 2009 werd uitgevoerd door Douwe Egberts.
Onderzoeken met een hoog ‘Wij van WC-eend adviseren WC-eend’-gehalte.
Ze verdwijnen bij de gemiddelde journalist direct in de prullenbak. Maar wat
als het onderzoek is uitgevoerd door een gerenommeerd onderzoeksinstituut?
Dan loont het nog steeds de moeite om de opdrachtgever te achterhalen. Wel-
licht is de methode betrouwbaar, maar heeft de opdrachtgever ervoor gekozen
om bepaalde onderzoeksresultaten wél en andere niet te tonen in een persbe-
richt.
Ditzelfde gaat op voor de betrouwbaarheid van een dataset. Stap 1 bij het
bepalen van de betrouwbaarheid is het achterhalen van de afzender. Ga na of
deze partij belangen zou kunnen hebben om bijvoorbeeld slechts gedeeltes
van alle beschikbare data te leveren. Als je hier op wat voor manier dan ook
aan twijfelt, laat de set dan altijd nakijken door een andere expert, of vergelijk
de dataset met andere cijfers.
3 Is de doelpopulatie in orde?
Onderzoeksgegevens zijn het resultaat van metingen. Dit kunnen metingen
zijn van bijvoorbeeld een temperatuur, maar ook resultaten uit enquêtes of
peilingen. In het laatste geval is het belangrijk om te achterhalen of de geïn-
terviewden representatief zijn voor het onderzoek. Dit speelt zich af op een
aantal niveaus.
Allereerst is het goed om te kijken of de doelpopulatie in orde is. De doel-
populatie is de groep van mensen waarop de uitkomsten van het onderzoek
betrekking heeft. De doelpopulatie moet duidelijk worden omschreven. Pro-
blemen kunnen ontstaan als het steekproefkader niet de hele populatie afdekt.
In feite wordt de steekproef dan uit een andere, kleinere groep getrokken.
De consequentie daarvan is dat de uitkomsten dan ook betrekking hebben
op die kleinere groep en niet op de oorspronkelijke populatie. Voorbeeld: de
doelpopulatie is gedefinieerd als alle Nederlanders van 18 jaar en ouder, ter-
wijl de steekproef wordt getrokken uit bezitters van een internetverbinding
Stel je voor, je wilt een representatief beeld krijgen van alle Lowlands-
bezoekers in 2011. Hier waren 55.000 bezoekers aanwezig. Om een repre-
sentatief beeld (de genoemde 95 procent) te krijgen van deze doelpopulatie
moet je minimaal 382 bezoekers ondervragen. Voor een nog zekerder beeld
van 99 procent zouden dit er 656 moeten zijn. Wordt bijvoorbeeld slechts de
mening van honderd mensen gepeild, dan zijn de uitkomsten onbetrouwbaar.
De kans is dan te groot dat deze honderd mensen een onzeker beeld geven van
de werkelijkheid. Daarom zegt een willekeurige poll op een website over het
algemeen ook vrij weinig.
Het is meestal niet mogelijk om vast te stellen hoe groot de vertekening is.
Dat kan alleen als bekend is wat de antwoorden van de non-respondenten op
de vragen zouden zijn. Omdat het echter om non-respondenten gaat, zijn die
antwoorden dus onbekend. Het is wel mogelijk om uit te rekenen hoe groot de
afwijking ten gevolge van non-respons maximaal kan zijn.
Een voorbeeld: uit een peiling blijkt dat de respondenten voor 60% uit man-
nen bestaan en voor 40% uit vrouwen. Dat is niet goed, want de Nederlandse
bevolking bestaat voor 49,5% uit mannen en voor 50,5% uit vrouwen. Kenne-
lijk hebben de mannen beter gerespondeerd in de peiling omdat ze zijn over-
vertegenwoordigd. Om hiervoor te corrigeren krijgt elke responderende man
een gewicht van 49,5 / 60 = 0,825. Dit betekent dat elke man nog maar meetelt
voor 0,825 in plaats van 1. Het gewicht is kleiner dan 1 omdat er te veel man-
nen waren in de respons. Elk vrouw krijgt een gewicht van 50,5 / 40 = 1, 263.
Dus elke vrouw telt mee voor 1,263 in plaats van 1. Het gewicht is groter dan 1
omdat er te weinig vrouwen waren in de steekproef.
Het toekennen van gewichten aan mannen en vrouwen leidt ertoe dat de res-
pons representatief wordt met betrekking tot het geslacht. Die gewichten kon-
den worden uitgerekend omdat de juiste percentages in de populatie bekend
waren. Het idee achter wegen is nu om de respons representatief te maken met
betrekking tot zo veel mogelijk kenmerken.
Daarnaast is een fout maken menselijk: in een groot databestand wordt een 1
soms zo maar een 10 of steken tikfouten de kop op. Gebruik hierbij je gezonde
verstand. Zitten er gekke uitschieters in? Vraag dan na of dit wellicht een
foutje is. En maak een dataset altijd goed schoon, als je er zelf analyses mee
wilt maken. Hoofdstuk 3 over het verwerken van data biedt hiervoor handvat-
ten.
Voor een goed onderzoek is het noodzakelijk dat de vragenlijst wordt getest
voordat hij echt gebruikt
gaat worden voor het onderzoek. En is het dus net zo noodzakelijk om na te
gaan of die test heeft
plaatsgevonden.
Als je te maken krijgt met data die voortkomt uit apparatuur, vraag je dan
allereerst ook af wie de afzender is. Schat deze op waarde: vind je het een
betrouwbare partij?
De kwaliteitscheck gaat verder onder meer over de nauwkeurigheid van de
meetgegevens. Rijkswaterstaat geeft bij haar datasets over de waterstanden
bijvoorbeeld uitgebreide informatie over hoe de metingen tot stand zijn geko-
men. Op het moment dat je meerdere datasets over waterstanden wil gaan
samenvoegen, check dan of de datasets op dezelfde soort metingen zijn geba-
seerd. Anders zou het kunnen dat je appels met peren gaat vergelijken.
Loop vervolgens alle beschrijvingen van de verschillende variabelen in de
dataset na. Klopt dit, is het duidelijk? Lees de beschrijving nauwgezet. Heb je
vragen of twijfel je ergens over? Neem dan contact op met de onderzoekers.
Een ander voorbeeld. Het bedrijf Jobfeed biedt naar eigen zeggen een over-
zicht van bijna alle nieuwe vacatures die verschijnen op internet. Dit doen ze
al jaren, waardoor ze een historisch overzicht opbouwen van al deze online
vacatures. Wellicht interessant om trends in te ontdekken? Niet echt. Aller-
eerst geeft het bedrijf slechts een overzicht van een beperkt aantal sites waarop
vacatures verschijnen en geeft het zo nooit een volledig beeld. Nog lastiger is
het dat het bedrijf in de loop der jaren steeds nieuwe sites heeft aangesloten
(en weer heeft afgestoten), waardoor het ook onmogelijk is om deze beperkte
datasets te vergelijken. Het bedrijf is hier zelf trouwens volledig transparant
over, dus wat dat betreft geen probleem.
Maar wat als er nu geen politiewoordvoerder uit de school klapt of een bedrijf
niet een eerlijk beeld schetst? Of misschien nog wel erger: wat als de organi-
saties zelf niet door hebben dat de datasets niet kloppen? Of dat ze misschien
wel expres bepaalde resultaten achterhouden omdat die niet helemaal goed in
hun straatje passen? Deze problemen blijven in de werkelijkheid onzichtbaar.
Een gezonde dosis wantrouwen werkt hierbij goed. Denk bij ieder onderzoek
of iedere dataset na over mogelijke invloeden die je resultaten verstoren. Heb
geen heilig vertrouwen in cijfers, kijk altijd naar het achterliggende verhaal.
Bepaal voor jezelf waar je grenzen liggen en geef die grenzen door aan de
lezer. Zie in opvallende resultaten eerder een denk- of werkfout dan nieuws.
Tot slot nog een ethische vraag: wat als er bij data privacygevoelige kwesties
spelen?
Het College Bescherming Persoonsgegevens (CBP) sneed zich hiermee in 2011 diep
in de vingers. Het CBP presenteerde toen een onderzoeksrapport over de manier
waarop Google de privacy schendt, maar publiceerde hierbij zelf ook privacyge-
voelige data. Het rapport toonde verschillende voorbeelden van de wijze waarop
met enkel een MAC-adres (een uniek identificatienummer van apparaten in een
netwerk zoals pc’s, routers en smartphones) de exacte locatie van de router en dus
ook de eigenaar daarvan is te achterhalen. In het rapport had het CBP weliswaar de
MAC-adressen gewist, maar niet de volledige resultaten uit de database, inclusief
huisadressen. Journalisten van Webwereld achterhaalden zo vrij eenvoudig de
mensen achter de data, waarna het CPB excuses aanbood en de data anonimi-
seerde.
Het VARA-programma Zembla ontdekte in 2012 dat door een lek in het medische
computerprogramma Humannet de gegevens van meer dan 300.000 werknemers
maandenlang op straat hebben gelegen. Doordat het programma niet beveiligd
was tegen SQL-aanvallen, konden de gegevens van diverse bedrijven eenvoudig
worden bekeken. Een journalist demonstreert tijdens de tv-uitzending hoe werk-
nemers en zelfs de voetballers van FC Twente makkelijk te vinden zijn dankzij het
lek in het programma.
Wat zou je zelf doen als dit soort data op je scherm verschijnen? Een verhaal maken
over de schendbaarheid van privacygegevens of toch even kijken of je de buurman
kunt vinden?
Reken mee
Ga naar www.guardian.co.uk/commentisfree/2011/oct/28/bad-science-diy-
data-analysis en lees hoe een ‘nerd’ in zijn eentje kanttekeningen plaatst bij
een onderzoek. Aan het eind van het artikel lees je hoe je zelf de berekening
kunt maken. Voer deze zelf uit.
Trackrecord: Marije Rooze (1986) is geen journalist, maar houdt zich bezig
met multimedia design. Ze kwam in aanraking met datajournalistiek via
haar studie communicatie en multimedia design aan de Avans Hogeschool in
Breda. ‘Maar na een paar jaar handwerk – het maken van flitsende ontwerpen
en interactieve designs – wilde ik mij graag verdiepen in de theoretische kant
van de zaak.’ Daarom begon ze in 2010 met de masteropleiding Nieuwe Media
aan de Universiteit van Amsterdam. Momenteel zit ze in de laatste fase van
haar studie. Naast haar opleiding werkt ze al freelance ontwerper. Zo rolde ze
langzaam in de datajournalistiek.
‘Bij mijn masteropleiding ging ik mij bezighouden met de theorie: wat het
betekent om een probleem op deze of juist die andere manier weer te geven, te
visualiseren.’
‘Als je data omzet in beeld – zichtbaar maakt in een animatie, een grafiek, of
een tabel – moet je altijd je probleem vereenvoudigen. Dat is heel moeilijk, en
vooral voor mij. Ik ben iemand die graag veel gegevens verzamelt en verwerkt.
Maar de kunst is om je probleemstelling zo smal mogelijk te houden, en ook
niet te veel gegevens te willen omzetten in een beeld. Want dat werkt niet. Je
moet een probleem dus simplificeren – maar wel in je achterhoofd houden dat
ook dat weer implicaties heeft.’
Het project waarop Marije Rooze afstudeert, is een analyse van de stand van
de datajournalistiek van The Guardian en The New York Times.
‘Dat zijn twee pioniers als het gaat om datajournalistiek. Zij hebben vele
mooie projecten gemaakt. Wat ik nu doe, is dat ik in kaart breng wat voor
soort projecten zij hebben opgezet. Wat zijn de thema’s die zij kozen? Wat voor
visualisatie gebruikten zij daarbij? Een tabel? Een grafiek? Een animatie?’
Marije Rooze zou niet iedereen aanraden om zelf een programma te schrij-
ven waarmee je data in beeld kunt brengen. ‘Er zijn ook hele goede open
source programma’s op het internet die je kunt gebruiken. Denk aan Tableau,
ManyEyes en Google Fusion Charts. Je importeert dan je eigen gegevens in
zo’n programma en kiest je visualisatie. Het programma genereert die gege-
vens dan automatisch. Het nadeel van template design, zoals het heet, is
dat dit soort standaardontwerpen niet geschikt zijn voor elk type dataset.
En als je toch zo’n template gebruikt, kun je die maar moeilijk aanpassen
(customizen).’
Laura werkt fulltime voor Homicide Watch, een platform over moord op basis
van databases. ‘Ik ben de redacteur en eerste verslaggever van onze centrale
website en ben daarnaast verantwoordelijk voor de zakelijke kant van het
“merk”. Homicide Watch is het beste wat ik gemaakt heb. Het gaat niet alleen
om de data en ook niet alleen om de journalistiek. We voorzien op een inno-
vatieve manier in een behoefte van de gemeenschap. Het idee ervoor kwam
voor het eerst in me op toen ik nog maar net in Washington DC woonde en
een paar rechtszaken wilde volgen. Het bleek bijna onmogelijk om nieuws-
bronnen te vinden. Ik ontdekte dat familie en vrienden van slachtoffers en
verdachten vaak informatie plaatsen op ongebruikelijke plekken – online
necrologieën en herinneringspagina’s over de overledene op Facebook. Toen
ging ik nadenken over manieren waarop een nieuwsproduct het nieuws
over moordzaken zou kunnen brengen én een plek zou kunnen zijn waar de
gemeenschap er contact over kan houden.’
‘De eerste beschrijving van de site luidde: ‘alles wat een verslaggever in zijn
notitieboek of op zijn bureau heeft wanneer hij een moordzaak volgt’. Dat is
nog steeds een van de uitgangspunten van de site, maar het houdt wel in dat
het organiseren van informatie superbelangrijk is. Zo is het publiceren van
zittingsdata bijvoorbeeld pas zinvol als je ze in een kalender zet.’
‘Een gemiddelde dag begint voor mij met verslaggeving. Ik bekijk het nieuws
en post soms wat korte artikelen over wat er die nacht gebeurd is. Daarna ga
ik meestal naar de rechtbank om hoorzittingen en rechtszaken bij te wonen,
documenten te verzamelen en verslag te doen. Meestal heb ik een lijstje met
wat ik die dag wil doen: zakelijke afspraken, freelancers inplannen, een plan-
ning maken voor lange-termijnprojecten, interviews geven over de website, et
cetera. Ik houd ook nog een persoonlijk blog bij over datajournalistiek. Mijn
werkdag is nooit echt voorbij. Tot ik ga slapen ben ik online.’
‘Homicide Watch DC was mijn eerste dataproject. Ik heb alles op dat vlak
geleerd door te werken aan de website. Homicide Watch begon als een spread-
sheet. De start-up kit die we hebben gemaakt voor newsrooms die ook willen
beginnen met een Homicide Watch-site, bevat nog steeds een spreadsheet die
ingevuld moet worden.’
‘Door het werk aan Homicide Watch weet ik dat nieuws zoveel meer is dan
“verhalen”. In een gemiddeld nieuwsbericht over misdaad staat bijvoorbeeld
een heleboel informatie, in ieder geval wie-wat-waar-wanneer. Zodra dat
stukje gepubliceerd is, is alle informatie verdwenen. Werken met nieuws apps
maakt het mogelijk om die informatie vaker te gebruiken en opnieuw te ‘ver-
pakken’. We proberen alles uit onze verslaggeving te halen wat erin zit.’
‘Ik werk bij een bedrijf, Matchstrike, dat gespecialiseerd is in user engage-
ment-strategieën. User engagement is een combinatie van onderzoek naar
gebruikerservaringen, ontwerp en programmeerplanning. Bedrijven bena-
deren mij om uit te vinden hoe ze de aandacht van gebruikers kunnen vast-
houden, hoe ze een community kunnen creëren en hoe ze daar vervolgens
geld mee kunnen verdienen. Verder ben ik betrokken bij de organisatie van de
Hacks/Hackers-groep in New York, en bezig met het oprichten van verschil-
lende afdelingen van Hacks/Hackers over de hele wereld.’
‘Op de middelbare school had ik een geweldige leraar voor statistiek. Hij was
ook de basketbalcoach. Ik heb daar geleerd hoe belangrijk statistiek is. Data
kunnen organiseren en interpreteren, sceptisch over stellige beweringen
zijn … Bijvoorbeeld: als er gesteld wordt ‘Vier van de vijf tandartsen zijn het
erover eens dat …’, waar blijkt dat dan uit? Behalve door de lessen statistiek en
mijn opleiding journalistiek aan de universiteit heb ik veel geleerd door veel te
dóén, dingen te maken. Hoewel ik jarenlang in newsrooms heb gezeten, bij-
voorbeeld bij de Los Angeles Times en CBS Digital Media Group, heb ik vooral
veel ervaring opgedaan als freelancer. Een van mijn eerste klanten was gespe-
cialiseerd in fondsenwerving voor tehuizen in achterbuurten. Ik heb toen in
kaart gebracht hoeveel geld er nodig was. Daarvoor werkte ik nauw samen
met de gemeentelijke afdelingen volksgezondheid en jeugdwelzijn. Ik moest
een hoop data doorspitten. Toen ik dat eenmaal gedaan had, ging het erom de
data en het verhaal in evenwicht te brengen. Getallen en grafieken hebben veel
meer impact als ze in de context staan van een sterk verhaal.’
‘Ik heb geen individuele mentoren, maar er is een actieve gemeenschap waar
men veel van elkaar leert. Daarom verzamel ik een heleboel op Delicious en
Pinboard. Ik probeer altijd verder te kijken dan de journalistiek om uit te vin-
den waar mensen zich mee bezighouden. Goede ideeën komen overal van-
daan. Er zijn zoveel slimme mensen die bereid zijn hun kennis te delen.’
‘Ik ben vooral trots op het werken met de community van Hacks/Hackers.
Sinds 2009 hebben we wereldwijd meer dan veertig groepen opgezet. In elke
groep worden journalisten, ontwerpers en ontwikkelaars samengebracht om
de mogelijkheden van nieuws beter te benutten.’
‘Amanda Cox, grafisch redacteur van The New York Times, heeft een visie op
het belang van datajournalistiek dat mij erg aanspreekt. Zij zegt: het is zinloos
om een stapel gegevens en getallen aan te bieden als je mensen niet helpt die
te begrijpen. Journalistiek gaat in de basis om feiten, je wilt ogen openen. Een
van de beste manieren om dat te doen is door een verhaal en kwantificeerbare
informatie met elkaar te verweven, vooral als het gaat om een onderwerp dat
veel mensen aangaat.’
Trackrecord: Sarah Cohen en Anthony DeBarros geven les in het gebruik van
data om een verhaal te vertellen. Sarah Cohen doceert journalistieke praktijk
en publiek beleid aan Duke University, en was voorheen dataredacteur voor
dagblad The Washington Post. Anthony DeBarros is database-redacteur bij de
krant USA Today.
DeBarros: ‘In 2006 bouwde ik met een collega van USA Today een database
van 620 studenten die overleden op of rond de universitaire campus. Die data
minede ik om te laten zien dat eerstejaars opvallend kwetsbaar waren. Een
hartverscheurend, maar belangrijk verhaal. We wonnen er de Missouri Life-
style Journalism Award mee, en daarna hebben we nog een verhaal gemaakt
over studentensterfgevallen door brand.’
Duke: ‘Een mooi project van mij gaat over besmet water in DC. Het waterbe-
drijf weigerde de resultaten van een groot onderzoek bekend te maken, waar-
uit gebleken was dat het water op heel veel plaatsen vervuild was. Wij had-
den die informatie van een bron gekregen. Na heel veel onderzoek, parsing
Cohen: ‘Alles wat ervoor kan zorgen dat minder mensen meer werk kunnen
leveren, is belangrijk in deze tijd. Er zijn immers steeds minder mensen die
fulltime bezig zijn de overheid in de gaten te houden. Nieuws apps helpen om
meer aandacht te vestigen op wat de overheid doet. Ik geloof ook dat nieuwsor-
ganisaties met nieuws apps geloofwaardiger overkomen: we laten beter zien wat
we doen. Newsrooms worden zo steeds transparanter. Nu ik in de jury zit van
een onderzoeksprijs, ben ik bijvoorbeeld wantrouwend over projecten die niet
alles laten zien van wat ze doen. Als ze bijvoorbeeld zeggen “Er waren 300 voor-
beelden waarin je hetzelfde patroon kan zien”, dan wil ik al die 300 voorbeelden
kunnen bekijken, om zelf te beslissen of ik het ermee eens ben.’
Trackrecord: Paul Bradshaw heeft een achtergrond in het maken van tijd-
schriften en websites. Hij doceert online journalistiek aan de Birmingham
‘Er zit eigenlijk altijd wel een verhaal in data. Journalisten zijn er bedreven
in om interessante aspecten uit data te halen die veel andere mensen over
het hoofd zouden zien. Op een heel basaal niveau: de grootste en de kleinste
waarde, veranderingen in tijd, veranderingen in ruimte of locatie. Daarnaast
zijn er natuurlijk vragen en verhalen die dieper gaan. Bij online journalistiek
gaat het soms ook gewoon om het bieden van service, het hoeft niet altijd om
een verhaal te gaan. Het kan ook een kwestie zijn van informatie samenbren-
gen die op verschillende plekken staat zodat het publiek een beter overzicht
heeft. Die rol, gegevens verzamelen en toegankelijk maken, is volgens mij een
steeds belangrijkere rol die de journalistiek vervult.’
‘Als je na heel veel moeite eindelijk je dataset hebt gekregen, is het verleidelijk
om te denken: dit is de waarheid. Maar dat is gevaarlijk om te denken: de data
kunnen incompleet zijn of fouten bevatten. Het is belangrijk om de gegevens
die je hebt gevonden in een dataset te vergelijken met data van een andere
bron. Zo heeft het Bureau of Investigative Journalism een onderzoek gedaan
naar het aantal mensen dat overleden is in politieverzekering. Toen uiteinde-
lijk dankzij de Freedom of Information Act de cijfers beschikbaar kwamen,
zijn die vergeleken met de sterftecijfers uit andere bronnen, zoals interne
onderzoeken en lijkschouwingen. Wat bleek, was dat veel overlijdensgevallen
niet in de officiële statistieken terechtkwamen, omdat de politie een heel enge
definitie hanteerde. Dit soort vergelijkingen kan grote verhalen opleveren,
omdat ze iets kunnen zeggen over politieke keuzes die gemaakt zijn.’
gevolgrelatie bestaat tussen twee cijfers. Stel dat er boetes worden uitgedeeld
bij een weg waarop het aantal snelheidsovertredingen drastisch is geste-
gen en dat daarna het aantal snelheidsovertredingen afneemt. Dan is er nog
geen causaal verband bewezen; die daling kan ook worden veroorzaakt door
andere factoren. Onbetrouwbare statistieken kunnen op zichzelf trouwens
ook een interessant verhaal opleveren.’
Trackrecord: Geoff McGhee geldt als een autoriteit op het gebied van data-
visualisatie en multimedia storytelling. Hij ontwikkelt visualisaties en info-
grahics bij The Bill Lane Center for the American West van de Stanford
University. Van 2009 tot 2010 onderzocht hij journalistieke datavisualisaties
in het kader van een Knight Journalism Fellowship aan de Stanford Univer-
sity. Daarvoor werkte hij onder andere voor Le Monde Interactif als multime-
dia-redacteur, tussen 2000 en 2008 bij The New York Times en van 1999 tot
2000 bij ABCNews.com. In 1999 behaalde hij zijn master journalistiek aan de
Columbia Journalism School van de Columbia Universiteit.
‘Ik pleit ervoor om datavisualisaties betere metadata mee te geven voor het
delen via sociale media. Visualisaties hadden het moeilijk op grote nieuws-
websites. Redacteuren hadden eigenlijk geen idee waar ze deze kwijt moes-
ten. Maar dankzij sociale media worden die bijzondere visualisaties gedeeld,
zodat mensen ze eindelijk kunnen vinden. Probleem is alleen wel dat die
graphics vaak ontdaan zijn van context: je weet niet wie ze heeft gemaakt,
waarom, waar de data vandaan komen, wat voor soort data het visualiseert.
Is de inhoud grensverleggend nieuw en verdienen eigenlijk de data zelf alle
eer, in plaats van de visualisatie? Soms zie je een visualisatie van iets wat we op
zich wel wisten, maar nog nooit zo in beeld gebracht hebben gezien. Zo’n visu-
alisatie opent je ogen. Of je hebt een visualisatie die je op een andere manier,
met een nieuw perspectief, naar al bekende informatie laat kijken. Neem de
plattegrond van het Londense metrostelsel. Je ziet nu allerlei voorbeelden van
andere gegevens die op zo’n manier worden gevisualiseerd.
‘De opvatting dat het beeld aantrekkelijk moet zijn voor het oog, dat is data-
visualisatie in een notendop. Het idee dat we geen genoegen nemen met tra-
ditionele staaf- en taartdiagrammen omdat ze lezers minder aanspreken,
dat is een manier om er tegenaan te kijken. Ik zie het als een continuüm. Hoe
belangrijker de data zelf zijn, hoe minder belangrijk de visualisatie is. Hoe
obligater of algemeen bekend de gegevens zijn, hoe meer de visualisatie telt.
Zoals je door een nieuwe bril naar iets bekends kijkt en daardoor een ander
perspectief krijgt. Sommige visualisaties zijn daar erg in geslaagd en die wor-
den vaak ook bejubeld.’
‘Op grote redacties zoals bij The New York Times bestaat veel minder het klas-
sieke beeld van een verslaggever die alleen verhalen schrijft. Het idee dat data-
visualisaties het domein zouden zijn van vormgevers of de graphics-afdeling
op een redactie, is problematisch. Bij de papieren uitgave valt dat wel mee,
omdat de lay-out van de krantenpagina en de vormgeving van de informatie
zo sterk in elkaars verlengde liggen. Maar voor websites en interactieve grap-
hics ligt dat anders. Daarbij ben je op zo’n intieme manier bezig met de ver-
werking van de data, dat je daarvoor die data moet kunnen doorgronden. Ik
denk dat je zeker bij online media vaker de functietitel ‘datajournalist’ zult
tegenkomen. Iemand die computertechnieken gebruikt voor het maken van
analyses en onderzoeksprojecten, iets wat voorheen computer assisted repor-
ter heette. Nu zal dat iemand zijn, een database wrangler, iemand die bekend
is met het in beeld brengen van gegevens, en die bijvoorbeeld ook sjablonen
bedenkt die worden gebruikt voor het visualiseren van data.’
‘Er zijn een heleboel organisaties en bedrijven die niet goed beseffen wat ze
allemaal met hun datasets kunnen doen. Dat is omdat ze die data voor eigen
gebruik hebben, zonder dat ze hebben bedacht dat je daar ook heel andere
informatie uit kunt halen. Dat is onwetendheid, maar ze zien er ook niet een
prioriteit in. Als je met dat soort bedrijven gaat praten, kun je dat als argu-
ment gebruiken. Partijen zeggen later altijd: wat je hebt gemaakt, ziet er ont-
zettend leuk uit en dat is gedaan met ónze data. Denk aan de animatie van de
politievoertuigen in Nederland van Boven: de meldkamer weet precies waar
die voertuigen zich bevinden, de dataset is gebouwd op wat ze willen weten.
Dat je daar vervolgens ook andere analyses op kunt toepassen, daar wordt het
niet voor gebruikt. Je moet ook weten hoe je de data bewerkt om die andere
analyses erop toe te passen. Die nieuwsgierigheid naar de eigen data is voor
veel partijen reden geweest om deel te nemen aan een project.’
‘Open data zijn aan een onstuitbare opmars begonnen. Een erg interessante
ontwikkeling, maar vaak beschouw ik het resultaat van deze goed bedoelde
initiatieven als “data diarree”. Meta-gegevens zijn onvolledig: de aggregatie-
methode is onbekend of de toelichting van bronhouders ontbreekt. Als data-
journalist hecht ik meer waarde aan het boven water halen van informatie
dan het rondpluizen in beschikbare open datasets. Hoewel in die laatste best
juweeltjes te vinden zijn, bieden partijen vaak alleen data aan die ze durven te
delen. Terwijl achter gesloten deuren vaak de meest interessante onderwerpen
te vinden zijn. En twee afzonderlijke datasets kunnen op het eerste gezicht
heel onschuldig zijn, op het moment dat je ze met elkaar combineert, ontstaat
er explosief materiaal.
‘Een goeie visualisatie ziet er simpel uit. Als er iemand bij je scherm komt
staan die denkt jou te complimenteren met ‘Zo, dat ziet er ingewikkeld uit’,
dan weet je dat je gefaald hebt. Ik probeer bij alles wat ik maak het juist een-
voudig te laten lijken. Sommige opdrachtgevers zijn dan best teleurgesteld.
Die denken: ben je daar nou zo lang mee bezig geweest?’
Track record: Onderzocht voor The New York Times de Wikileaks cables.
Droeg bij aan de Pulitzer-prijs winnende serie over foute Chinese chemicaliën
in westerse medicijnen. Schreef onderzoeksverhalen over bedrog bij de New
Yorkse marathon.
Andrew Lehren is verslaggever bij The New York Times. Daarnaast is hij als
docent onderzoeksjournalistiek verbonden aan de Graduate School of Jour-
nalism van de City University in New York (CUNY). Naast de Pulitzer-prijs
voor zijn serie over Chinese chemicaliën won Lehren nog diverse prijzen,
waaronder drie Investigative Reporters & Editors Awards en een Daniel
Pearl-prijs voor onderzoeksjournalistiek. Hij werkte eerder voor NBC News,
waar hij onder meer documentaires maakte over discriminatie door de poli-
tie.
Datajournalistiek
Social media zijn voor Lehren vaak een nuttige bron. In 2008 schreef hij een
verhaal over sneuvelende soldaten in Irak, waarvoor de Myspace-pagina’s van
soldaten erg bruikbaar bleken. ‘Ik vond geweldige verslagen van hun levens
in de oorlog, soms nog geschreven vlak voor hun dood. In feite waren we via
de verslagen in staat mensen te interviewen die niet meer geïnterviewd kon-
den worden.’ Bij de verhalen die Lehren maakte naar aanleiding van de Wiki-
leaks cables, maakte hij gebruik van netwerksite LinkedIn. Via die site vond
hij voormalige huurlingen die in Irak gewerkt hadden, waarover hij vervol-
gens een database maakte, die heel nuttig bleek bij het interpreteren van de
Wikileaks war logs uit Irak. Die waren op zichzelf namelijk erg ingewikkeld.
Uit het onderzoek van Lehren en zijn collega bleek dat er in Irak veel meer
aanvallen door huurlingen waren gedaan dan voorheen bekend was – niet
alleen schoten ze veelvuldig op Iraakse veiligheidstroepen, maar ook op Ame-
rikaanse troepen en ongewapende Iraakse burgers.
Lehren pleit voor voorzichtigheid bij het trekken van conclusies uit data: ‘Je
wilt altijd voorzichtig zijn bij het presenteren van absolute waarheden. Je bent
een journalist die licht op een onderwerp schijnt: kijk, dit zijn de tientallen
valsspelers bij de marathon die ik vond, dit zijn de bedrijven die volgens mijn
gegevens ongereguleerde chemicaliën verkopen. Je beschrijft een wereld,
maar die wereld is misschien niet de volledige wereld. Je moet altijd zorgen
dat de lezer dat weet.’
Datajournalistiek kost tijd en geld, weet Lehren. Maar laat niemand zich daar-
door weerhouden: er zijn ook een heleboel verhalen waar je niet veel tijd voor
nodig hebt en die zich goed lenen voor verloren momenten tussendoor. ‘Als je
een paar vrije halfuurtjes hebt, bekijk je eens wat overheidsgegevens, je vraagt
een database van subsidiegegevens aan. Natuurlijk, er ligt veel druk op ons,
journalisten. We moeten stukken maken to feed the beast, we moeten publi-
ceren. Maar je hebt genoeg momenten waarop je toch al nadenkt over nieuwe
verhalen, die kun je goed gebruiken om iets uit te zoeken.’
Journalistieke houding
Lehren begon als journalist bij kleine regionale kranten. ‘Ik zie mezelf nog
steeds als een verslaggever die vecht om de verhalen te vinden die niet ver-
teld worden. Vasthoudendheid en graven leer je bij een kleine krant.’ Wat niet
betekent dat hij bij The New York Times niet meer hoeft te graven, benadrukt
hij. ‘Mensen hebben soms het idee dat we bij de Times alle goede verhalen toe-
gespeeld krijgen. Dat is niet waar.’
Over de Wikileaks cables: ‘Toen we het materiaal bekeken, werd ons duidelijk
dat het van belang was voor het Amerikaanse volk. Onze taak was uit te vin-
den wat mensen echt moesten weten.’
Naar eigen zeggen loopt hij doorlopend op tegen wettelijke en ethische vraag-
stukken. Heiligt het doel de middelen? ‘Ik stel mezelf steeds weer bepaalde
vragen. Wat is het publieke belang van dit verhaal, en: biedt deze manier van
werken me de mogelijkheid aandacht te besteden aan iets wat anders nooit
door het publiek begrepen zou kunnen worden?’