Handboekdatajournalistiek Nieuw-2

Handboek datajournalistiek
Handboekdatajournalistiek.indd 1 11-7-2012 9:54:48

Handboek datajournalistiek
Henk van Ess

Hille van der Kaa
Boom Lemma uitgevers

Den Haag
2012

Omslagontwerp: Cunera Joosten, Amsterdam
Opmaak binnenwerk: Textcetera, Den Haag
© 2012 Henk van Ess & Hille van der Kaa | Boom Lemma uitgevers
Behoudens de in of krachtens de Auteurswet gestelde uitzonderingen mag niets uit deze uitgave wor-
den verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige
vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen of enige andere
manier, zonder voorafgaande schriftelijke toestemming van de uitgever.
Voor zover het maken van reprografische verveelvoudigingen uit deze uitgave is toegestaan op grond van
artikel 16h Auteurswet dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de
Stichting Reprorecht (Postbus 3051, 2130 KB Hoofddorp, www.reprorecht.nl). Voor het overnemen van
(een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (art. 16 Auteurs-
wet) kan men zich wenden tot de Stichting PRO (Stichting Publicatie- en Reproductierechten Organisa-
tie, Postbus 3060, 2130 KB Hoofddorp, www.cedar.nl/pro).
No part of this book may be reproduced in any form, by print, photoprint, microfilm or any other means
without written permission from the publisher.
ISBN 978-90-5931-885-4
NUR 813
www.boomlemma.nl

V oorwoord:
De kracht van datajournalistiek
Toen ik bij de krant begon, was onderzoeksjournalistiek zelf onder-

werp van discussie. ‘Elke vorm van verslaggeving is een vorm van
onderzoeksjournalistiek’, was het credo.
Bob Greene van Newsday weerlegde dit. Onderzoeksjournalistiek omvat vol-
gens hem ‘the reporting, through one’s own work product and initiative, mat-
ters of importance which some persons or organizations wish to keep secret’.
Ik geef de voorkeur aan een wat bredere definitie, eentje waar datajournalis-
tiek ook onder valt. Geheimhouding vormt naar mijn mening een kleiner pro-
bleem dan de ambiguïteit en complexiteit van het verzamelen van relevante
informatie. Datajournalistiek probeert hier een oplossing voor te vinden.
Het doorlopende onderzoek van The Guardian naar de oorzaak van de rellen
in Engeland is hier een goed voorbeeld van. Niemand begreep de oorzaken.
Niet omdat mensen de oorzaken geheim probeerden te houden, maar omdat
het vraagstuk gewoon te complex was. En daarom gebruikten de journalisten
krachtige datajournalistieke onderzoeksmethodes.
Onderzoeksjournalistiek is naar mijn idee een vorm van journalistiek die ver-
der gaat dan jagen en verzamelen. Nu informatie in groten getale aanwezig is,
wordt het verweken en extraheren belangrijker.
Toen ik veertig jaar geleden het boek Precision Journalism schreef, schaarden
veel lezers dit onderwerp onder de term ‘computer-assisted reporting’. Com-
puters waren in die tijd nog mysterieuze en dure machines, waar maar weinig
mensen – zeker in de journalistiek – toegang tot hadden.
Maar de computers vormden niet de focus van mijn activiteiten. Ik vatte
het belangrijkste punt samen in de subtitel van het boek: A Reporter’s
Introduction to Social Science Methods. Precision journalism, een term die
is gelanceerd door journalistiek docent Everette E. Dennis, was bedoeld als
beschrijving van de wetenschappelijke methodes die we gebruikten.
Datajournalistiek past goed bij dit concept. Grote hoeveelheden data kunnen
ingewikkeld zijn. Het blijft belangrijk om een vraag te kunnen stellen zon-
der voor de gek te worden gehouden door het antwoord. Wetenschappelijke
methodes minimaliseren de menselijke neiging tot zelfbedrog.

6 Handboek datajournalistiek
Een voorbeeld uit mijn verslaggeversdagen in Washington: Jimmy Car-

ter was presidentskandidaat en religie vormde een belangrijk aspect van zijn
persoonlijkheid. Verslaggevers namen aan dat dit hem hielp bij het winnen
van religieuze kiezers, totdat een poll liet zien dat zowel kerkgangers als niet-
kerkgangers hem even veel ondersteunden. Deze gedachte werd hierdoor
gemeengoed.
Ik voerde op dat moment polls uit voor Knight Newspapers en ik kon dieper
in de data duiken. Carter was destijds een fris gezicht in de nationale poli-
tiek en had grote aantrekkingskracht op jonge – vaak minder religieuze –
Amerikanen. Zou dat ook niet van invloed kunnen zijn?
Wetenschappelijke methodes zijn uitermate geschikt om dit soort speculaties
te toetsen. Ik gebruikte de meest eenvoudige: zoeken naar het effect van reli-
gie bij verschillende groepen met dezelfde leeftijd. Hierdoor werd het effect
van leeftijd constant gehouden.
Het werkte. Bij iedere leeftijdsgroep waren de kerkgangers grotere aanhangers
van Jimmy Carter.
Religie hielp hem dus wel. Oorzaak-gevolgrelaties zijn vaak van groot belang
bij politieke beslissingen, en datajournalistiek kan deze testen. Correla-
tie alleen is niet genoeg; ook de invloed van variabelen die effecten kunnen
onderdrukken, moet worden onderzocht. Wetenschappers en journalisten
hebben beiden een instinct voor relevante informatie en statistische analyse
kan ons in de juiste richting wijzen.
In mijn recente memoires Paper Route: Finding My Way to Precision Journa-

lism beschrijf ik hoe de kracht van computers en statistische methodes me een
voorsprong boden bij de verslaggeving van de Amerikaanse protestbeweging
in de jaren zestig en zeventig van de vorige eeuw. Vandaag de dag kunnen
journalisten met de nieuwste technieken dezelfde doelen bereiken met een
grotere efficiëntie en betekenis.
Philip Meyer*
Chapel Hill, North Carolina, VS
* Philip Meyer schreef deze inleiding speciaal voor dit handboek datajournalistiek. Philip
Meyer is emeritus hoogleraar en voormalig houder van de Knight-leerstoel Journalistiek
aan de Universiteit van North Carolina in Chapel Hill. Hij doet onderzoek op het gebied van
journalistieke kwaliteit, precisiejournalistiek, civic journalism, polling, de krantenindustrie
en communicatietechnologie. Meyer was een Nieman Fellow in 1966-1967. Voordat hij in
1981 professor werd, werkte Meyer ruim 25 jaar in de krantenindustrie. Door een onderzoek
dat hij in 1967 deed naar de oorzaken van de rellen in Detroit, geldt hij als de grondlegger
van computerondersteunde journalistieke werken.

I nhoud
Over dit boek 9
1 Inleiding in de datajournalistiek 11
1.1 Grote hoeveelheden documenten 11
1.2 Grote hoeveelheden cijfers 15
1.3 Toegankelijk maken van data 17
1.4 Relevantie 18
1.5 Het verhaal 18
1.6 Andere definities 20
1.7 Competenties 22
1.8 Organisatievorm 22
1.9 Kansen 24
2 Vinden van data 27

2.1 Vragen naar data 27
2.2 Sociale media 44
2.3 Vragen om ongepubliceerde overheidsdata 59
2.4 Open data 67
2.5 Scrapen van data 94
2.6 Vrij zoeken 96
3 Verwerken van data 103

3.1 Voorbereidingen schoonmaak: data importeren 103
3.2 Vier populaire schoonmaakmiddelen 107
3.3 Een eerste analyse 112
3.4 De bezem erdoor met Google Refine 118
4 Presenteren van data 125

4.1 Wat is het verhaal? 125
4.2 Wie of wat vertelt het verhaal; de journalist of
de data? 126

4.3 De narrativiteit van data 130

4.4 Hoe vertel ik mijn verhaal? 135
4.5 Hoe presenteer ik mijn verhaal? De kracht van
datavisualisatie139
4.6 Tabellen, grafieken en diagrammen 140
4.7 Kaarten 147
4.8 Woordenwolken 149
4.9 Tijdlijnen 151
5 Rokende pistolen 155

5.1 Data analyseren: twee strategieën 155
5.2 Case: de marathon in New York 157
5.3 Cijfers interpreteren 164
5.4 De tips van de pro’s 172
6 Discutabele data 183

6.1 Onnozele verbanden 185
6.2 Uitspraken zonder waarde 188
6.3 Onzinnige conclusies 191
6.4 Foute data 193
6.5 Checklist voor betrouwbare data 196
6.6 Onzichtbare problemen 204
7 Dagelijkse data 207

7.1 Marije Rooze, @marijerr 207
7.2 Laura Norton Amico, @LauraNorton 208
7.3 Chrys Wu, @MacDiva 210
7.4 Sarah Cohen en Anthony DeBarros, @
sarahduke en Anthony DeBarros @AnthonyDB 211
7.5 Paul Bradshaw, @paulbradshaw 212
7.6 Geoff McGhee, @mcgeoff 214
7.7 Frédérik Ruys, @fruys 215
7.8 Andrew Lehren 216
Over de auteurs 219

Over dit boek
We hopen dat je door dit boek geen greintje ontzag meer hebt voor getallen
of documenten. Die zijn soms gebaseerd op subjectieve meningen, leugens,
slechte samenvattingen of halve waarheden. In dit boek leer je hoe je orde in
de chaos schept.
Er zijn veel geweldige verhalen die je kunt vertellen zonder data. Daar gaat dit
boek niet over. Het is gemaakt door mensen die verhalen willen vertellen met
behulp van cijfers en documenten. Voorkennis is niet vereist, maar we reke-
nen wel op je bereidheid om met ons een reis te maken. Voor dit boek spraken
we met datajournalisten uit heel de wereld.
Pulitzer-prijswinnaars Andrew Lehren (New York Times) en Sarah Cohen

(ex-Washington Post) hebben voor dit boek hun beste tips aangeleverd voor
het filteren van data uit verhalen. ‘Wij zijn vóór alles verhalenvertellers’, zegt
Lehren. Hij zweert bij cijfers juist óm een verhaal te kunnen vertellen. ’Of het
nu gaat om het vinden van mooie anekdotes of om het tonen van the bigger
picture: als we geen data gebruiken, kunnen we geen patronen laten zien en
geen overzicht tonen.’ Lehren heeft recht van spreken. Hij won een Pulitzer-
prijs met een verhaal over de manier waarop dubieuze Chinese chemicaliën in
Amerikaanse medicijnen terecht waren gekomen.
De Moeder van Alle Datajournalistiek is een database. Na hoofdstuk 1:

Inleiding in de datajournalistiek gaan we in dit boek direct aan de slag met
hoofdstuk 2: Vinden van data. Dit langste hoofdstuk vormt een antwoord op
de vraag: zijn er wel genoeg Nederlandse bronnen om datajournalistiek mee te
bedrijven? Ons volmondig antwoord is: ja.
In hoofdstuk 3: Verwerken van data ben je meestal alleen met bezig met het
spreadsheatprogramma Excel. Misschien zit je daar niet op te wachten. Maar
wij vinden dat je de basisvaardigheden voor sorteren, importeren en het ver-
gelijken van gegevens echt moet kennen. We beloven je dat we het zo concreet
en pijnloos mogelijk maken. Na dagen turen in een database ben je soms zo

blij dat je iets hebt gevonden, dat opeens de wetten verdwijnen voor ‘hoe vertel
ik een goed verhaal’. De beste uitleg is precies, duidelijk en snel te begrijpen.
Maar hoe doe je dat? Dat lees je in hoofdstuk 4: Presenteren van data.
In hoofdstuk 5: Rokende pistolen krijg je een handleiding voor wat je moet

doen als je een database voor je neus hebt. The New York Times heeft op ver-
zoek van de auteurs databases beschikbaar gesteld waarmee je kan oefenen.
We hebben ons laten vertellen dat het misschien wel de eerste keer is dat stu-
denten met hun intern materiaal mogen werken. In hoofdstuk 6: Discutabele
data leer je begrijpen dat cijfers door mensen worden gemaakt en wat daar de
consequenties van zijn. In hoofdstuk 7: Dagelijkse data maak je kennis met
acht mensen die datajournalistiek prachtig vinden.
Dit boek is financieel mogelijk gemaakt door het Stimuleringsfonds voor

de Pers en kwam tot stand in nauwe samenwerking met de Vereniging van
Onderzoeksjournalisten voor Nederland en Vlaanderen (VVOJ). De por-
tretten van datacrunchers uit Nederland en de VS zijn gemaakt door Arno
Kersten en Rachel Levy (webredactie Vereniging van Onderzoeksjournalis-
ten), Dorien Vrieling (Stimuleringsfonds voor de Pers) en Alexander Howard
(van de Amerikaanse uitgeverij O’Reilly). Dick van Eijk, J. Bethlehem en
Hans de Ruiter (CBS) verleenden eveneens hun volledige medewerking aan
dit boek.
Op de bijbehorende website medialab.forreporters.com tref je de datasets aan

waarmee we gaan werken.
‘Er zit geen principieel verschil in het bevragen van een woordvoerder en het
bevragen van een database.’ De Nederlandse pionier op het gebied van data-
journalistiek Dick van Eijk schreef dat al in 1994. Met dat besef kunnen cijfers
opeens spannend worden. Het maken van cijfers is immers mensenwerk.
Henk van Ess, www.searchbistro.com, @henkvaness, henk@vaness.nl

nl.linkedin.com/in/searchbistro
Hille van der Kaa, www.deuitgeeffabriek.nl, @hillevanderkaa, info@
deuitgeeffabriek.nl

Inleiding in de
datajournalistiek
1
‘What I did was fairly straightforward.’
Het onderzoek van Philip Meyer naar de rellen in Detroit in 1967 is voor
velen de bakermat van datajournalistiek of, zoals hij het zelf in zijn boeken
beschrijft, computer-assisted reporting.
Meyer deed als een van de eerste journalisten met een computer onderzoek
naar de achterliggende oorzaak van een gebeurtenis. De wereld van de data-
journalistiek is sinds 1967 flink veranderd. De rekenkracht, datasets en het
aantal tools om data mee te bewerken groeiden. Maar de achterliggende
gedachte? Die bleef hetzelfde:
Datajournalistiek is journalistiek waarbij grote hoeveelheden documenten

of cijfers eerst toegankelijk moeten worden gemaakt voordat een relevant
verhaal mogelijk is.
Onze definitie lichten we stap voor stap toe in deze inleiding in de datajourna-
listiek.
Hoe ga je om met grote hoeveelheden informatie (par. 1.1)? Wat is het journa-
listieke nut van ‘een bak met cijfers’ (par. 1.2)? Welke kennis is nodig voor het
toegankelijk maken van data (par. 1.3)? Waarom is datajournalistiek af en toe
alleen relevant voor een klein publiek (par. 1.4)? En wat is eigenlijk een data-
journalistiekproductie (par. 1.5)?
1.1 Grote hoeveelheden documenten
Sinds het bestaan van de mensheid worden data geproduceerd. De grot

tekening en kleitablet hebben met een boek of iPad gemeen dat ze informatie
bevatten die door mensen begrepen kan worden.
Journalisten vertalen al honderden jaren informatie naar verhalen voor hun
doelgroep. Waarom is datajournalistiek nodig?

Nieuw is dat de hoeveelheid data in korte tijd explosief is gestegen door de

komst van computers en internet. Het is een kunst om uit de zee van informa-
tie relevante en betrouwbare gegevens te vinden.
Nieuw is ook dat steeds meer data plompverloren worden gepubliceerd,
zonder toelichting of context. Wikileaks is een voorbeeld van ‘USB-stick
journalistiek’. Tienduizenden berichten van ambassadeurs uit heel de wereld
werden zonder uitleg of context op het web gezet. Maar een handjevol journa-
listen kon de tijd nemen om al het materiaal te lezen en te duiden.
Figuur 1.1 Grenzen aan begrijpelijkheid: wat is het verhaal achter honderd-
duizenden documenten?
Bij Wikileaks en ander databases vallen journalisten steeds vaker terug op

technische hulpmiddelen om de ‘enorme databak’ te doorgronden – een
derde nieuwigheid. Zo maakte de Vereniging van Onderzoeksjournalisten
een zoekmachine voor Wikileaks, bedoeld voor journalisten om gemakkelij-
ker te kunnen zoeken.
Data worden meestal pas relevant als het een nieuwswaarde heeft voor de ont-
vanger.

Inleiding in de datajournalistiek
13
Figuur 1.2 De Wikileaks-zoekmachine van de VVOJ, http://forreporters.

com/wikileaks
De Volkskrant ontving duizenden pdf-bestanden met daarin belangwek-

kende informatie over verpleeg- en verzorgingstehuizen.
Figuur 1.3 Duizenden pdf-bestanden komen binnen bij de Volkskrant in een

onderzoek naar de staat van verpleeghuizen. Journalisten ver-
drinken in zee van informatie

Een zinnige, journalistieke conclusie kon pas worden getrokken nadat al deze
gegevens werden overgezet naar een programma waarmee zoeken en sorteren
mogelijk is, in dit geval Excel. Programmeurs, in samenwerking met journa-
listen, klaarden de klus:
Figuur 1.4 De vragenlijsten van verpleeghuizen nu niet meer in pdf, maar

netjes in een enorme Excel-database
Figuur 1.5 Het uiteindelijke resultaat is te vinden op http://forreporters.com/

volkskrant

15
Dankzij de conversie door programmeurs konden journalisten opeens sorte-

ren op verkeerd medicijngebruik, doorligwonden en andere ernstige zaken.
Daardoor ontstonden allerlei nieuwe ideeën. De Volkskrant kon drie jaar lang
belangwekkende verhalen publiceren en trok honderdduizenden bezoekers
met een Verpleeghuiswijzer.
1.2 Grote hoeveelheden cijfers
De oorsprong van datajournalistiek is precisiejournalistiek: met hulp van

computers en ponskaarten probeerden journalisten nieuws te ontdekken
in cijfers. Wat betekent het als de sterftecijfers in een ziekenhuis gelijke tred
houden met de stijging van foutief toegediende medicijnen? Is de oorzaak van
de stijging van het aantal doden misschien dat verplegers pillen door elkaar
halen? Datajournalistiek gebaseerd op cijferanalyse stelt journalisten in staat
om met interessante hypotheses voor verhalen te komen.
NRC Handelsblad was niet tevreden met de persberichten van makelaars over
de huizenbewegingen in Nederland. Die waren meestal rooskleurig opge-
steld. De krant huurde een programmeur in om de voortdurend verande-
rende inhoud van huizenzoekmachine Funda.nl bij te houden. Het leidde tot
een serie verhalen en af en toe een nieuwtje, zoals deze:
Media proberen steeds vaker zelf databases te genereren. De Amerikaanse

krant Orange County Register publiceerde een test over gezondheidsrisico’s
van snoep door 450 snoepsoorten chemisch te laten onderzoeken. Veel soor-
ten hadden een te hoog loodgehalte.
Het Britse The Guardian ontving ruim 450.000 bonnetjes en documenten met
daarin de uitgaven van parlementariërs. Het publiek mocht aangeven welke
bonnetjes het meest interessant zijn voor nader onderzoek.

Makelaars manipuleren woningaanbod
ROTTERDAM, 3 JAN. NVM-makelaars en huizenverkopers manipuleren met te koop

staande huizen, door ze een paar dagen van de markt te halen en daarna als nieuw
aan te prijzen. De afgelopen drie maanden is dat over heel Nederland verspreid
meer dan 2.700 keer gebeurd.
Figuur 1.6 Bonnetjes van Britse politici, openbaar gemaakt door journa-
listen van The Guardian, te vinden op http://forreporters.com/
guardian
Figuur 1.7 Een Braziliaanse krant openbaarde de belastinggegevens van

meer dan 6000 Braziliaanse politici

17
1.3 Toegankelijk maken van data
Datajournalistiek vereist meestal hulpmiddelen om de grote hoeveelheden

documenten of cijfers tot behapbare proporties terug te brengen. Voor het
zoeken naar data is diepgaande kennis nodig van zoekmachines, interne pro-
cedures van dataleveranciers en enige kennis van de Wet op de openbaarheid
van bestuur.
Voor het ontdekken van nieuws in data is het nodig om de gegevens te kunnen
sorteren en te vergelijken – doorgaans via Excel. De meeste datajournalisten
willen voor zichzelf de cijfers visualiseren.
NRC Handelsblad onderzocht presentielijsten van Europarlementariërs,

gemakkelijk te downloaden via internet. Doel was te onderzoeken welke poli-
tici regelmatig afwezig waren bij stemmingen. De namen werden in Excel
gezet, maar bij nadere bestudering bleek dat twee personen met op elkaar
lijkende achternamen één en dezelfde persoon waren. De namen moesten
handmatig worden gecontroleerd. Excel hielp bij het vinden van de verkeerde
namen, niet bij het oplossen ervan.
Figuur 1.8 Verkeerde namen
Volgende lijst vormde de basis voor een interessante constatering: Nederland

heeft in het Europees parlement meer macht dan op papier blijkt. Dat komt
omdat de Nederlandse politici veel vaker aanwezig zijn bij stemmingen dan
bijvoorbeeld Italiaanse collega’s. Eigenlijk heeft Nederland op deze manier
een paar zetels meer in werkelijke stemverhoudingen.

1.4 Relevantie
De uitkomsten van datajournalistiek zijn niet per definitie geschikt voor een
breed publiek. Voor een fanatieke voetballiefhebber is een uitputtende ana-
lyse van spelersdata interessant, voor het grote publiek niet. Bepalend is de
doelgroep. Een landelijke krant vindt verhalen interessant die de meeste men-
sen aanspreken (Hoe stemt Nederland?), een special interest-tijdschrift wil
dat juist niet (Hoe stemmen autorijders?). De relevantie hangt ook af van het
belang en de impact van het verhaal.
Veel datajournalisten stellen zich daarom de ‘Nou en?’-vraag: is wat ik heb

ontdekt relevant voor mijn doelgroep; welk effect heeft het? Een Ameri-
kaanse krant bestudeerde allerlei cijfers over strafbladen van chauffeurs in
de transportsector, busvervoer en schoolbussen. Uiteindelijk werd voor het
verhaal ‘Wie bestuurt de schoolbus?’ gekozen omdat daar de meeste chauf-
feurs met een overmatig alcoholverleden waren te vinden. Het Center for
Public Integrity doorzocht rechterlijke uitspraken van de afgelopen dertig
jaar op zoek naar namen van officieren van justitie die ooit eens in de fout zijn
gegaan. Conclusie: honderden hadden een crimineel verleden.
Voorbeelden van relevante datajournalistiek staan op http://forreporters.

com/ire.
1.5 Het verhaal
Datajournalistiek is meestal een ‘halffabricaat’: de vermoedens die zijn ont-

staan door data-analyse, moeten altijd worden getoetst bij deskundigen,
betrokkenen, door eigen waarneming, door andere documenten of door
sfeertekeningen. Datajournalisten schrijven niet altijd zelf het verhaal.
Datajournalist Christina Elmer van het Duitse weekblad Stern: ‘Ik moet er
zelfs niet aan denken om het verhaal zelf te schrijven. Ik vind het veel te moei-
lijk om afstand te nemen van de cijfers.’ Andrew Lehren van The New York
Times werkt meestal in duo’s.
Datajournalistiek heeft het gevaar dat het zich te veel richt op het tonen van
het probleem in plaats van het uitleggen van het probleem. Een verhalende
dataproductie heeft verschillende lagen en stelt de ontvanger in staat om
details te vinden die alleen voor hem belangrijk zijn, maar ook het algemene
beeld geven.

19
Datajournalistiek in de praktijk
Zet journalisten en programmeurs dertig uur bij elkaar, geef ze pizza en koffie, en er
móét haast wel iets moois uitkomen.
Jerry Vermanen, werkzaam als dataredacteur bij Nu.nl, is een van de initiatief-
nemers van Regiohack, een samenwerking tussen de Stentor, Twentse Courant/
Tubantia en Hogeschool Saxion. Hij vertelt hoe het idee ontstond om dertig pro-
grammeurs en journalisten bij elkaar te zetten voor een marathonsessie van dertig
uur, waarbij ze opgedeeld in groepjes allemaal een journalistiek interessante vraag
zouden proberen te beantwoorden met behulp van computertechnieken. Beide
beroepsgroepen werken nog te veel langs elkaar heen. ‘Programmeurs vinden het
fantastisch om iets nieuws te maken, maar ze missen dan het verhaal. Journalisten
missen de technische kennis.’
Wie zijn de machtigste personen in Twente? Regiohack is bezig met het opzet-
ten van een database van belangrijke regionale mensen. De invloed wordt onder
andere afgemeten aan bestuursfuncties bij bedrijven, organisaties en overheden,
en aangezien er geen kant-en-klaar overzicht van die bestuurders bestaat, wordt
die dataset van de grond af opgebouwd. ‘Het mooie is dat je er vervolgens steeds
weer nieuwe vragen aan kunt stellen en verhalen uit kunt halen. Stel dat ergens een
bestuurder vertrekt, dan kun je in die database terugvinden met welke personen
hij veel te maken heeft gehad en kun je die om duiding vragen’, aldus Vermanen.
Wat voegen datajournalistiek en visualisaties nou toe aan de bestaande bericht-
geving? Regionale kranten kunnen zich ermee onderscheiden, zegt Vermanen. ‘Je
haalt nieuws uit de regio dat je anders zou missen, je hebt nieuws dat anderen niet
hebben. Daarmee kun je je onderscheiden en dat is, denk ik, belangrijk voor een
krant, zeker als het financieel niet altijd even goed gaat.’
In aanvulling op de bovenstaande definitie is ook het effect van het werk

belangrijk. Datajournalistiek stelt journalisten in staat om niet eerder vertelde
verhalen te vinden, nieuwe invalshoeken te ontdekken of bestaande verhalen
te complementeren met nieuwe feiten via het proces van vinden, verwerken en
presenteren van een significante hoeveelheid data.

Figuur 1.9 Gedigitaliseerde aktes afkomstig uit het openbaar toegankelijke

kadaster werden door journalisten Marcel van Sillfhout en Henk
van Ess met elkaar vergeleken op de pc
1.6 Andere definities
Volgens multimediajournalist Mirko Lorenz is door data gedreven journa-

listiek een workflow die bestaat uit de volgende elementen: naar gegevens
graven door zelf een database samen te stellen via scraping, het schoonma-
ken van gegevens en structureren ervan, het met behulp van filters specifieke
informatie vinden, gegevens visualiseren en een verhaal vertellen. Belang-
rijk in deze opsomming is dat de visualisatie van gegevens al plaatsvindt
voordat je als journalist publiceert. Je moet eerst zelf zien wat de samenhang
tussen allerlei gegevens is met behulp van grafieken, draaitabellen, geplotte
lijnen, kaarten, tijdslijnen en andere zaken die complexe cijfers visualiseren.
De meeste datajournalisten die we spraken, doen dat altijd. Ze maken het
kaartje of de grafiek eerst voor zichzelf, pas daarna voor de lezer.
Data-expert Paul Bradshaw beschrijft het proces vergelijkbaar: data moeten
eerst worden gevonden, wat speciale kennis kan vereisen van tools als MySql
of Python, moeten daarna worden bevraagd, waarvoor kennis van statistiek
nodig is, en tot slot worden gevisualiseerd met behulp van open source tools.

21
Figuur 1.10 Aan collega-datajournalisten vroegen we welke definitie ze de beste

vinden. Na 24 uur stemmen – hoe betrouwbaar zo’n poll is, lees je
in hoofdstuk 6 over discutabele data – is er voor alle drie definities
wat te zeggen. Ze liggen dan ook nauw in elkaars verlengde
Tim Berners-Lee, de uitvinder van het wereldwijde web, denkt dat het overleven
van journalistiek afhangt van mensen die data kunnen analyseren. Uit de ana-
lyse van 86 internationale banen voor datajournalisten blijkt dat de verwachtin-
gen over datajournalistiek bij hoofdredacties buitengewoon o ptimistisch zijn.
Redacties zoeken nerds met vijf poten, die bovendien s ociaal zijn, gevoel voor
nieuws hebben, goed zijn in visualiseren en ook nog eens teamspelers zijn.
Figuur 1.11 Voor dit boek maakten we een historische tijdlijn van alle Engels-
talige boeken over datajournalistiek. Het Britse dagblad The
Guardian publiceerde daar over. Het complete overzicht staat op
www.forreporters.com/guardian2

1.7 Competenties
Maar wat die nerds met vijf poten dan precies moeten kunnen? De Univer-
siteit van Tilburg, sinds 2012 actief met een master datajournalistiek, ziet zes
competenties voor een datajournalist:
• het vermogen om data te verzamelen en selecteren;
• de kundigheid om data op te schonen en te analyseren;
• de mogelijkheid om data te doorzoeken en afwijkingen te constateren;
• bekendheid met verschillende datastandaarden;
• vermogen tot het maken van datajournalistieke producties;
• de kundigheid om journalistieke verhalen te extraheren en te verspreiden.
1.8 Organisatievorm
Er zijn weinig mensen die alle disciplines beheersen. Samenwerking bij data-
journalistieke projecten is daarom onontbeerlijk. Bij The Guardian (een
van de grootste kranten in Groot-Brittannië) werken drie mensen in een
team. Volgens datajournalist Simon Rogers werkt het team veel samen met
andere departementen (ICT, gespecialiseerde journalisten, grafici) voor
het verzamelen en analyseren van data. Datajournalistieke teams bevat-
ten idealiter mensen met verschillende specialiteiten: online ontwikkelaars,
data-analisten, grafici en statistici. Vaak is de aanvoerder van een team een
journalist met data-analytische vaardigheden. De meeste mediabedrijven in
Nederland hebben niet zo’n team.
Als niet alle kennis in huis is, huren mediabedrijven experts in. The Mecha-
nical Turk en vWorker gelden als een veelgebruikte online marktplaats voor
programmeurs. Hier worden opdrachten aanbesteed en kunnen program-
meurs inschrijven op klussen zoals het opschonen van data of het omzetten
en analyseren van grote databestanden. De naam Mechanical Turk is afkom-
stig van de mechanische Turk-schaakmachine. Deze werd gepresenteerd als
een mechanische machine die kon schaken, terwijl er in werkelijkheid een
goede schaker in de machine verborgen zat.

23
Figuur 1.12 Programmeurs uit de hele wereld mochten meebieden om bestan-

den op te schonen voor een project bij een Nederlandse krant.
Veel journalisten gebruiken diensten als vWorker en Amazon
Mechinal Turk om tegen weinig geld snel een klus te klaren
Daarnaast is het bij datajournalistieke projecten heel gebruikelijk om samen

te werken met vrijwilligers of universiteiten. Zo bouwden studenten informa-
tica van de Radboud Universiteit Nijmegen in 2011 samen met onderzoeks-
journalisten van het VPRO-programma Argos een nieuwe zoekmachine om
drie grote bulken Wikileaks-documenten beter te kunnen bestuderen. Het
Algemeen Nederlands Persbureau (ANP) werkt sinds 2011 nauw samen met
nieuws- en opiniesite Sargasso om datajournalistieke producties te maken
voor ANP-klanten. Sargasso werkt op haar beurt veel samen met opleidingen,
ngo’s, journalisten, bloggers en programmeurs. Hack de Overheid ontwik-
kelde met NRC Handelsblad een zoekmachine met de naam ‘Toeval of niet’
– een nog gebrekkige poging om dwarsverbanden te ontdekken in sociale net-
werken.
Een andere vorm van samenwerking ontstaat bij het organiseren van Hacka-
tons, waarbij journalisten en programmeurs ‘data martelen’ en in een kort
tijdsbestek data omzetten naar verhalen. Vaak worden bij deze dagen studen-
ten en vrijwilligers uitgenodigd.
Hackatons kennen verschillende doelen. Ten eerste geven nieuwsorganisaties
met een datadag een begin aan datajournalistieke projecten. Door verschil-
lende groepen op verschillende manieren aan data te laten werken, kunnen ze

verhalen verder uitdiepen. Daarnaast willen nieuwsorganisaties met dit soort

dagen nieuwe, innovatieve netwerken opbouwen, waarbij nieuwe vaardig
heden in een organisatie kunnen worden getest. Tot slot zoeken nieuws
organisaties tijdens hackdagen vaak naar nieuw talent.
1.9 Kansen
Het Finse onderzoeksbedrijf Next Media onderzocht in 2011 de kansen van

datajournalistieke toepassingen op http://forreporters.com/toekomst.
De onderzoekers zien dat het aantal beschikbare databases groeit, deels als
gevolg van technologische ontwikkelingen, deels door politieke besluiten,
zoals de EU-richtlijn uit 2003 voor hergebruik van informatie uit de publieke
sector. Ook maatschappelijke organisaties en bedrijven zijn een groeiende
bron van data.
De kosten van data-analyse dalen door verbeterde analysetools, zodat data-
journalistiek tot een journalistiek basisgereedschap kan uitgroeien. De jour-
nalistiek gaat samenwerken met andere data-organisaties. Samenwerkingen
maken het mogelijk om innovatienetwerken aan te leggen, die binnen en bui-
ten het bedrijf nieuwe technieken en applicaties kunnen opleveren.
Betaalde media zijn van oudsher gericht op het koppelen van publiek aan
adverteerders. Ze zouden zich volgens de onderzoekers meer moeten ontwik-
kelen tot een datahub, die naast journalistieke inhoud, betaalde datadiensten
levert aan bedrijven en overheden. Belangrijkste verkoopargument daarbij is
de betrouwbaarheid van de beheerde data en geleverde diensten. Onderzoeks-
journalisten maken het regelmatig mee dat de overheid vraagt of zij de door
media opgeschoonde gegevens mogen hebben.
Tot slot helpt datajournalistiek de basistaak van journalistiek beter te vervul-
len: het geeft duiding, verschaft context en levert soms ook hard nieuws op.
Maar het kan nieuws ook juist persoonlijker maken. Als de NOS een lijst van
ruim 200 gevaarlijke chemische bedrijven publiceert in één Excel-bestand, is
dat wellicht handig, maar nog handiger is het als mensen hun eigenverhaal
kunnen samenstellen: welke bedrijven in mijn buurt zijn gevaarlijk en
waarom?
Dit boek helpt je op weg om de belangrijkste principes van datajournalistiek

te doorgronden.

25
Oefening: Wat is goede datajournalistiek?
Ga naar http://forreporters.com/cases. Daar zie je meer dan 150 datajournalis-

tieke projecten.
Kies enkele projecten uit die je aanspreken en probeer te verwoorden waarom.
Kijk daarbij nauwkeurig naar de navigatie, gelaagdheid, interactie en helder-
heid. Welke producties maken complexe problemen inzichtelijk? Welke gaan
nog een stap verder en leggen uit wat de oorzaak is van de problemen?
Welke datajournalistieke projecten vind je minder geslaagd? Waarom?

Wat ontbreekt?
Figuur 1.13 Showcase van datajournalistieke projecten op http://forreporters.

com/cases

Vinden van data 2
Dit hoofdstuk is de zuurstof voor elk datajournalistiek project. Zonder inte-

ressante gegevens kun je immers niets doen in datajournalistiek. In para-
graaf 2.1 zetten we op een rijtje hoe je gegevens kan lospeuteren en wat je moet
doen bij weerstanden. Maak kennis met visualisatie van netwerken in para-
graaf 2.2. Hoe peuter je gegevens bij de overheid los (par. 2.3) en waar vind je
open data (par. 2.4)? In paragraaf 2.5 laten we zien hoe je gegevens uit data-
bases haalt. Een wonderbaarlijke methode om verborgen databases te vinden
leer je in paragraaf 2.6.
2.1 Vragen naar data
Het meeste simpele advies om originele databases te krijgen is: vraag erom.
Bel, mail of bezoek de organisatie die de data heeft en leg uit wat je wilt.
Meestal lukt dat niet meteen (zie par. 2.3.2: Veertig deksels op je neus), maar het
loont de moeite om aan te dringen. De beloning is dat je gegevens krijgt die
niet via internet te vinden zijn. We bespreken hier hoe je aan materiaal komt
dat nog niet is uitgekauwd: waar vraag ik naar (par. 2.1.1), hoe vraag ik ernaar
(par. 2.1.4) en wat doe ik bij weerstand (par. 2.1.5)?
2.1.1 Waar vraag ik naar?
Hoe weet je of de data die je zoekt wel bestaat? Je bent geïnteresseerd in

goederenschepen die van Nederland naar de VS gaan. Hoe kom je te weten dat
bij elk schip dat uitvaart, ergens gegevens worden ingevuld dat het schip en de
lading documenteert? Of dat in een verzorgingstehuis het personeel precies
moet bijhouden op een formulier wanneer er fouten worden gemaakt in de
toediening van medicijnen? Denk in data!

Figuur 2.1 Op importgenius.com is tegen betaling precies te zien welke spul-

len de Nederlandse regering naar de VS verscheept en om welke
reden. Zelfs particuliere verhuizingen van inboedels van Neder-
land naar de VS staan in de database, die op zijn minst 75 euro
per maand kost
2.1.2 Koester formulieren
Hoe weet je of een bepaalde database bestaat? Zie voor één keer de leuke kan-
ten aan bureaucratie. Voordat iets wordt opgeslagen, moet het eerst worden
verzameld. Werknemers, ambtenaren, bestuurders of burgers moeten formu-
lieren invullen waarvan de antwoorden vroeg of laat in een database komen
te staan. De grondstof voor de database, het lege formulier zelf, wordt steeds
vaker online gezet. Daardoor zijn de meest obscure formulieren te vinden op
internet.

Vinden van data
29
Figuur 2.2 Door formulieren goed te bestuderen weet je welke gegevens zoal
worden bijgehouden. Elke vraag leidt tot een antwoord dat in een
database is opgeslagen
Hier zijn er drie:

1. het klachten- en ideeënformulier van een vereniging voor geneeskundige
hulpverlening (GHOR);
2. het formulier van de woongroep Marenland Appingedam voor meldingen
van vervuiling, overlast huisdieren, stank of bedreiging van bewoners;
3. het meldingsformulier van Centraal Meld- en Informatiepunt Identiteits-
fraude en -fouten.
Dit zijn lege formulieren. Als je weet dat er formulieren worden ingevuld,
weet je dat de informatie van die formulieren in een database staat. Zie je in
één van drie bovenstaande formulieren aanleiding tot nieuws – zeker als je
over de inhoud van de database beschikt?
2.1.3 Hoe vind ik formulieren?
Je vindt meer formulieren dan je lief is. Alleen al met onderstaande zoe-
kopdracht vind je ruim 18.000 formulieren. Dit is relatief simpele zoekactie
omdat je niet aangeeft in welke sector je een formulier zoekt:

Figuur 2.3 Formulier vinden? Denk als een document
“formulier voor”
Hiermee voorspel je wat je graag wilt zien in het document: dat in het formu-
lier staat waarvoor het formulier is.
filetype:pdf
Hiermee regel dat je alleen pdf-bestanden wilt zien, het favoriete bestands
formaat voor documentenverzamelaars.
site:nl
Hiermee beperk je de zoekactie tot alleen Nederlandse websites die eindigen
op .nl.
Nog eens ruim 50.000 kansen op het detecteren van een mogelijke database
zie je hieronder:
Figuur 2.4 Op zoek naar een klachtenformulier
Met deze zoekactie beperk je je tot klachtenformulieren. Van belang is dat je

een interessant formulier altijd opent en de opbouw bestudeert.

Vinden van data
31
Figuur 2.5 Slecht behandeld door een ambtenaar in Losser? Vul je klacht in!
De gemeente Losser heeft zelf al een verslag gemaakt van alle klachten.
Download dit verslag van 21 Kb via http://forreporters.com/jaarverslag.
Het is geen lang stuk. Dit is de slotconclusie van het rapport:
‘Verbeter de wereld, begin bij jezelf ’ is een mooi spreekwoord. Dat moet
een aanbeveling zijn voor de organisatie, maar meer nog voor het individu
(bestuurder, medewerker). Niet naar andere organisaties of naar ande-
ren wijzen, maar een kritische blik in de spiegel werpen en de vraag stel-
len waar de dienstverlening tekortschiet en waar verbetering mogelijk is.
De gemeente is er voor de burger en niet andersom.
Zoals je merkt, is het rapport vaag. Het bevat passages als:
De meeste klachten zijn ontvangen over de wijze van persoonlijke bejege-

ning van medewerkers en de uitleg van regels. Dit beeld komt overeen met
het beeld uit de voorgaande jaren. Bij het bovenstaande moet wel worden
aangetekend dat de aard van de klacht nog niet zegt over het uiteindelijke
oordeel over de klacht.
Je hebt geen idee wat die ‘persoonlijke bejegening’ precies betekent. Ook merk
je dat de afhandeling van de klacht niet bepaald objectief te noemen is (2011).
De klacht wordt door de betrokken afdeling zelf behandeld:
In de gemeente Losser wordt het oordeel over de klacht altijd vastgesteld

door het bestuursorgaan waartegen de klacht is ingediend. Overigens is het
niet het uitgangspunt dat de behandeling van een klacht altijd tot een oor-
deel van het bestuursorgaan leidt. Het streven is dat een klacht naar tevre-
denheid van de indiener wordt afgehandeld.

Vaak blijkt al dat een gesprek met de klager al voldoende is om de klacht tot
tevredenheid van de klager af te handelen. Vooral het persoonlijke contact
leidt tot meer wederzijds begrip.
De omkeertruc
Je ziet dat een jaarverslag niet altijd een volledige weergave is van wat men-
sen op de formulieren hebben ingevuld. Daarom adviseren we je bij lezing
van vage jaarverslagen over klachten of andere registraties om op zoek te gaan
naar het onderliggende formulier.
Daardoor weet je veel preciezer wat er door een organisatie is bijgehouden. In
het voorbeeld van de gemeente Losser weet je wat de gemeente aan burgers
heeft gevraagd, maar vind je de indeling nauwelijks terug in het officiële stuk.
Door de database op te vragen krijg je wellicht meer inzicht.
Andere bruikbare termen voor zoekacties zijn:
meldpunt filetype:pdf
Hiermee zoek je naar meldpunten waar het publiek klachten of observaties
kan achterlaten:
registratieformulier filetype:pdf
registratie filetype:pdf
Je zoekt naar een bepaalde registratie. Niet altijd heet het registratieformu-
lier ook echt registratieformulier; vandaar de tip om alleen op registratie te
zoeken.
gebeurtenis tijdstip naam filetype:pdf

Dit is letterlijk bedoeld: verzin niet zelf een gebeurtenis, tijdstip of naam,
maar gebruik de drie woorden gebeurtenis, tijdstip en naam. Je voorspelt
een formulier waarbij de indiener iets moet beschrijven wat hij heeft gezien
en op welk tijdstip. Met naam voorspel je dat er ook naar iemands naam
wordt gevraagd. Je voorspelt hiermee onder meer schadeformulieren van
verzekeringsmaatschappijen.

Vinden van data
33
“opsturen naar” filetype:pdf

De indiener moet een formulier soms opsturen. Als dat zo is, zal in een for-
mulier daartoe worden opgeroepen. Met deze zoekactie voorspel je dat.
“uw gegevens” filetype:pdf

Deze zoekactie gaat ervan uit dat de indiener bepaalde gegevens moet achter-
laten:
“dient ten minste de volgende gegevens te bevatten” filetype:pdf
of nog beter:
“dient * de volgende gegevens te bevatten” filetype:pdf
Met het sterretje voorspel je een willekeurig woord en neem je ook zins
constructies mee als “dient minimaal de volgende gegevens te bevatten” of
“dient altijd de volgende gegevens te bevatten”.
naam adres woonplaats toelichting filetype:pdf

Deze zoekactie gaat ervan uit dat de indiener zijn adresgegevens moet achter-
laten en dat hij ergens in een formulier iets moet toelichten.
Met bovenstaande tips vind je al heel veel formulieren. Maar kun je nog vijf
zoekacties bedenken die hier niet staan genoemd waarmee je een leeg formu-
lier kan vinden?
Case: hondenbelasting
Hieronder zie je een afmeldingsformulier voor mensen die geen belasting

meer willen betalen voor hun hond. Dit is een lokaal formulier en op het eer-
ste oog niet bepaald spannend. Toch gaan we kijken of we juist met dit formu-
lier meer kunnen doen.

1. Persoonlijke gegevens Burgerservicenummer:
(Het burgerservicenummer (BSN) Naam:

staat ondermeer op uw paspoort,
identiteitskaart of rijbewijs). Adres:
Woonplaats
2. Aantal af te melden honden
3. Sinds welke datum bent u geen

houder meer van de nu af te melden
hond(en)
4. Aantal honden waarvan u nu nog

houder bent
5. Reden van de afmelding (aankruisen ▫ hond(en) gestorven (zo mogelijk

wat van toepassing is) bewijs van dierenarts meesturen)
▫ hond(en vermist
▫ hond(en) verkocht
▫ anders, namelijk:
...................................
6. Gegevens van de eventuele nieuwe Naam:

houder van de hond(en)
Adres:
Woonplaats
7. Opmerkingen:
Figuur 2.6 Een leeg formulier voor hondenbezitters…
Voorspel de velden
Probeer nu te voorspellen hoe de lege velden op het formulier eruit zien in een
database. Voor het formulier hierboven zijn we zeker van de volgende velden:
Figuur 2.7 … leidt vroeg of laat tot een database. Voorspel de velden door
goed naar het formulier te kijken

Vinden van data
35
Zet de mogelijke velden in Excel en neem ze één voor één door. Je hebt welis-
waar de gegevens niet, maar je weet nu wel wat er wordt bijgehouden. De over-
heid zal A1 (Naam) en B1 (Adres) nooit geven vanwege privacy-afwegingen,
maar werkt mogelijk wel mee aan verstrekking van de woonplaats en post-
code. De dataset die je wilt hebben, ziet er zo uit:
Figuur 2.8 Schat in welke gegevens privacygevoelig zijn om gedoe te

voorkomen
Bel de gemeente op met de vraag of je van de afgelopen jaren deze gegevens

mag hebben.
Je krijgt vrijwel zeker het antwoord dat de database privacygevoelige gege-
vens bevat en daarom niet verstrekt kan worden. Jij voorziet dit al. Zeg bij-
voorbeeld: ‘Ik begrijp dat ik niet kan vragen naar gegevens die herleidbaar zijn
naar personen. Ik vraag daarom geen privacygevoelige gegevens op. Ik ben
alleen geïnteresseerd in postcode, aantal afmeldingen, de ingangsdatum, de
reden van de wijziging en eventuele opmerkingen van de indiener.’
Dit lijkt nogal een gedoe en dat is het ook. Maar probeer je te verplaatsen in
het hoofd van de dienstdoende ambtenaar: die wil niet op zijn geweten heb-
ben dat hij privégegevens van burgers te grabbel gooit. Doordat jij systema-
tisch het formulier hebt bestudeerd en de moeite hebt genomen de velden te
voorspellen, ontdek je bijtijds de valkuilen (= de privacygevoelige gegevens)
en kun je veel gerichter naar gegevens vragen.
(Door deze werkwijze krijgen we doorgaans in 50% van de eerste contacten

meteen de gegevens – geen slechte score.)
Samenvattend: ontleed een interessant formulier en kijk wat er precies wordt

gevraagd. Voorspel daarna zelf de velden in de database. Kijk welke vel-
den privacygevoelig zijn en welke niet. Vraag vervolgens alleen om de niet-
privacygevoelige gegevens.
Wat kun je nu met dat formulier over hondenbelasting? Zoek naar opvallende
zaken. Een paar suggesties:
• Wanneer worden de meeste honden afgemeld? Is dat misschien in een

bepaald seizoen? Bijvoorbeeld vlak voor de zomervakantie? Of is dat

op een terugkerend tijdstip? Bijvoorbeeld aan het einde van de maand

wanneer mensen minder geld hebben? De mogelijke nieuwskop: ‘Hond de
deur uit aan einde van de maand’.
• In welke wijken melden mensen het vaakst hun hond af? Is dat in armere
wijken? In rijkere? Betrek in deze vraag ook het aantal honden per wijk;
misschien speelt dat ook een rol. Die vraag brengt je meteen op een nieuw
idee: in welke wijken zijn de meeste honden, in welke de minste? Hoe weet
de gemeente dat? Alleen dankzij het aanmeldingsformulier? Of zijn er
nog andere databases waarin hondenbezitters staan? Misschien mag je bij
dierenartsen opvragen hoeveel hondenbezitters zij in hun bestand hebben.
Als er een flink verschil zit tussen het aantal mensen dat honden heeft en
het aantal mensen dat hondenbelasting betaalt, dan heb je beet. De moge-
lijke nieuwskop: ‘Bazen ontduiken massaal hondenbelasting’.
• Onderzoek de redenen van afmelding: de hond is gestorven of verkocht,
vermist of ‘een andere reden’. Stel, je komt via dit saaie belastingformu-
lier te weten dat er meer honden dan ooit worden vermist. Als je merkt dat
opeens veel vaker honden worden vermist, wat zegt dit dan?
• Dat kan je weer op het spoor zetten om ondersteunende gegevens op te
vragen, bijvoorbeeld cijfers van asielen (is de aanloop van zwerfhonden
ook gestegen?). Als dat inderdaad zo is, ga dan op zoek naar de reden
waarom honden vaker dan ooit worden vermist. Is dat omdat hun bazen
niet hebben opgelet? Dankzij de postcodes weet je waar je moet zoeken en
kun je door het afnemen van interviews misschien te weten komen wat er
aan de hand is.
Als je iets opvallends ontdekt in data, stel dan altijd de ‘Nou en?’-vraag.
Waarom is deze afwijking of overeenkomst, de terugval of de enorme stijging
spannend? Het antwoord weet je van tevoren meestal niet. Dat is nou net de
charme van datajournalistiek. Je komt op ideeën om de juiste vragen te stellen
en de antwoorden krijg je pas als je verder onderzoek doet.
Datajournalistiek vormt meestal een beginpunt van een verhaal, niet het
eindpunt. Heb je geen ontzag voor cijfers en formulieren, dan kom je in een
wereld van vragen die weer andere vragen oproepen die vroeg of laat leiden
tot originele invalshoeken. Met datajournalistiek creëer je je eigen tips, bij-
voorbeeld: er zijn in deze stad meer honden vermist dan ooit, maar het aantal
honden bleef gelijk. Wat is er aan de hand?

Vinden van data
37
2.1.4 Hoe vraag ik naar data?
Welke vraag klinkt gevoeliger?
‘Ik wil graag weten hoeveel burgers van het kastje naar de muur gestuurd
worden.’
Of:
‘Ik zou graag een geanonimiseerde database willen hebben die is gebaseerd
op formulier 23b.’
Als datajournalist vraag je naar formulier 23b en concludeer je uiteindelijk

zélf hoeveel burgers van het kastje naar de muur worden gestuurd.
Dat geeft je een lichte voorsprong op je collega die niet de cijfers zelf wil
onderzoeken. Die valt met de deur in huis en daardoor schrikken organisaties
wel eens.
Jij komt in eerste instantie wat minder bedreigend over. Een datajournalist
heeft heel andere problemen:
• De woordvoerder vindt je verzoek te ingewikkeld of te tijdrovend.
• De organisatie is niet in staat om je de gegevens begrijpelijk aan te bieden.
• De database is niet compleet, bevat fouten of is soms onbegrijpelijk.
Drie tips om het vrijwel altijd tijdrovende proces van ‘data bedelen’ zo vlot
mogelijk te laten verlopen: 1. bestudeer de database, 2. vind de juiste persoon,
3. peuter details los, en 4. doe mee met een discussiegroep.
1 Bestudeer eerst de database

Je hoeft niet per se de inhoud van een database te kennen als je de onderlig-
gende formulieren kent. Dat zag je al in paragraaf 2.1.1. Probeer vooraf in te
schatten wat privacygevoelig is en wat niet. In discussies sta je dan sterker.
Maar voordat je een officieel verzoek indient, is het handig om te weten of je

alle details goed kent. Daarom is een voorgesprek met een databeheerder geen
gek idee. Hoe doe je dat?
2 Vind de juiste persoon

In LinkedIn, de Hyves voor mensen met een aktetas (citaat van Francesco
van Jole), staan de cv’s van ruim drie miljoen Nederlanders. Maak daar
gebruik van. Type in ‘Geavanceerd zoeken’ bij Bedrijfsnaam de naam van het

bedrijf of de organisatie in waarvan je cijfers wilt hebben. Vervolgens kun je

aan de linkerkant sorteren op functies binnen het bedrijf. Kies mensen die
zich bezighouden met verwerking van data of automatisering. Heb je een
geschikte naam gevonden, bel het bedrijf dan op en vraag naar de betrokkene.
Vraag eerst of hij tijd heeft of dat je beter op een geschikter moment kunt
terugbellen. Zeg dat je wat technische vragen hebt over de database en dat je
graag even wilt aanleunen tegen de kennis van de werknemer. Dat streelt niet
alleen zijn ego, maar is natuurlijk gewoon de waarheid: jij wilt de ins en outs
weten van de database.
3 Peuter details los

Het kan zijn dat je gesprekspartner zo is geïnstrueerd dat hij je naar de afde-
ling voorlichting zal verwijzen. Probeer je niet direct te laten doorverbinden,
maar herhaal dat het louter om ‘technische zaken’ gaat en dat je de persoon
niet zult citeren. Het is van belang dat je precies weet wat er in de database
staat. Probeer te weten te komen wat de lemma’s zijn boven de kolommen: de
trefwoorden in de velden van de database.
4 Doe mee in discussiegroepen

Kijk of het onderwerp van je database ook een discussiegroep heeft op
internet. Opmerkelijk is dat de discussiegroepen van LinkedIn (http://
forreporters.com/linkedin) vaak gemakkelijk toegankelijk zijn, ook al gaan
ze pas open na toestemming van de beheerder. Zo kregen we toegang tot een
discussiegroep van handhavers van de openbare orde, ex-werknemers van
medicijnenfirma Pfizer, politierechercheurs, bankmedewerkers, houthande-
laren, makelaars, fietsenmakers, tuinmannen, chemici en medewerkers van
naaimachinefabrikanten.
Volg de discussie een tijdje, praat hier en daar wat mee en stel na verloop van
tijd je vraag, bijvoorbeeld: ‘Wie weet hoe ik aan cijfers kan komen over het
aantal tuinmannen dat door toedoen van zijn werk gehandicapt is geraakt?’
Maar je kunt daar ook vragen stellen over een database die je al hebt, bijvoor-
beeld over wat bepaalde woorden betekenen. Een lijst met mogelijke woorden
tref je aan op http://forreporters.com/4wvh.

Vinden van data
39
2.1.5 Wat doe ik bij weerstand?
Leef je in
Als journalist wil je misschien precies het aantal parkeerbonnen per wijk
weten of hoeveel mensen de voornaam Hille hebben. Degene van wie je data
wil hebben, heeft er niet altijd belang bij om deze te geven. Besef vooraf aan
wie je deze gegevens vraagt.
Leef je in. Wie zit erop je te wachten? Is het een commercieel bedrijf? De over-
heid? Iets wat er tussenin zit? Wat zijn de weerstanden waarop je moet reke-
nen en hoe beweeg je als een echte judoka mee? Vier vervelende problemen
met vier ontsnappingsroutes zijn:
‘Wat wilt u met de data doen?’
Het probleem: Je verwacht spannende cijfers te krijgen die misschien nade-

lig kunnen zijn voor de betrokken organisatie. Maar dat weten zij nog niet.
Je gesprekspartner vraagt: wat wilt u met de data doen en waarom? Wat is je
antwoord?
Plan B: Wees altijd eerlijk over je bedoeling, zegt Andrew Lehren van The New
York Times: je wilt de organisatie of persoon die beschikt over data nooit mis-
leiden. Maar je hoeft niet per se het achterste van je tong te laten zien. Toen
Lehren de (uiteindelijk gevoelige) data over de marathon van New York wilde
hebben van de organisatie, zei hij dat hij van plan was een serie artikelen over
de marathon te maken en dat de data hem bij zijn onderzoek handig leken.
Soms weet je van tevoren niet of de data nieuwswaardig zijn. In dat geval
kun je op de vraag ‘wat gaat u ermee doen?’ gerust antwoorden dat je dit nog
niet weet. Zeg in dat soort situaties: ‘Ik zou een slechte journalist zijn als ik
nu al kan vertellen wat mijn conclusie is, zonder uw cijfers ooit bestudeerd te
hebben.’
‘U profiteert van ons’
Het probleem: Commerciële dataverstrekkers zien jou als een commerciële

partij. Jij verdient geld met hún leuke cijfers. Een vlammend betoog over de
maatschappelijke relevantie van je onderzoek maakt geen enkele indruk.

Plan B: Zeg toe dat je in het verhaal duidelijk de bron van de cijfers vermeldt.
Het neveneffect voor het bedrijf is gratis reclame. Formuleer de toezegging
precies. Zeg niet: ‘we gaan u in het artikel noemen’, want vooraf weet je niet
helemaal zeker of de cijfers interessant genoeg zijn. Beter is: ‘wanneer we de
data gebruiken, krijgt u volledige bronvermelding’, eventueel aangevuld met
‘en op de website krijgt u bovendien een link’.
Dat laatste lokkertje geeft soms net de doorslag: bedrijven zijn dol op linkjes
van de media omdat dit hun zichtbaarheid in zoekmachines vergroot. Formu-
leer ook deze toezegging nauwkeurig. Je bent geen reclamemaker, maar jour-
nalist.
‘Scheer je weg’
Het probleem: Je tegenpartij is onbeleefd, kortaf en totaal niet geïnteresseerd

in het feit dat jij het aantal stoeptegels in de grootste winkelstraat van je woon-
plaats wilt weten. Je krijgt steeds hetzelfde te horen: ‘Dat soort cijfers worden
niet verstrekt.’
Plan B: Probeer over hetzelfde onderwerp een andere partij te vinden die wel
wil meewerken, maar waarschijnlijk niet veel verder komt dan een schatting.
Bel in dit voorbeeld een stoeptegelfabrikant die aangeeft dat in een gemid-
delde winkelstraat 50.000 tegels liggen. Leg deze uitspraak voor aan de par-
tij die niet meewerkt. ‘We hebben een schatting gekregen van een stoeptegel-
firma, kunt u zich daarin herkennen?’ Het eerste antwoord zal zijn dat ‘dit
soort cijfers niet worden verstrekt’, maar probeer te begrijpen waarom iemand
dat zegt. Hij wil van je af. Doordat je maar blijft aanhouden, ontstaat bij je
opponent het besef dat meewerken minder tijd gaat kosten dan tegenwerken.
Blijf dus de vraag herhalen. Probeer het je bron wel gemakkelijk te maken,
bijvoorbeeld door te melden dat hij de gegevens kan opvragen bij de afdeling
automatisering of hoe de afdeling ook mag heten (LinkedIn is je vriend).
Lukt ook dit niet? Doe dan maar passief-agressief: ‘Ik begrijp dat u de data
niet verstrekt. Ik zal uw weigering in het stuk waar nodig zorgvuldig verwoor-
den. Dus even voor de record: de stoeptegelfabrikant werkt wel mee, maar u
niet. Waarom? Hoe spel ik uw achternaam?’

Vinden van data
41
‘U hoort nog van ons’
Het probleem: Je wordt juist door allervriendelijkste mensen te woord gestaan.

Je krijgt de indruk dat ze alles voor je willen doen. Maar de cijfers? Die komen
maar niet.
Plan B: Wat doe je tegen ‘doodknuffelen’? Blijf vooral zelf vriendelijk. Con-
centreer je niet meer op wie verantwoordelijk is voor het verstrekken van de
cijfers, maar leg contact met de persoon die op de knop drukt om de cijfers
te exporteren. Dat is iemand van de afdeling automatisering, vaak te vin-
den via LinkedIn. Bel deze persoon en meld beslist dat je contact hebt gehad
met (… namen van allervriendelijkste mensen …). Vraag vervolgens om een
afspraak. De automatiseerder zal willen dat zijn bazen bij het gesprek zijn. Dat
is in dit stadium niet erg – je wilt immers een einde maken aan het eindeloze
wachten.
2.1.6 Zwarte lijsten
Bedrijven en organisaties houden soms zwarte lijsten bij. Daarop staan

namen van mensen die voor allerlei vormen van overlast zorgen: vernie-
ling, diefstal, geweld, dronkenschap en bedreiging. Dat moeten ze vooraf wel
vertellen aan het College Bescherming Persoonsgegevens (CBP). Het CBP
zorgt ervoor dat privacygevoelige gegevens niet in verkeerde handen val-
len en is verantwoordelijk voor correcte uitvoering van wetten, zoals de Wet
bescherming persoonsgegevens (Wbp), de Wet politiegegevens (Wpg), de
Wet gemeentelijke basisadministratie (Wet GBA) en de Wet justitiële en straf
vorderlijke gegevens (Wjsg).
Lang niet elk bedrijf meldt zich aan. Toch heeft het wel degelijk zin om via
http://forreporters.com/registers bij te houden welke zwarte lijsten er wel zijn
aangemeld in Nederland.
Voor datajournalistiek lijkt het CBP de laatste plek op aarde om op zoek te

gaan naar verhalen die gebaseerd zijn op cijfers. Het college beschrijft alleen
welke vertrouwelijke databases er zijn, juist niet wat de cijfers zelf zijn. Toch
is het belangrijk om precies te weten wat er wordt bijgehouden in de vele data
bases. Gewapend met kennis van de inhoud van de niet-openbare databases
kun je organisaties gerichte vragen stellen over details die niet te herleiden
zijn naar werkelijke personen.

Je hoeft bijvoorbeeld niet te weten wat de namen zijn van hotelgasten die
kamers vernielen, maar je wilt wel weten hoe vaak dat gebeurt, in welke
periode en welk deel van het land. Het simpele feit dat je weet dat zulke zaken
worden bijgehouden, geeft je een voorsprong op journalisten die dat niet doen.
Met overredingskracht kun je een organisatie overhalen om niet-privacy
gevoelige gegevens te verstrekken voor nader onderzoek. Verwacht bij voor-
baat dat de eerste reactie niet positief zal zijn. De kans is niet denkbeeldig dat
de houder van de database geschrokken en uiterst afwerend reageert. Voor
meer uitleg zie: ‘Hoe praat ik data los?’.
Wat voor zwarte lijsten zijn er? Autoverhuurbedrijven willen bijvoorbeeld met
elkaar persoonsgegevens uitwisselen over dieven, mensen die expres schade
claimen of buitengewoon gewelddadig gedrag tentoonspreiden. Winkeliers
zetten ruziezoekers en winkeldieven in een database en hoteliers plaatsen ver-
velende gasten op een zwarte lijst. Een greep uit de zwarte lijsten:
Foute autohuurders (http://forreporters.com/azve)

Wie gaat er met huurauto’s vandoor, vernielt ze of richt anderszins schade aan
die hoger is dan 50 euro? Op de zwarte lijst van verhuurbedrijven van auto’s
worden voor iedere persoon twaalf gegevens bijgehouden.
Onrust in de supermarkt (http://forreporters.com/schuitema)

Mensen die stelen bij supermarkt C1000 of anderszins voor ernstige over-
last zorgen, worden op een zwarte lijst van het Meldpunt Risicomanagement
Schuitema gezet. Alleen eigen personeel van C1000 mag dit register raadple-
gen. Opmerkelijk is dat in de database al jaren de huidskleur van geweerde
klanten wordt opgenomen. De auteurs van dit boek hebben daar nog geen
artikel over gelezen. Het gegeven dat de huidskleur van lastige supermarkt-
klanten voortdurend wordt opgeslagen, kan zeker een aanleiding zijn voor het
stellen van vragen aan betrokkenen.
Ongewenste hotelgasten (http://forreporters.com/hotel)

Hotels door heel Nederland worden geconfronteerd met vreemde gasten. Zo
wordt er schade toegebracht aan hotelkamers en worden er spullen gesto-
len. Hotelpersoneel wordt bedreigd of mishandeld of andere gasten van het
hotel worden lastiggevallen. Gasten verlaten het hotel zonder de rekening te
voldoen en hotelkamers worden gebruikt als bordeel, studio voor een porno-
film of een cokeeest. Maar ook het personeel zelf kan in de fout gaan. ‘Deze
misdragingen vormen een bedreiging voor de veiligheid in de hotels in
Nederland, het personeel en de gasten’, zegt het Bureau Ongewenste Gasten

Vinden van data
43
egistratie, dat daarom een zwarte lijst heeft gemaakt. Een medewerker van
R
een hotel krijgt alleen te zien dat iemand op de lijst staat, niet waarom. Daar-
voor moet hij contact opnemen met de security van het hotel.
Overlast in parkeergarages in Amsterdam (http://forreporters.com/parkeer

garages)
Mensen die voortdurend vervelend doen in Amsterdamse parkeergara-
ges, krijgen een toegangsverbod. Het Protocol Collectief Toegangsverbod
Parkeergarages Amsterdam-centrum regelt dat.
Foute bewakers (http://forreporters.com/bewakers)

Welke beveiligingsmedewerkers zijn ontslagen als gevolg van fraude of crimi-
naliteit of namen snel zelf ontslag? Dat staat in de database van het Protocol
Waarschuwingsregister Particuliere Beveiliging.
Geroyeerde voetballers (http://forreporters.com/voetballers)

Wie is door voetbalbond KNVB geroyeerd als lid vanwege misdragingen?
Bekijk het Protocol Lijst ‘Landelijke Voetbalverbod’.
Voorbeeld
Op de zwarte lijst van verhuurbedrijven van auto’s worden voor ieder persoon
twaalf gegevens bijgehouden:
1. naam;
2. adres;
3. woonplaats;
4. rijbewijsnummer;
5. reden van registratie;
6. geboortedatum;
7. telefoonnummers;
8. voertuiggegevens (alleen in geval van verduistering van het voertuig);
9. land;
10. geslacht;
11. e-mailadres;
12. KvK-nummer indien het een zakelijke klant betreft.
Natuurlijk verstrekt de beheerder van deze zwarte lijst, brancheorganisa-

tie Bovag, deze gevoelige gegevens niet aan de pers. Namen en adressen van
personen zijn alleen bedoeld voor medewerkers. Zeker vijf van de twaalf

ovenstaande gegevens zijn niet direct herleidbaar naar personen: 3. woon-

b
plaats, 5. reden registratie, 8. voertuiggegevens (merk & bouwjaar), 9. land, 10.
geslacht.
Hoe zou je de Bovag proberen te overtuigen om de niet-privacygevoelige

gegevens los te peuteren?
Je vraagt om een lijst met alleen de woonplaatsen, automerken (met bouw-
jaar!), reden van verhuur, land en geslacht. Benadruk dat je niet uit bent op
privacygevoelige gegevens en dat op geen enkele manier gegevens uit de
gewenste dataset te herleiden zijn naar privépersonen. Geef aan dat je alge-
meen inzicht wilt krijgen in de problematiek van verhuurbedrijven en op
grond van principes van datajournalistiek werkt.
Je ontvangt van de Bovag de database met de niet-privacygevoelige gegevens.

Mogelijke hypothesevragen als basis voor een verhaal zijn:
1. Welke automerken worden bij verhuurbedrijven het vaakst gestolen?
(Top tien)
2. Hoe oud of hoe jong zijn de dieven?
3. Uit welke landen komen de dieven?
4. Hoe is de geografische spreiding van de dieven in Nederland?
5. Worden huurauto’s in bepaalde maanden vaker achterovergedrukt?
2.2 Sociale media
Maak kennis met datavisualisatie van sociale netwerken. Wie is de gemeen-

schappelijke vriend van drie fraudeurs (par. 2.2.1)? Onderzoek ranking tools
(par. 2.2.2) en weet wie op welk vlak gezaghebbend is in sociale media.
2.2.1 De opmars van datavisualisatie
Voor sommige datajournalisten zijn sociale media een goudmijn. Zo onder-

zocht The Guardian (http://forreporters.com/772n) welke mensen Britse jour-
nalisten volgen op Twitter. Het weinig verrassende antwoord is: vooral elkaar.

Vinden van data
45
Figuur 2.9 Britse journalisten volgen op Twitter vooral hun collega’s.

Hoe groter de naam, hoe meer contacten
Een Twitter-tijdlijn van de rellen in Londen, gemaakt door The Guardian,

helpt de ‘urgentie van het moment’ te ervaren, maar geeft niet direct een
dieper of ander inzicht in de gebeurtenissen.
Figuur 2.10 Visualisatie van rellen in Londen via tweets
Wie zijn de volgers van het raceteam Red Bull Racing? De conclusie is dat
mensen die van racen houden, ook merken en personen volgen die met auto’s
te maken hebben. Sociologisch is dit razend interessant, journalistiek gezien
wellicht niet.

Figuur 2.11 Red Bull Racing: belangrijke en onbelangrijke vrienden. Tony

Hirst kreeg zijn gegevens via http://forreporters.com/v90u
Bedenker Tony Hirst (Ouseful.info) beaamt dat visualisaties van sociale

media niet perfect zijn: ‘Het uiteindelijke doel is dat we nieuwe inzichten krij-
gen, niet dat we aan eye-candy doen. De visualisatietechnieken zijn al aardig
uitgerijpt, maar het denken over de vraag welke netwerken je wilt onder
zoeken, staat nog in de kinderschoenen.’
Hirst werkt veel met Gephi, gratis exploratiesoftware voor netwerken (http://
forreporters.com/oohg). Ditzelfde programma wordt ook gebruikt om bij-
voorbeeld vliegbewegingen in beeld te brengen boven de VS.
Figuur 2.12 Met TwitCheck zie je in één oogopslag hoe vaak iemand per week
of per maand tweet, zoals hier een redacteur van de Leeuwarder
Courant

Vinden van data
47
Praktische toepassingen
Met Compare Users van Follower Wonk, http://forreporters.com/wonk, kun

je van twee tot drie willekeurige personen zien welke gemeenschappelijke
vrienden zij hebben op Twitter. Dat helpt je om meer inzicht te krijgen in
onbekende netwerken.
Een voorbeeld: je ontvangt een persbericht met daarin de mededeling dat

tegen drie mensen een onderzoek loopt vanwege het aannemen van steek-
penningen van een bouwbedrijf. Je weet de naam van het bedrijf niet. Zet de
namen van de drie mensen nu in Follower Wonk en kijk of je iets opvalt bij
hun gemeenschappelijke vrienden. Komt hetzelfde bouwbedrijf naar boven,
dan heb je een goed begin voor verder onderzoek.
Een tweede toepassing van Follower Wonk is dat je moeilijk bereikbare men-
sen via hun gemeenschappelijke kennissen toch weet te bereiken.
Heel prettig is Follower Wonk voor het in kaart brengen van netwerken
die je nog niet kent. In een onderzoek naar prijsafspraken in een voor mij
onbekende branche had ik aanvankelijk maar weinig bronnen. Door ze met
elkaar te kruisen kreeg ik hun gezamenlijke contacten en vond zes nieuwe
namen uit dezelfde sector. Elke nieuwe naam zette ik in Follower Wonk en dat
leverde weer nieuwe namen op. Na een uurtje zoeken had ik vijftig namen van
mensen in een branche die ik tot kort daarvoor niet kende.
Figuur 2.13 De auteurs van dit boek delen 119 vrienden, vooral journalisten

2.2.2 Personen en data
Kijk eens naar figuur 2.14. Wie van deze mensen herken je?
Figuur 2.14 Wie herken je van bovenstaande mensen?
Zag je de bedenker van de term Web 2.0 (figuur 2.15) of de voormalig evange-
list van Apple (figuur 2.16)?
Figuur 2.15 Tim O’Reilly, de man die de term Web 2.0 bedacht en voorvechter
van open data

Vinden van data
49
Figuur 2.16 Guy Kawasaki, hier met een iets andere avatar dan in figuur 2.14
Herkende je bijna niemand? Dan miste je tientallen gedreven experts die op

hun vakgebied excelleren en het meestal niet hebben over wat ze eten, dat het
closetpapier op is en dat de televisie saai is.
Sociale media leveren een schat aan data op over de vraag hoe belangrijk
iemand volgens anderen is. Als alle microbiologen, houthakkers of sterren-
kundigen van Nederland allemaal dezelfde collega volgen, dan staat deze col-
lega waarschijnlijk in enig aanzien. Het is aan jou om deze ‘topper’ te vinden.
Met behulp van ranking tools en lijsten kom je erachter wie de experts zijn
over een niche-onderwerp. Andersom werkt het ook: heb je al een naam van
iemand, dan krijg je een idee waarover hij vooral praat in sociale media en hoe
peers (gelijken) hem inschatten.
Ranking tools
Ranking tools onderzoeken wie met wie praat over welk onderwerp en bereke-
nen vervolgens hoe belangrijk iemand is. Klout.com en peerindex.com zijn de
twee grootste ranking tools. Ze zijn niet perfect, maar als je weet hoe ze wer-
ken, kun je er wel wat mee. Wat?
Je weet al een naam
Zet de naam van de persoon in Klout.com.

Ga naar http://forreporters.com/movy en je ziet een scherm dat sterk lijkt op

figuur 2.17:
Figuur 2.17 Neem de onderwerpen bij de kortere lijnen niet al te serieus
Wat zie je hier? Het gaat om de onderwerpen waarover ik in sociale media het
meest praat – althans volgens Klout.com. De eerste drie kloppen aardig.
Laat je vooral leiden door de onderwerpen met het woord Strong erachter.
Bij Medium is meestal het volume van uitingen te klein en slaat de computer
maar een wilde slag naar iets. Zo heb ik geen idee waarom ik enigszins gezag-
hebbend zou zijn over Colorado.
Bij Mark Rutte (VVD) weet de computer dat hij gezaghebbend is over het
onderwerp government (http://forreporters.com/m4ei).
Figuur 2.18 Mark Rutte: zijn favoriete gespreksonderwerp
Maar daarna liggen zijn specialismen minder voor de hand.

Vinden van data
51
Figuur 2.19 Is Mark Rutte gezaghebbend over deze onderwerpen?
Dit soort diensten komen tot wasdom wanneer de onderzochte personen zeer
actief zijn in sociale media: hoe meer informatie, hoe beter het meest geuite
onderwerp kan worden voorspeld.
In Peerindex.com kun je soms ook zien wat de meest geciteerde bronnen zijn
van iemand (als er voldoende tweets zijn). Zanger Marco Borsato noemt dag-
blad De Telegraaf het vaakst – de stukken gaan vooral over hemzelf.
Figuur 2.20 De bronnen van Marco Borsato
Je weet geen naam
In Klout.com kun je ook andersom zoeken: wie beïnvloeden de discussie over

bijvoorbeeld het milieu het meest?
Figuur 2.21 Wie is gezaghebbend over het milieu?

De dienst is vanuit statistisch oogpunt natuurlijk dubieus: het meet perso-

nen of bedrijven die hyperactief zijn in sociale media – iedereen die niet aan
deze omschrijving voldoet, wordt niet genoemd. Toch kan deze gemankeerde
populariteitspoll handig zijn als je geen idee hebt van een bepaalde sector.
Je weet in elk geval waar je moet beginnen. Beoordeel diensten als Klout en
Peerindex precies zo: als een beginnetje. Via de ene expert kom je bij een
andere.
Lijsten
Specifiek voor Twitter zijn lijsten. Individuele twitteraars bergen hierin hun
favoriete personen op. Veel van de lijsten zijn openbaar en te doorzoeken via
http://listorious.com.
Figuur 2.22 Handig: een zoekmachine voor Twitter-lijsten, vooral goed in het
vinden van Engelssprekende experts
De aanname is dat als archeologen hun collega’s in lijsten zetten, je vanzelf

een idee krijgt van de beste experts. Ook de iPhone- en iPad-applicatie Flip-
board maakt gebruik van dit idee.

Vinden van data
53
Stel, je wilt weten wie de topexpert is op het gebied van rellen in London.
Flipboard kijkt onder meer naar de Twitter-lijsten over de rellen in Londen
en meet welke experts het vaakst genoemd worden. In een discussie over het
gebruik van sociale media op radiozender BNR gaf de Britse correspondent
voor persdienst GPD aan dat zij vooral Paul Lewis van The Guardian volgt.
Deze tip van een kenner komt ook tevoorschijn als je in Flipboard op ‘Paul
Lewis’ zoekt. Hoe kan het dat een computer het net zo goed weet als een
expert? Omdat juist de meningen van experts zijn bijgehouden. Journalist
Paul Lewis komt in Twitter-lijsten vaak voor met de naam ‘London Riots’.
Figuur 2.23 De computer en de Britse correspondent wijzen allebei Paul

Lewis aan als kenner op het vlak van de rellen in Londen
LinkedIn
LinkedIn, het netwerk van mensen met een aktetasje, bestaat uit meer dan
drie miljoen Nederlanders die vrijwillig hun cv hebben achtergelaten. De
enorme hoeveelheid data is toegankelijk via de optie Geavanceerd Zoeken,
http://forreporters.com/linkedin2 – registratie is vereist, voertaal is Engels.
Stel, je zoekt voor een verhaal contact met mensen die bij supermarktketen
Lidl hebben gewerkt, maar nu actief zijn als consultant. Zet achter Company
de bedrijfsnaam en klik op Past not current.
Figuur 2.24 Met deze zoekactie sluit je mensen uit die eerst bij Lidl werkten en
er later weer terugkeerden

Je ziet nu honderden mensen die van zichzelf beweren dat ze bij Lidl hebben
gewerkt.
Figuur 2.25 Honderden ex-werknemers van Lidl
Aan de linkerkant van het zoekmenu staat in welke sector de ex-Lidl-werk

nemers actief zijn:
Figuur 2.26 Kies je favoriete sector
Selecteer nu Management Consulting en je hebt de namen van zeker tien men-

sen die nu manager consultant zijn en bij Lidl werkten.
Figuur 2.27 Uit het schap, in het management

Vinden van data
55
Ideeën voor verhalen
Op deze manier kun je mensen vinden die eerst bij een Nederlandse bank
hebben gewerkt, maar nu croupier zijn. Ook stel je vast welk KLM-personeel
nu bij defensie werkt of welke voormalige Shell-medewerker nu in de eco
logische sector zit. Ook voor de actualiteit is de database van LinkedIn han-
dig, bijvoorbeeld als je snel wil weten welke Nederlanders in de buurt wonen
van een Japanse kernreactor die bedreigd wordt door een tornado.
Figuur 2.28 Zoeken op postcode binnen 80 kilometer of meer kan ook bij Lin-
kedIn
Af en toe krijg je op LinkedIn de naam van de persoon niet voluit te zien

omdat hij niet in je netwerk zit. Met een eenvoudig trucje los je dat op. Hier-
onder zie je dat een IT-manager uit Zuid-Afrika privé wil blijven.
Figuur 2.29 Iemand wil anoniem blijven op LinkedIn

Doordat Google de personen op LinkedIn anders indexeert, komt heel vaak

toch de volledige naam tevoorschijn. Kopieer eerst een paar eerdere functies
van de anonieme persoon:
Finance & Reporting Manager at Shell

AS400 System Architect & Administration at Shell
IT Operations at Shell
Plak nu al deze functies in Google. Bovenaan zie je nu een zekere John Brink
staan:
Figuur 2.30 Drie functies van de onbekende persoon staan nu in Google
Klik op dit resultaat en je ziet:
Figuur 2.31 De naam wordt nu zichtbaar

Vinden van data
57
Vergelijk figuur 2.31 met figuur 2.29: je ziet nu dat op de naam na beide scher-
men hetzelfde zijn.
Zoeken op locatie
Een dienst om personen te volgen op grond van hun locatie is Geofeedia.com.

Kies een plek op een kaart, waar ook ter wereld, en Geofeedia toont actuele
informatie van Twitter, Instagram, Picasa, YouTube en Flickr. De makers
hopen dat journalisten zo gemakkelijker de brandhaarden in de wereld kun-
nen volgen. De dienst is ook handig als je wilt zien hoe in een bepaalde plaats
mensen op gebeurtenissen reageren. Geofeedia ziet alleen personen die vrij-
willig hun geocoördinaten hebben aangezet – dat heeft niet iedereen gedaan.
De dienst toont op een kaart waar de foto, tweet of video is gemaakt.
Figuur 2.32 Via Geofeedia is het mogelijk om op plaatsnamen of wijken te

zoeken naar tweets

Figuur 2.33 Geofeedia toont wanneer een YouTube-filmpje is gemaakt en waar
Zoeken op tijdstip
De zoekmachine van Microsoft, Bing (www.bing.com), toont sinds kort infor-

matie uit Facebook en Twitter in een tijdlijn.
Figuur 2.34 Google had vroeger Google Timeline, maar wist het contract met
Facebook en Twitter niet te verlengen. Bing (Microsoft) ging er
met het idee vandoor

Vinden van data
59
Archief van sociale media
Tegen betaling geeft de firma Datasift.com de mogelijkheid om tot drie jaar

oude tweets en LinkedIn- postings terug te vinden. Tijdens het ter perse gaan
van dit boek bestonden er geen archieven voor Facebook.
Figuur 2.35 Het peperdure Datasift maakt het mogelijk om oude tweets en
berichten van LinkedIn terug te vinden
API’s kijken
Sociale media hebben voor programmeurs loopplanken gemaakt om sneller

en vaak beter bij gegevens te komen. De Application Programming Interface
(API) is bedoeld om software van de programmeur goed samen te laten wer-
ken met het sociale netwerk. We hebben er driehonderd op een rijtje gezet op
http://forreporters.com/2deh.
2.3 Vragen om ongepubliceerde overheidsdata
Hoe krijg je nog niet gepubliceerde informatie van de overheid in handen? (In
par. 2.4 bespreken we de openbare gegevens van de overheid.)
Dat is soms best lastig. We telden maar liefst 41 bezwaren van ambtenaren
waarin zij aangeven waarom de gevraagde database niet wordt gegeven. Dit
hoofdstuk geeft je materiaal om je niet te laten afpoeieren. Desnoods doe je
een beroep op de Wet openbaarheid van bestuur.

2.3.1 Alles is openbaar, tenzij …
In Nederland wordt het recht op overheidsinformatie sinds 1980 geregeld

via de Wet openbaarheid van bestuur (Wob). Voor journalisten is deze wet
soms de enige manier om aan overheidsdata te komen. Formeel is de geheim
houding van data de uitzondering en is openbaarheid de standaard.
Volgens het beginsel van de wet is alle informatie openbaar, behalve bij de vol-
gende absolute weigergronden:
De eenheid van de Kroon

Dit heeft vooral met de positie van het staatshoofd te maken. Deze weigerings-
grond moet bijvoorbeeld voorkomen dat een conflict tussen een minister en
het staatshoofd openbaar wordt. Ook gegevens over de relatie met overzeese
gebieden als de Antillen kunnen met deze grond worden afgeschermd.
De veiligheid van de Staat

Vóór september 2001 werd dit artikel meestal gebruikt rondom informatie
over veiligheidsdiensten. Na 9/11 worden veel Wob-verzoeken rond terreur
bestrijding geweigerd.
Bedrijfs- en fabricagegegevens vertrouwelijk bekend bij de overheid

Als een bedrijf een geheim recept heeft, is het logisch dat dit niet bekend mag
worden. Een rivaliserend bedrijf kan dit opvragen en het product namaken.
Dat zou concurrentievervalsing zijn. Deze vertrouwelijkheid moet wel schrif-
telijk zijn vastgelegd.
Persoonsgegevens
Om de privacy te beschermen hebben alleen direct betrokkenen toegang tot
persoonsgegevens in documenten.
2.3.2 Veertig deksels op je neus
In figuur 2.37 zie je maar liefst veertig redenen waarom een ambtenaar geen
medewerking verleent. Deze lijst is gebaseerd op onze ervaring met verzoeken
om data.

Vinden van data
61
Geld/Tijd Praktisch/Technisch
Het kost ons te veel We weten niet wie erover gaat
Het heef voor ons geen waarde Bestand is niet goed genoeg
’t Is nog niet klaar We weten niet waar het is
Duurt te lang ’t Is niet mijn taak
We hebben geen tijd Bestand is veel te groot
We hebben geen mensen Het kost te veel dataverkeer
IT-bedrijf zegt: geen prioriteit Ik krijg het bestand niet open
Valt niet te achterhalen Het is te oud
Akkoord, maar het kost u veel geld We hebben het alleen op papier
Bel over drie maanden terug Bestand is gebrekkig
Bang voor gevolgen Obstructie
Minister zegt nee Waarom wilt u dit hebben?
Ik ga hier niet over Ik zie de meerwaarde niet
Mensen gaan dit misbruiken Gaat u maar Wobben
Mag dit eigenlijk wel? We strepen 90% door
Schendt minister Het is niet compleet
Schendt ministerie Journalist heeft te grote mond
Hebben we nooit eerder gedaan Kunt u toch ook elders vragen?
Commercieel gevoelig Mensen krijgen verkeerd beeld
Veel te veel nawerk Geeft onnodige onrust
Schendt belangengroepen We zeggen niet of de data bestaan
Figuur 2.37 Veertig redenen waarom ambtenaren niet willen/kunnen mee-

werken aan een verzoek tot openbaarheid (bron: www.vvoj.nl)

Figuur 2.38 De 41ste reden kregen we via Twitter te horen. Jeroen Veen-
stra vindt journalisten soms onfatsoenlijk en stuurt ze alleen al
daarom direct door naar een afdeling voorlichting
Volgens de Nationale Ombudsman Alex Brenninkmeijer voert de overheid af

en toe een ‘juridisch steekspel waar de burger niets aan heeft’. Het ‘strategisch
omgaan’ met overheidsinformatie is in zwang, zegt Brenninkmeijer. Dat werkt
vertragend.
Figuur 2.36 Journalisten hebben de Nationale Ombudsman gevoed

met munitie voor een betere werking van de Wob
Volgens Brenninkmeijer zou de Wob overbodig moeten zijn. ‘De wet is bedoeld
om informatie los te krijgen, maar in de praktijk komen journalisten terecht in een
oerwoud van procedures die het hen juist erg moeilijk maakt.’ Zie ook http://for
reporters.com/wob1 en http://forreporters.com/wob2.

Vinden van data
63
Gebruik het manifest
Hoe pareer je een dreigende weigering? Leer de taal spreken van ambtenaren.
Dat is misschien saai, maar het werkt wel. Probeer je in te leven in hun pro-
blemen – ook al vind je ze vreemd. Laat je inspireren door het ‘Wob-manifest’
van de Nationale Ombudsman. Dat zijn acht suggesties die hij aan ambtena-
ren deed op grond van analyse van de werking van de Wob. Normaal gespro-
ken zijn die alleen voor ambtenaren interessant, maar jij kunt ze misschien
gebruiken om de discussie net in je voordeel te laten kantelen. Dan hoef je
geen tijdrovende Wob-procedure te beginnen en is de ambtenaar uiteindelijk
ook minder tijd kwijt.
Hier zijn de acht richtlijnen voor ambtenaren:
1. Maak zoveel mogelijk overheidsinformatie actief openbaar zodat iedereen

zich een eigen oordeel kan vormen over bestuurlijke aangelegenheden.
Gebruik dit argument direct als de ambtenaar zegt dat hij de gegevens niet
kan verstrekken. Zeg dat de formele Wob-procedure voor beide partijen een
beslag legt op tijd en geld.
2. Lever informatie zo aan dat deze goed toegankelijk is en zo mogelijk in de

vorm waarin de verzoeker dat wenst.
Kijk nog even naar figuur 1.3 in hoofdstuk 1. Als data zó worden aangeboden,
ben je alsnog veel tijd en geld kwijt om het leesbaar te maken. Vraag bij voor-
baat of de overheid de gegevens wil aanleveren in Excel (XLS-formaat) of CSV
(komma gescheiden data, in te lezen in Excel). Merk je weerstand, gebruik
dan het advies van de Ombudsman aan ambtenaren: lever de informatie zo
mogelijk aan in de vorm waarin de verzoeker dat wenst.
3. Beschouw een verzoek om informatie niet primair als een Wob-verzoek.

Stelt u zich coöperatief op en geef de gevraagde informatie ruimhartig tenzij
er zwaarwegende belangen zijn die geheimhouding rechtvaardigen, zoals de
privacy van personen.
Probeer vooraf te bepalen welke gegevens privacygevoelig zijn en welke niet.
Judo mee met de ambtenaar als deze zegt dat hij de burger wil beschermen.
‘Dat begrijp ik. We zijn niet geïnteresseerd in allerlei persoonsgegevens, maar
alleen in de velden A, C, D, F en G.’ Veel pogingen om data los te peuteren
gaan mis omdat de ambtenaar bang is dat hij gegevens niet mag geven. Stel
hem of haar gerust, benoem zelf de velden die privacygevoelig zijn en geef aan
dat je die helemaal niet wilt hebben. Daarmee kweek je begrip.

4. Vermijd een juridische strijd rond het al dan niet verstrekken van over-
heidsinformatie. Als redelijkerwijs discussie mogelijk is over het al dan niet
openbaar maken, ga dan een open gesprek aan en bekijk welke informatie
bijdraagt aan transparantie voor de geïnteresseerde burger.
Haal dit argument aan als de ambtenaar geen millimeter ruimte geeft.
Persoonlijk contact kan soms wonderen verrichten. Probeer een gesprek niet
meteen te laten ploffen, maar vraag om een (nieuwe) afspraak.
5. Respecteer de bijzondere rol van volksvertegenwoordigers en voelt u zich

steeds medeverantwoordelijk voor het volledig en juist informeren van hen.
Je kunt naar een Kamerlid stappen om de gegevens openbaar te krijgen.
Nadeel van die aanpak is dat je goede afspraken met het Kamerlid moet
maken, anders gaat hij er misschien zelf (politiek) mee aan de haal.
6. Respecteer de bijzondere rol van journalisten en de media bij het verkrijgen

van overheidsinformatie en handel verzoeken om informatie voortvarend af
zodat de vrijheid van nieuwsgaring effectieve bescherming vindt.
Gebruik dit argument wanneer je een toezegging hebt gekregen dat de data
worden verstrekt, maar je veel te lang moet wachten.
7. Als informatie niet direct beschikbaar is in de vorm van bestaande docu-

menten, overleg dan op welke wijze in redelijkheid aan de informatie
behoefte tegemoet gekomen kan worden. Maak daarbij afspraken over een
redelijke tijdsplanning.
De ambtenaar zal waarschijnlijk eerst naar collega A moeten, die B moet vra-
gen of C akkoord is dat D aan E vraagt of de afdeling de data mag verstrek-
ken. Ga niet als een dolle stier te keer. Een redelijke termijn is dat de g egevens
binnen twee tot drie maanden worden aangeleverd als ze nog niet direct
beschikbaar zijn.
8. Als er strijd ontstaat over het al dan niet verstrekken van informatie, stelt
u zich dan primair de vraag welk maatschappelijk belang met de strijd
gediend is en welk aandeel u of uw overheidsorganisatie heeft in deze strijd.
Zeg: ‘Als we een Wob-procedure beginnen, welk maatschappelijk belang ver-
dedigt u dan in onze strijd?’

Vinden van data
65
2.3.3 Toch ‘Wobben’
Mislukt het overleg, dan moet je aan de slag met de Wob. Kies alleen zaken
die over een jaar ook nog interessant kunnen zijn. RTL had op een bepaald
moment meer dan vijf miljoen verkeersovertredingen in handen op grond
waarvan een interessante serie items kon worden gemaakt. Ook wist de
omroep de individuele uitgaven van ministers te melden. KRO’s Reporter
kreeg na maanden helder tegen welke bedragen (ex-)journalisten zich door de
overheid lieten inhuren.
De Wob regelt de openbaarheid van documenten van bestuursorganen. Dat
zijn bijvoorbeeld ministeries, gemeenten en provincies, maar ook zelfstan-
dige bestuursorganen zoals het Hoofdbedrijfschap Detailhandel, het Cen-
traal Bureau Rijvaardigheidsbewijzen en de Stichting Landelijke Mestbank.
Weet jij wat alle zelfstandige bestuursorganen zijn in Nederland? Een lijstje
van organen vind je op http://forreporters.com/bestuursorganen en http://for
reporters.com/zbo.
Figuur 2.39 De Stichting Hack de Overheid helpt journalisten in hun zoek-

tocht naar open data
Wat voor stukken vraag je op?
De belangrijkste voorwaarde voor het opvragen van een document is dat het
bestaat. Het moet officieel zijn. Notulen zijn bijvoorbeeld documenten. Maar
als het voorlopige notulen betreft, is dit nog geen vastgelegd document. Ook
een rapport bestaat pas als het is afgerond. Een rapport in concept is dus niet
te wobben.

Een video en een e-mail zijn weer wel documenten, want ze bestaan officieel.
De strijd over wat wel en niet een document is, wordt in veel landen gestreden.
Dit lijkt juridisch getouwtrek, maar voor een wobber is dit wel degelijk van
belang. De overheid zal eerder bij gevoelige documenten met de document-
definitie rommelen. En dat zijn juist de stukken die een Wob-procedure de
moeite waard maken.
De procedure
Hoe weet je of je een kans maakt? Hoe stel je een verzoek op? Ga hiervoor naar
http://forreporters.com/wobtoets.
Krijg je de stukken niet meteen, dan rest je niets anders dan een procedure
bij de rechtbank. Die duurt behoorlijk lang (één tot twee jaar). Journalisten
kunnen een beroep doen op een versnelde behandeling, maar begin nooit een
Wob-procedure vlak voor een deadline.
Hoe ga je om met obstructies?
Figuur 2.40 Roger Vleugels, Wob-specialist, legt in een video uit waar je op
moet letten, zie http://forreporters.com/wobtoets
De Stichting Dat zou jij wel willen weten komt met de volgende tips als je niet
direct de gewenste stukken krijgt. Drie problemen, met drie ontsnappings-
routes:

Vinden van data
67
1. Ze snappen het niet helemaal

Er zijn weinig Wob-ambtenaren en de bekendheid van de Wob is binnen de
overheid niet groot. Verzoeken lopen hierdoor veelvuldig vertraging op. Als
indiener van een Wob-verzoek kun je hier helaas weinig aan doen, behalve
contact zoeken met de behandelend ambtenaar. Haal de acht punten van de
Nationale Ombudsman aan (zie par. 2.2.1).
2. Ze leggen zout op slakken

Het juist formuleren van een verzoek is een kunst. Het succes van een Wob-
verzoek hangt heel erg af van de manier waarop je de vraag stelt. Denk rustig
na, wees tactisch, slim, zakelijk, maar niet onvriendelijk. In de video op http://
forreporters.com/formulering worden tips gegeven over de manier waarop je
kan anticiperen op mogelijke obstructies.
3. Je hebt na weken nog geen antwoord

Blijf geduldig.
a. Zoek contact met de instantie waaraan je je verzoek hebt gericht.
b. Bel de ambtenaar na die paar weken elke week, blijf vriendelijk en bouw
een gespreksrelatie op.
c. Probeer erachter komen of de ambtenaar je verzoek serieus in behande-
ling neemt en of hij/zij tegen problemen oploopt waarvoor je begrip kan
opbrengen.
d. Als je na 56 dagen nog geen antwoord hebt, kun je een beroep doen op
de Wet dwangsom. Je kan hiermee de instantie waarbij je je verzoek hebt
ingediend in gebreke stellen. De instantie kan een boete krijgen voor elke
dag dat de beantwoordingstermijn overschreden wordt, tenzij binnen
twee weken dat antwoord alsnog gegeven wordt. Het gaat je in dit scenario
niet zozeer om de boete, maar dat de overheid alsnog binnen twee weken
antwoordt.
2.4 Open data
In dit onderdeel leer je wat open data zijn, waar je deze kunt vinden en maak
je kennis met alle basisregistraties die de overheid heeft. Met open data over
gevaarlijke gaslekken proberen we zélf nieuws te maken.

Figuur 2.41 De droom van elke datajournalist: alle gegevens van de Neder-
landse overheid zijn openbaar, gemakkelijk vergelijkbaar en zon-
der speciale programmatuur toegankelijk (fantasiefoto, met dank
aan @opendatanl)
2.4.1 Wat is het?
Open data zijn publieke, geanonimiseerde gegevens, bedoeld voor hergebruik

door burgers, bedrijven en organisaties. Ouders zien welke scholen volgens de
onderwijsinspectie goed scoren, bedrijven gebruiken weergegevens van het
KNMI voor regenwaarschuwingen, en culturele organisaties tonen hun col-
lecties in Open Cultuur Data, http://forreporters.com/cultuur.
Hoeveel databanken van de Nederlandse overheid zijn er? Dat is onbekend.

Er is niet eens een enigszins betrouwbare schatting te geven. De reden? Er is
‘geen echt duidelijke omschrijving van wat onder overheid moet worden ver-
staan’, zegt het kabinet (NRC, http://forreporters.com/hoeveel/).
Het enige, verouderde cijfer dateert uit 2009: er zijn zeker 3500 overheidsdata-
bases met daarin meer dan 5000 personen, bijvoorbeeld het biometrische pas-
poort, de Verwijsindex Risicojongeren, nationale profielen en allerlei andere
digitale profielen van burgers. Veel van dit materiaal is niet toegankelijk voor
journalisten.

Vinden van data
69
Open data behelzen een ratjetoe aan onderwerpen, zoals wetenschappelijke

onderzoeken, storingen in het elektriciteitsnet, de kwaliteit van het zwem-
water, de precieze plek van alle openbare toiletten in Nederland, de laatste
Kamervragen, begrotingsgegevens, werkloosheidsstatistieken, de visuele
weergave van alle vaarwegen, alle archeologische vindplaatsen of de uitrukbe-
richten van de brandweer Amsterdam-Amstelland.
Figuur 2.42 Drie applicaties die met behulp van open data zijn gemaakt.
Hoge Nood vindt het dichtstbijzijnde openbare toilet, Brugalarm
is een waarschuwsysteem voor watersporters die vooraf willen
weten wanneer de brug sluit en met de Uitrukscanner volg je de
Amsterdamse brandweer in actie
Niet alle informatie is gratis, zoals toegang tot het handelsregister van de
Kamer van Koophandel of het kadaster. De meest succesvolle toepassingen
van open data zijn vaak regionaal gebonden: wat is het weer in deze straat,
waar zitten de beste scholen in mijn buurt, waar vind ik een openbaar toilet,
welke bouwbesluiten zijn er genomen, welke liften zitten vaak vast, hoeveel
gaslekken zijn er of hoeveel allochtonen wonen er in mijn wijk?
Figuur 2.43 Volgens oudere cijfers van http://amsterdata.nl/brandweerfacts.

php kun je in Amsterdam beter maar niet in Kleiburg met de lift
gaan. De lift zat daar in één jaar tijd tachtig keer vast

Waar komen de gegevens vandaan?
De data zijn door de overheid verzameld bij de uitvoering van een publieke
taak en gefinancierd met publieke middelen. Open data moeten voldoen aan
‘open standaarden’: deze moeten bij voorkeur door een computer kunnen
worden gelezen. Het bestand moet zo worden aangeboden dat het gemak-
kelijk vergeleken en bestudeerd kan worden. In de praktijk valt de uitwissel-
baarheid nog tegen, maar langzamerhand ontstaat er meer animo om data in
bruikbare vorm openbaar te maken. Op www.pleio.nl kun je meelezen met
ambtenaren die meer data openbaar willen, en op sociaal netwerk LinkedIn is
er ‘Open Data Nederland’, waarin je in gesprek kan gaan met de mensen ach-
ter open data-initiatieven.
Figuur 2.44 Bij het bronnenonderzoek voor dit boek gebruikten we ook zelf
‘Open Data Nederland’ op LinkedIn, http://forreporters.com/
datagroep
Hoe wordt het aangeboden?
Favoriete bestandsformaten van de overheid zijn CSV, XLS en pdf’s. Met

alleen de eerste twee kun je direct aan de slag in Excel. De gegevens wor-
den meestal in ruwe vorm aangeboden, zoals bijvoorbeeld het aantal hbo-
inschrijvingen per instelling, provincie, gemeente en geslacht:
Figuur 2.45 Overheidsbestand over inschrijvingen op hbo’s, aangeboden in

Excel, http://forreporters.com/hbo

Vinden van data
71
Een handjevol overheidsbronnen probeert data te visualiseren, zoals De

Nieuwe Kaart, http://forreporters.com/nieuwe (totaaloverzicht van geplande
ruimtelijke ontwikkelingen in Nederland) en het Nationaal GeoRegister, een
portaal voor geografische informatie (http://forreporters.com/georegister).
Op www.cbsinuwbuurt.nl kunnen gebruikers zelf hun eigen kaartjes maken
op grond van zelf gekozen statistieken. Handig is dat de geselecteerde data
kunnen worden geëxporteerd naar Excel.
Figuur 2.46 CBS-buurtgegevens, te vinden op www.cbsinuwbuurt.nl
Waar vind ik het?
Open data zijn te vinden bij (rijks)overheid (par. 2.4.2), bij provincies
(par. 2.4.3) en bij gemeenten (par. 2.4.4) en af en toe ook bij andere bedrijven
en organisaties die zelf overheidsinformatie aan elkaar hebben geknoopt en
het resultaat daarvan delen met anderen.
Op papier is http://data.overheid.nl de plek om alle bestanden te vinden waar-

mee je direct aan de slag kan. In de praktijk staan nog lang niet alle gegevens
in deze database.
Via www.hackdeoverheid.nl word je op de hoogte gehouden van nieuwe

datasets, maar helaas niet alle. Computerprogrammeurs, ondernemers en
ambtenaren werken hier samen, bijvoorbeeld om nieuwe apps te maken op
basis van open data. Op dit moment wordt de organisatie ondersteund door
Waag Society, de gemeente Amsterdam, de provincie Noord-Holland, Hoog-
heemraadschap Stichtse Rijnlanden, Netwerk Democratie, Open Know-
ledge Foundation (VK), Hogeschool Rotterdam, Grafisch Lyceum Utrecht,
Dienst Maatschappelijke Ondersteuning Amsterdam, QlikView, NCDO/

OneWorld, Hogeschool voor de Kunsten Utrecht, Amsterdamse Innovatie

Motor, N ationaal Archief, Universiteit van Amsterdam, ArtsHolland.com,
Nederland Kennisland, Eddie the Eagle Museum, SMART Project Space, het
Instituut voor Beeld en Geluid, Nu.nl en de Sunlight Foundation (VS).
Figuur 2.47 Op http://data.overheid.nl staan een paar honderd databases die

je direct mag downloaden. Via een formulier kun je om nog meer
gegevens vragen. We deden dat gedurende een periode van vier
maanden vijf keer en kregen nooit antwoord
Zelf controleren
Daarom moet je regelmatig zelf controleren of er ergens op het web nieuwe

datasets beschikbaar zijn gekomen. Dat doe je zo:
Via Sociale media open data vinden

Ga naar www.socialmention.com en open het Advanced Search-scherm.
Zet bij all these words: “open data”

Zet bij Results from source: All
Zet bij Language: Dutch

Vinden van data
73
Figuur 2.48 Geavanceerd zoeken met Socialmention: http://forreporters.com/

socialmention
Klik op Advanced Search en wacht 30 tot 40 seconden.
Figuur 2.49 Dagverse open data via sociale media: de verwijzingen zijn maar
een paar uur oud
Je kunt links naast de zoekresultaten inzoomen op bronnen en schrijvers:

Figuur 2.50 Selecteer op bijzonderheid
Ook handig is het knopje ‘Email Alert’:
Figuur 2.51 Alle resultaten zijn ook te downloaden als Excel-bestand
Hiermee krijg je elke dag een overzicht per mail toegestuurd.
Via Google bijhouden

Websites bergen informatie doorgaans logisch op. Ze zetten informatie over
open data in de map Open Data, Opendata of Open-Data. Met een trucje kun
je Google vragen om alleen de informatie uit die mappen te laten zien, onge-
acht de bron. Dat doe je zo:
inurl:opendata site:nl
inurl:open data site:nl
inurl:open_data site:nl
Het gaat je vooral om actuele informatie. Doe eerst een zoekactie en kies dan
links ‘Meer opties’ en je ziet

Vinden van data
75
Figuur 2.52 Selecteer op datum in Google
Kies nu bijvoorbeeld ‘Afgelopen week’ wanneer je alleen de bronnen wilt zien

die Google de afgelopen zeven dagen voor het eerst heeft geïndexeerd.
Figuur 2.53 Trakteer jezelf regelmatig op nieuwe open data
2.4.2 Rijksoverheid
De grootste openbare databank van de overheid, het Centraal Bureau voor

Statistiek (CBS), bevat maar liefst 15.000.000.000 gegevens. Alle cijfers die het
CBS publiceert, zijn gratis beschikbaar. StatLine, de elektronische databank

van het CBS, bestaat uit tabellen die naar thema geordend zijn. Uit deze tabel-
len zijn selecties samen te stellen die je kunt exporteren naar Excel.
Figuur 2.54 Statline in actie
De belangrijkste onderwerpen bij Statline zijn bevolking, bouwen en

wonen, economie, inkomen, arbeid en sociale zekerheid, onderwijs, veilig-
heid en recht, cultuur en vrije tijd, internationale handel, prijsontwikkelingen,
gezondheid en welzijn. Al deze onderwerpen kunnen ook op regionaal
niveau worden getoond.
StatLine wordt dagelijks aangevuld met informatie die gedurende het jaar
door bedrijven en instellingen, personen en gezinnen beschikbaar komt. Uit-
gangspunt is dat maandcijfers de maand daaropvolgend worden uitgebracht.
Figuur 2.55 Vergelijk CBS-cijfers: http://forreporters.com/dutchstats

Vinden van data
77
De basisregistraties
In de wet staan dertien basisregistraties van de overheid, waarvan duidelijk is

omschreven welke gegevens ze bevatten en welk doel ze hebben. We hebben
alle interessante gegevens van deze Moeders van Alle Overheidsbestanden
voor je verzameld op http://forreporters.com/overzicht. Hier zie je alle dertien
met hun bijbehorende afkorting:
Afkorting Naam
1. GBA Gemeentelijke basisadministratie
2. RNI Register Niet Ingezetenen
3. NHR Handelsregister
4. BAG Basisregistratie Adressen en Gebouwen
5. BRT Basisregistratie Topografie
6. BRK Basisregistratie Kadaster
7. BRV Basisregistratie Voertuigen
8. BLAU Basisregistratie Lonen, Arbeidsverhoudingen en Uitkeringsverhoudingen (i.o.)
9. BRI Basisregistratie Inkomen
10. WOZ Basisregistratie Waarde Onroerende Zaken
11. BGT Basisregistratie Grootschalige Topografie (i.o.)
12. BRO Basisregistratie Ondergrond (i.o.)
13. BRP Basisregistratie Personen (i.o.) (combinatie van GBA en RNI)
Welke bestanden zijn openbaar en wat kun je er zoal mee? Dat zie je in het
volgende schema:
Afkorting Journalistiek gebruik Openbaar?

1. GBA Indirect – zie BRK Nee
2. RNI Niet toegankelijk Nee
3. NHR Bedrijfsgegevens Ja, deels betaald
4. BAG Leefomgeving Ja, gratis
5. BRT Geografische kaarten Deels gratis
6. BRK Hypotheekaktes, GBA-data, schepen Ja, betaald
7. BRV Kentekenregistraties Ja
8. BLAU Niet toegankelijk Nee
9. BRI Niet toegankelijk Nee
10. WOZ Belasting Onroerende zaken Deels via BRK
11. BGT Infrastructuur Nederland In oprichting
12. BRO Geologie/Ondergrond In oprichting
13. BRP Indirect, zie BRK In oprichting

We hebben voor elke database opgezocht wat de bijzonderheden zijn en of

ambtenaren ook via LinkedIn een discussiegroep hebben.
Afkorting Bijzonderheden LinkedIn Open data
1. GBA http://forreporters.com/ http://forreporters.
gbauitleg com/gba
2. RNI http://forreporters.com/rni
3. NHR http://forreporters.com/kvk http://forreporters. http://forreporters.
com/NHR com/kvkopen
4. BAG http://forreporters.com/bag http://forreporters. http://forreporters.
com/bgalinkedin com/all
5. BRT http://forreporters.com/ http://forreporters. http://forreporters.
top10 com/brt2 com/all
6. BRK http://forreporters.com/brk http://forreporters. http://forreporters.
com/brk2 com/dump
7. BRV http://forreporters.com/rdw http://forreporters.
com/league
8. BLAU http://forreporters.com/uwv
9. BRI http://forreporters.com/bri
10. WOZ http://forreporters.com/ http://forreporters.
eigen com/woz
11. BGT http://forreporters.com/bgt http://forreporters.
com/bgt2
12. BRO http://forreporters.com/bro http://forreporters.
com/grond
13. BRP http://forreporters.com/brp
Twee registraties bespreken we wat uitgebreider omdat ze onmiddellijk prak-

tisch nut hebben voor journalisten: het handelsregister en het GBA.
Basisadministratie (GBA)
De gemeentelijke basisadministratie persoonsgegevens (GBA) is misschien

wel de Moeder van Alle Databestanden. Vroeger stond het bekend als het
Bevolkingsregister. In dat register staan de persoonsgegevens van iedere
Nederlander. Sinds 2007 zijn overheidsdiensten verplicht de GBA te gebrui-
ken om te voorkomen dat elke dienst zijn eigen persoonsadministratie heeft.

Vinden van data
79
Welke gegevens?
Het GBA bevat de volgende gegevens:

• naam, voornamen, geboortedatum, geboorteplaats en geboorteland;
• gegevens over de ouders;
• gegevens over huwelijk en geregistreerd partnerschap;
• gegevens over kinderen;
• gegevens over nationaliteit en eventueel over het verblijfsrecht;
• verblijfplaats (adres);
• het burgerservicenummer (BSN).
De database bevat fouten. Bij 5% van alle personen staan foutieve gegevens;
oorzaak hiervan is meestal het niet opgeven van een verhuizing. Het gaat om
ruim 800.000 Nederlanders (gegevens 2009).
Waarom bestaat het?
De overheid en steeds meer andere belanghebbenden willen zeker zijn van de

adressen van individuele burgers.
Wie mag er bij?
Dat zijn:
• alle overheidsdiensten die daarvoor toestemming hebben, bijvoorbeeld
de Belastingdienst, Justitie (bekeuringen), de Rijksdienst voor het Weg
verkeer en de Sociale Verzekeringsbank;
• notarissen, advocaten, curatoren, pensioenfondsen, onderwijsinstellingen,
gezondheidsinstellingen, banken, verzekeraars, maatschappelijke diensten,
Bureau Kredietregistratie, waterschappen;
• wetenschappers, bijvoorbeeld voor bevolkingsonderzoeken naar borst-
kanker.
Wat kun je ermee?
Persoonsgegevens zijn belangrijk voor het dagelijkse werk. Je wilt zeker weten
dat je de juiste persoon te pakken hebt. Journalisten hebben geen toegang
tot het GBA, maar via een omweg is een gedeelte van de adresgegevens van

Nederlanders met een eigen huis toch te achterhalen. Dat komt omdat het
kadaster een rechtstreekse koppeling heeft met het GBA. In het GBA mag je
niet zoeken, in het kadaster wel (tegen betaling). Zo krijg je alsnog toegang tot
miljoenen adresgegevens.
Het Handelsregister
Deze database van de Kamer van Koophandel bevat alle ingeschreven bedrij-
ven in Nederland en de stukken die ze volgens de wet moeten produceren,
zoals jaarverslagen, concernrelaties, deponeringen, statuten en bedrijfs
omschrijvingen.
Welke gegevens?
Het Handelsregister bevat:

• de naam en het adres;
• indien aanwezig: telefoonnummer, faxnummer, e-mailadres, internet-
adres, correspondentieadres;
• de gegevens van vestigingen;
• functionarissen en tekenbevoegden;
• de curator, bij een faillissement;
• het aantal medewerkers, inclusief eigenaar en meewerkende familieleden;
Bij eenmanszaken, vof’s, cv’s en maatschappen zijn de privéadressen van de

eigenaar, vennoten en maten openbaar omdat zij hoofdelijk aansprakelijk zijn
voor de onderneming.
Privéadressen van functionarissen van rechtspersonen (bijvoorbeeld de

bestuurder van een bv) zijn niet openbaar. Alleen medewerkers van bestuurs-
organen, advocaten, notarissen en deurwaarders kunnen deze gegevens bekij-
ken. Dit is zo geregeld in de gewijzigde Handelsregisterwet. Vroeger waren de
gegevens wel openbaar. Soms loont het de moeite om historische stukken op
te vragen om alsnog het volledige adres te vinden in de hoop dat de persoon in
kwestie na al die jaren nog niet is verhuisd.

Vinden van data
81
Waarom bestaat het?
Ondernemers en particulieren kunnen met het Handelsregister achterha-

len met wie zij zaken doen. Dit bevordert de rechtszekerheid in het handels
verkeer.
Gegevens over de samenstelling van ondernemingen en rechtspersonen ver-
groten de transparantie.
Overheden kunnen gegevens over bedrijven en rechtspersonen uit het
Handelsregister halen en hoeven deze niet meer bij de ondernemer na te vra-
gen. Dat vermindert de administratieve lasten.
Wie mag er bij?
Iedereen. Het zoeken op handelsnaam, adres of op Kamer van Koophandel-

nummer is gratis. Aan het bestellen van gegevens, zoals een uittreksel of
adressenbestand, zijn kosten verbonden.
Wat kun je ermee?
De Branchewijzer (zie http://forreporters.com/branches) is een overzicht per

branche, gebaseerd op het aantal inschrijvingen bij het Handelsregister. Het
is een handig instrument om bijvoorbeeld snel een overzicht te krijgen van
beroepen die in de lift zitten en de professies waarbij het bijltje steeds vaker
wordt neergegooid. De indeling van de Branchewijzer is als volgt:
Bouw
Detailhandel
Financieel
Groothandel
Horeca
Industrie
Landbouw, bosbouw en visserij
Overig
Persoonlijke diensten
Vervoer
Zakelijke diensten

Helaas is deze indeling niet gebruiksvriendelijk. Zo gooit de Branchewijzer,

gebaseerd op een indeling van het Centraal Bureau voor Statistiek, doodleuk
glazenwassers en ongediertebestrijders op één hoop. En de imkers worden
in dezelfde branche geplaatst als hertenhouders. Gelukkig hebben de meeste
branches geen last van vervuiling. Probeer maar eens een rijschool terug te
vinden. Die staat onder Overig -> Onderwijs.
Kun je de branche niet snel genoeg vinden, type deze dan in op de algemene
zoekmachine www.kvk.nl, in dit voorbeeld: rijschool of rijscholen. Verfijn
vervolgens je resultaat door op ‘Informatie en advies’ te klikken. Je komt dan
alsnog uit bij een overzicht. Je ziet dan dat in de laatste drie maanden van 2011
bijna 400 rijscholen over de kop zijn gegaan, informatie die wellicht de basis
kan vormen voor een verhaal.
De Kamer van Koophandel maakt voor de weergave van data gebruik van
gratis Google-tools, te weten http://forreporters.com/chart en http://forrepor-
ters.com/combo.
2.4.3 Provinciale data
Vrijwel elke provincie is bezig met een open data-initiatief. We noemen er een
paar:
• provincie Flevoland: www.flevolandopentdata.nl;
• provincie Zuid-Holland: http://forreporters.com/zuidholland;
• provincie Noord-Holland: http://forreporters.com/noordholland;
• provincie Utrecht: http://forreporters.com/utrecht.
Voor geografische informatie is http://forreporters.com/provincies een goede

start.
Laten we eens aan de slag gaan met een provinciaal bestand. Netwerkbedrijf
Alliander, in handen van Nederlandse gemeenten en provincies, publiceert
vrijwillig databases met daarin de storingen in het gas- en elektriciteitsnet.
We gaan grasduinen in de gaslekken van de provincie Flevoland.
Ga naar Flevoland Opent Data, http://forreporters.com/7m8l, en klik op
Dataset ‘Gas storingen Flevoland’.
Download het bestand en open het in Excel. Je hoeft niets te converteren.
Klik links van cel A1 en ga naar Gegevens -> Filteren. Hiermee zet je het filter
aan.

Vinden van data
83
Stappenplan open data
Het gaat in dit voorbeeld om gaslekken, maar de volgende vijf beginner

stappen zijn toe te passen op vrijwel elke andere set open data.
1. Bewaar de data
Het belangrijkste advies is: bewaar de data. Schrijf ze weg naar je harde schijf
of zet ze op een USB-stick of mobiele schijf. In de wereld van open data is het
niet ongebruikelijk dat data opeens verdwijnen van het web omdat een ambte-
naar of politicus het achteraf gezien niet zo verstandig vond om tot openbaar-
making over te gaan.
De auteurs van het boek maakten mee dat gegevens werden verwijderd toen
we vroegen om een nadere toelichting op de opbouw van de cijfers. De amb-
tenaar antwoordde: ‘Als het u niet duidelijk is, zal ik het wel van de site halen.’
2. Vraag door
Een goed open databestand bevat een keurige uitleg van alle begrippen.
Helaas ontbreekt de uitleg vaak of is deze onduidelijk of niet ter zake. Neem
daar geen genoegen mee. Als jij het niet snapt, hoe moet je het dan je lezer of
kijker uitleggen?
Neem de omschrijvingen boven de ruim twintig kolommen door. Begrijp je
alles? Weet je wat een gasdruk is? Wat is een inlaatdruk? Wat betekent deel-
systeem? Hoe hoog moet die zijn bij normaal gebruik? Wat bedoelen ze met
aantal verbruikersminuten?
Helaas word je niet veel wijzer van het derde Tab-blad ‘Verklaring’. Schroom
niet het bedrijf te mailen of te bellen als je het niet snapt. Pas daarna kun je
aan de slag met grasduinen. Een goed open databestand bevat een keurige uit-
leg van alle begrippen. Helaas moet je bij dit bestand zelf aan de slag.
3. Extreme waarden zoeken

De beste manier om extremiteiten en fouten in open data op te sporen is: sor-
teer de kolommen van hoog naar laag en omgekeerd. Daardoor zie je waarden
die niet kunnen kloppen of vreemd ogen, zoals de hoge waarde in kolom AU.
Vraag de organisatie of deze uitschieters naar boven en beneden correct zijn
en, zo ja, informeer naar de oorzaak van deze extremiteiten.
4. Bepaal missende data

Als je het Tijdstip Begin Onderbreking in kolom AN goed bekijkt, zie je dat
het ook Lege Waarden bevat. Hoe kan dat? Een storing heeft toch meestal
een begin en een einde? In kolom AK zie je het Aantal Getroffen Klanten. Dat

veld is in tientallen gevallen leeg. Wat betekent dat? Betekent dat er 0 klanten
betrokken waren? Of zijn de waarden per ongeluk weggevallen? Als je boven-
dien kolom AU sorteert ( Was de veiligheid in geding?), dan vind je meer dan
dertig gevallen waarbij er gevaar was, maar dat er geen klanten bij betrok-
ken waren. Hoe kan er gevaar zijn als niemand in gevaar is? Of bedoelt het
netwerkbedrijf misschien iets anders met ‘veiligheid in geding’? Of ontbreken
de gegevens van klanten van wie de veiligheid in het geding is?
Soms weet je niet wat je niet weet. Lees altijd de Verklaring of Toelichting
omdat daar soms velden staan genoemd die jij helemaal niet ziet in Excel
omdat ze verwijderd zijn. Dat is ook het geval met ons bestand van gaslekken:
Figuur 2.56 Verklarende tabel: vraag na wat je niet snapt
In de verklaring staan meer dan 54 velden, terwijl jij er nog geen dertig voor je
neus hebt. De meest interessante is:
IND_ZEER_URGENT Storing wordt door intake als zeer urgent gezet.
Deze kolom komt niet terug in de cijfers voor 2010, wel voor 2011. Vraag er
alsnog naar.
Je ziet in kolom W, over de oorzaken van de gaslekken, soms ook staan ‘Anders,
toelichting bij opmerkingen’. Maar het veld Opmerkingen ontbreekt. Dit moei-
zame proces is niet voorbehouden aan gaslekken. We hebben nog nooit een
open databestand gevonden dat compleet is of geen fouten bevat. Het is aan jou
om de missende gegevens op te vragen en de fouten te h erstellen.
5. Maak een weging

Wat vind jij de belangrijkste kolom in dit bestand? Begin altijd daar met gras-
duinen. Sorteer de meest interessante kolom en vergelijk deze dan met andere

Vinden van data
85
kolommen. Voorbeeld: ga naar de kolom waarin staat of de veiligheid in het

geding was (AL). Sorteer deze op JA:
Figuur 2.57 Filteren
Laten we deze gevaarlijke gaslekken onderzoeken door de oorzaken erbij te

betrekken. Als je heel goed kijkt, zie je dat de netwerkbeheerders maar liefst
twee kolommen hebben voor de oorzaken: de fout zat in een hoofd- of aansl-
uitleiding (kolom W) of in de gasmeteropstelling zelf (AE). Sorteer kolom W:
Figuur 2.58 Veel aanlegfouten zijn de oorzaak van gaslekken
Je ziet al gauw dat elf van de gevaarlijke gaslekken zijn ontstaan door aan-
legfouten in het verleden. Als je kolom AE sorteert, tel je dat door verkeerde

installatie van de gasmeter zelf vijftien keer aanlegfouten zijn gemaakt. Het
is een vermoeiende klus om dit per keer per categorie te moeten uitrekenen.
Daarvoor zijn draaitabellen uitgevonden: vergelijk zonder zelf te hoeven reke-
nen je favoriete gegevens.
6. Vergelijken
We willen alleen werken met de gaslekken waarbij de veiligheid in geding
is geweest. Zorg ervoor dat je alleen kolom AL gefilterd hebt op JA. Kopieer
dit hele bestand naar een nieuw werkblad – vergeet niet het plakken te laten
beginnen in A1. Zet Gegevens – Filteren aan. Klik op CTRL-A (markeer alles)
en ga dan naar Gegevens – Draaitabel en klik op OK. We komen in het vol-
gende hoofdstuk nog uitgebreid terug op de draaitabel. Voor nu gaat het ons
om het beantwoorden van de volgende vraag:
Waar komen gevaarlijke gaslekken het meest voor: bij mensen thuis of in de
verbindingen?
Klik eerst op ‘Oorzaak Hoofd- en Aansluitleiding’ en dan op ‘Oorzaak Gas-

meteropstelling en Gasstations’. De waarden worden vanzelf ingevuld.
Figuur 2.59 Werken met een draaitabel
Je krijgt nu het volgende overzicht te zien in Excel:
Figuur 2.60 De oorzaken nu beter in beeld

Vinden van data
87
Laten we kijken naar de oorzaken van de 104 gaslekken in leidingen. Ook

nu maken we een draaitabel. Klik eerst op Gegevens – Draaitabel zodat je
de Draaitabel-maker weer krijgt te zien. Maak alles leeg. Sleep nu ‘Oorzaak
Hoofd- en Aansluitleiding’ naar het derde zwarte vierkantje met de tekst Rij-
labels. Sleep nu opnieuw ‘Oorzaak Hoofd- en Aansluitleiding’, dit keer naar
het vierde vakje, Waarden. Je ziet nu dit:
Figuur 2.61 Onderverdeling van de oorzaken
Het is misschien handiger om de getallen in percentages om te zetten. Doe dat zo:
Klik in het vierde vakje op de kleine letter i.
Ga naar ‘Gegevens weergeven als’ en kies ‘% van totaal’.
Figuur 2.62 Maak een vergelijking in procenten

Sorteren doe je door op Gegevens -> Sorteren te klikken.
Aantal van OORZAAK HOOFD- EN AANSLUITLEIDING

Totaal
Graafwerk 45.19%
Corrosie / veroudering 20.19%
Aanlegfout (in het verleden) 10.58%
Werking van de bodem 10.58%
Anders, toelichten bij opm. 9.62%
Puntbelasting 1.92%
Onbekend, ondanks onderzoek 0.96%
Productfout (materiaal/maat..) 0.96%
Figuur 2.63 Graafwerk is de voornaamste boosdoener
Je ziet dat graafwerk de meest voorkomende oorzaak is van gevaarlijke gaslek-

ken.
Het echte graafwerk – het jouwe – moet nog beginnen. Met behulp van open
data help je jezelf aan interessante vragen, niet aan het verhaal zelf.
We doen nu hetzelfde voor de oorzaken van gaslekken nabij gasmeters:
Aantal van OORZAAK GASMETEROPSTELLING EN GASSTATIONS

Rijlabels Totaal
Slijtage / veroudering 55.71%
Aanlegfout (in het verleden) 21.43%
Inwendig defect 11.43%
Anders, toelichten bij opm. 5.71%
Onbekend, ondanks onderzoek 1.43%
Productfout (materiaal/maat..) 1.43%
Vandalisme / diefstal 1.43%
Vervuiling (filters, kleppen) 1.43%
(leeg) 0.00%
Figuur 2.64 Nu is slijtage de voornaamste boosdoener
Hier zie je dat de gasmeter vooral lekt vanwege ouderdom: betekent dat mis-
schien dat het netwerkbedrijf te lang heeft gewacht met vervanging?

Vinden van data
89
7. Visualiseer je data
Het is misschien interessant om op een kaartje te zien op welke plekken de
graafmachines de gasleiding het vaakst beschadigen. Dat gaan we doen met
de gratis webdienst Google Fusion Tables waarmee je online data kan bewer-
ken en visualiseren. We moeten eerst in Excel de andere oorzaken weghalen.
Ga naar kolom W, klik op het pijltje en zorg ervoor dat alleen GRAAFWERK
aanstaat. Markeer alles met CTRL-A, open een nieuwe werkmap en plak met
CTRL-V. Schrijf dit bestand weg als graafwerk.xls.
Ga naar http://forreporters.com/tables en klik op het tekentje CREATE. Kies

daarna MORE en dan Table (beta). Kies met Choose File het bestand graaf-
werk.xls en upload het met NEXT. Klik weer op NEXT en daarna op Finish.
Je krijgt nu dit te zien:
Figuur 2.65 Geel? Dan snapt Google dat het om een plaats gaat
Je ziet dat de plaatsnamen opeens geel zijn geworden. Dat komt omdat Google
Fusion snapt dat dit plaatsnamen zijn. Alleen, we willen heel precies kunnen
zien waar de gaslekken zijn veroorzaakt, het liefst op postcode. Dat kan alleen
als Google weet dat de waarden onder POSTCODE geografische gegevens
zijn. Dat doe je zo:
Figuur 2.66 Aan de slag met postcodes

Klik op Modify columns en klik op Postcode. Verander onder Type het type
van Text naar Location, vergeet niet Save te klikken.
Figuur 2.67 Google weet nu dat POSTCODE een locatie-veld moet zijn …
De postcodes worden nu ook geel ten teken dat Google de gegevens voortaan
als geografisch beschouwt:
Figuur 2.68 … en laat zien dat het de geocodes snapt
Klik nu op Visualize – Map. Het bestand wordt nu ingelezen op een kaart.

Wacht even totdat het klaar is. Verander nu GEMEENTE in POSTCODE:
Figuur 2.69 Geocoderen in actie

Vinden van data
91
Dit duurt een volle minuut. Zoom in naar Flevoland:
Figuur 2.70 Je maakt je eigen kaart in een handomdraai
Je ziet nu meteen dat de meeste graafwerkzaamheden niet ergens in de middle

of nowhere plaatsvonden, maar binnen de bebouwde kom. Zonder visualise-
ring had je dit nooit zo snel gezien. Vooral bij graafwerkzaamheden in Swif-
terbant, Zeewolde, Biddinkhuizen, Lelystad en Almere Haven zijn gaslekken
ontstaan door graafwerkzaamheden waarbij de veiligheid in het geding was.
Figuur 2.71 Inclusief de bijzonderheden
Hoeveel databanken van de Nederlandse overheid zijn er? Dat weet niemand.
Het enige, verouderde cijfer dateert uit 2009: er zijn zeker 3500 overheids
databases met daarin meer dan 5000 personen, bijvoorbeeld het biometrische
paspoort, de Verwijsindex Risicojongeren, nationale en allerlei andere digitale
profielen van burgers. Veel van dit materiaal is niet toegankelijk voor journa-
listen.

Er is niet eens een enigszins betrouwbare schatting te geven. De reden? Er is

‘geen echt duidelijke omschrijving van wat onder overheid moet worden ver-
staan’, zegt het kabinet (NRC, http://forreporters.com/50g4). Daarom zetten
wij zelf maar de belangrijkste overheidsdata voor je op een rijtje.
Hack de Overheid probeert bestaande bronnen te verbeteren, zoals openkvk.

nl, of meer inzicht te gegeven in publieke uitgaven, zie http://forreporters.
com/zl9o.
2.4.4 Gemeentelijke data
Het gebruik van open data in gemeenten is sterk in opkomst. Een actueel
overzicht van bruikbare datasets staat op http://forreporters.com/rwrp.
Door de openbaarmaking zijn nieuwe producten mogelijk, zoals in figuur 2.72

is te zien. In Amsterdam is een website voorhanden die open data gebruikt
voor applicaties voor mobiele telefoons, http://forreporters.com/x6m5.
Figuur 2.72 Gemeenten in de weer met applicaties op basis van open data
Om welke gegevens kun je vragen bij gemeenten? Uit een onderzoek onder
alle gemeenten blijkt dat onderstaande lijst met meer dan twintig datasets
doorgaans met een telefoontje naar de juiste afdeling te verkrijgen is:

Vinden van data
93
Onderwijs/educatie Toerisme en cultuur

Onderwijsinstellingen 1. Toeristeninformatie
Natuureducatie 2. Monumenten
Schoolvervoer 3. Kunst in openbare ruimte
4. Evenementenkalender
Bevolking/demografie
1. Buurtmonitor statistieken Milieu en afval
2. Burgerjaarverslag cijfers 1. Afvalkalender
3. Statistiek van afdeling 2. Ondergrondse containers
onderzoek/statistiek 3. Glasbakken/plastic bakken
4. Bodemsaneringen
Stadsplanning en geografie 5. Riolering (onderhoud, loop)
1. Werk in uitvoering (o.a. GWW) 6. Hemelwaterafvoer
2. Bouwvergunningen
3. Woningbouwverenigingen Voorzieningen
4. Stadsvernieuwingsprojecten 1. Locaties van voorzieningen
(bushaltes, winkelcentra,
Openbaar bestuur, belasting en brievenbussen etc.)
budgetten 2. Openbare gebouwen
1. Ontvangen Wob-verzoeken 3. Openbare toiletten
en de antwoorden daarop
2. Nieuwsfeed-website Verkiezingen
3. Veel gestelde vragen 1. Stembureaus
4. Raadsverslagen 2. Verkiezingsuitslagen
5. B&W-verslagen 3. Kandidatenlijsten
6. Vacatures gemeente
7. Openingstijden gemeentehuis Gezondheid
8. Vergunningen/beschikkingen 1. Gezondheidsvoorzieningen
9. Gemeentelijk adresboek 2. Persoonsgebonden budget
10. Product-/dienstencatalogus (verouderd)
11. Burgerjaarverslag cijfers 3. Thuiszorg
12. Aanbestedingen en gunningen
inkoop Verkeer en vervoer
13. OZB, en andere lokale b elastingen 1. Locatie bushaltes en busroutes
2. Wegafsluitingen
Sport en recreatie 3. Fietsroutes, fietsenstallingen
1. Sportvoorzieningen 4. Parkeren (locaties, tarieven, zones,
2. Groenvoorzieningen real time beschikbaarheid)
3. Parken 5. Taxistandplaatsen

6. Verkeerstellingen/ Sociale zaken

verkeersstromen 1. Subsidies
2. Kwijtscheldingsregelingen
Economie en arbeidsmarkt 3. Bijstandsvoorzieningen
1. Winkelopeningstijden 4. Jeugdwerkinstellingen
2. Bedrijvigheid in de stad (zoals 5. Jeugdzorginstellingen
oppervlakte winkelaanbod)
3. Bedrijventerreinen
4. Arbeidsmarktstatistieken
2.5 Scrapen van data
Gespecialiseerde datajournalisten bouwen zelf de tools om de data te scrapen

– dat is informatie van een website halen om het vervolgens om te zetten naar
een databaseformaat. Zelf besteden we deze klus liever uit aan programmeer-
diensten als vWorker en Mechanical Turk, zoals besproken in paragraaf 1.7.
Voor bepaalde klussen is het met behulp van speciale software ook zelf te
doen. In deze paragraaf bespreken we hoe Website Watcher je het makkelijker
kan maken, maar er zijn ook andere tools, zoals OutWit Hub. Zie http://for
reporters.com/cdfd voor een uitgebreider overzicht.
2.5.1 Website Watcher
Twee journalisten willen de contributieprijzen weten voor voetbalteams van

pupillen, voor Den Haag, Utrecht, Rotterdam en Amsterdam. Het blijkt een
tijdrovende klus. Even denken de twee aan een belronde, maar dat zou waar-
schijnlijk 400 telefoontjes kosten. Ze besluiten het via internet af te handelen
in de hoop dat dit efficiënter zal gaan. Veel sites zijn moeilijk doorzoekbaar, de
contributie staat op de meeste pagina’s diep verscholen, en uiteindelijk moet
elke website handmatig worden bezocht en bekeken. De klus duurt uiteinde-
lijk twee weken. Achteraf gezien zou bellen sneller zijn geweest.
Waarom duurde het zo lang? De gegevens zijn niet eenduidig gestructureerd.

De ene voetbalclub meldt de tarieven netjes onder het kopje Contributie:

Vinden van data
95
Figuur 2.73 Ongelijksoortige formulieren …
De andere club geeft het lidmaatschapsgeld pas vrij in een aanmeldings

formulier dat de vorm heeft van een pdf:
Figuur 2.74 Nog meer ongelijksoortige formulieren …
Wie heel goed kijkt, ziet dat de ene voetbalclub spreekt van E-pupillen,
de andere van E – pupil, met een spatie voor en na het koppelteken. Wie in
Google alleen ‘E-pupil’ had ingetikt en niet ‘E – pupil’ had deze bron niet
gevonden. Het woord ‘contributie’ staat wel in beide documenten, maar weer
andere voetbalclubs spreken liever van prijzen.
Dat lijkt muggenzifterij en dat is het ook. Een computer is nu eenmaal pre-
cies. In het ene document wordt het woord euro voluit genoemd, in het
andere komt het niet eens voor. Wie zoekt op het euroteken, vindt nooit wat in
Google. Het is niet toegestaan daarop te zoeken. (Ook zoeken naar negatieve
waarden gaat niet. Tik maar eens -1 in Google: 0 resultaten.)

Het kan ook anders:

1. Vraag via marketing@knvb.nl of er misschien een bestaand overzicht
bestaat van alle pupillenteams met de links naar de betreffende website –
meer hoeft in dit stadium niet. Hiermee bespaar je uren tijd om uit te vis-
sen wat de links zijn voor welke club.
2. Stop alle links in het Spartaans ogende, maar goed werkende Website Wat-
cher, zie http://aignes.net/. Haal alle voetbalclubs naar je eigen harde schijf.
Tegenwoordig is het gebrek aan schrijfruimte geen probleem meer. In dit
voorbeeld ben je ongeveer 900 Mb kwijt.
3. Met het programma kun je opeens wel gaan zoeken op het euroteken, wat
Google niet doet. Het hulpje stelt je bovendien in staat om de zoekresulta-
ten te beperken tot één voetbalclub en maakt ook gebruik van het krach-
tige NEAR-commando: zoek een bepaalde term op in de buurt van een
andere term. Na een uur of vier heb je een nog niet opgeschoonde lijst
die zich gemakkelijk naar Excel laat exporteren. Je hebt je eigen database
gemaakt in plaats van die van Google te gebruiken.
4. Je onderzoekt nu handmatig waar de omissies of fouten zitten en zoekt de
bijpassende gegevens op, doorgaans door te bellen.
Dit proces is voor geoefende datajournalisten in een dag te doen. Groot voor-
deel is dat je dit onderzoekje een jaar later kunt herhalen en dan kunt zien
vergelijken waar de grootste prijsdalingen of -stijgingen zijn door de prijzen
met elkaar te vergelijken. De techniek stelt je bovendien een staat om per voet-
balclub automatisch een mailtje te krijgen als de contributie verandert. Het
maakt dat je zonder de hulp van Google databases kunt maken en dat opent
de deur naar nieuwe ideeën. Een paar suggesties:
• monitor de prijzen van hotels;
• krijg inzicht in de details van een supermarktoorlog;
• ontwaar (doorgaans niet geoorloofde) prijsafspraken in bepaalde branches;
• ontdek of een bepaalde gemeente nieuwe documenten online heeft gezet;
• krijg als eerste een signaal als een bepaald trefwoord op het web wordt gezet.
Het vakblad Medisch Contact haalde de uitspraken van het Tuchtcollege voor
de Gezondheidszorg naar de harde schijf en liet er een zoekmachine op los.
Daaruit bleek dat de verschillen in tuchtrechtspraak per regio soms zeer groot
zijn en werd ook duidelijk welke vergrijpen het vaakst voorkomen in welke
beroepsgroepen.
2.6 Vrij zoeken
Een van de auteurs van dit boek trok op de Dag van de Persvrijheid een feeste-
lijk pak aan in een poging om ter plekke interessante, nieuwe databases te vin-

Vinden van data
97
den. Na twee uur bleef de teller op twintig bronnen steken, meer dan genoeg
als eerste oogst. De truc? Besef dat Google niet alle databases van de wereld
ziet. Soms ziet de zoekmachine alleen maar de voordeur van een website en
niet de achterkamertjes.
Het is alsof Google van een flatgebouw alleen de eerste drie etages ziet,
daarna gaat het mis. Prima databases worden door Google genegeerd. Een
voorbeeld: op www.advocatenorde.nl staan bijna alle advocaten van Neder-
land in een database. Stel. je zoekt mr. G.Th. Offreins. Met het commando
site:advocatenorde.nl bevraag je direct wat Google van deze database ziet.
Het onthutsende antwoord: niets.
Figuur 2.75 De database is niet gevonden …
Ga nu naar de database zelf op www.advocatenorde.nl/consumenten/vind-uw-

advocaat. Type daar alsnog de naam van de advocaat in, mr. G.Th. Offreins.
Figuur 2.76 … en bestaat toch …
Opeens krijg je wel zijn gegevens te zien.

Figuur 2.77 … door goed te zoeken
Hoe kan het dat de database van de advocaten alleen bij een rechtstreeks
bezoek antwoord geeft, maar niet via Google? Google kan domweg niet zien
wat er in de database staat.
Op de ‘voordeur’ van de advocatensite staat alleen maar ‘Vind uw advocaat’
met een serie lege velden en wat omschrijvingen. Pas als een mens een naam
van een advocaat of een woonplaats intikt, opent de database zich. Dyna-
misch gegenereerde zoekresultaten bestaan pas als eerst een mens iets aan
de computer heeft gevraagd. Google heeft geen flauw idee wat er in de witte
zoekvelden moet worden ingetikt. De database geeft zijn inhoud niet prijs aan
Google.
Je hebt maar één manier om dit soort verborgen databases te vinden: door de
voordeur te voorspellen. Stel, je zoekt een databases met daarin patenten. Veel
zekerheden heb je niet: op de site zelf zal een knop staan met het woord Search
en waarschijnlijk ook Patents. Tik deze twee woorden in: search patents. Je
krijgt nu in de top tien drie grote databases te zien met daarin patenten. Hier-
onder geven we een checklist om snel zelf onbekende databases te vinden:
• Het probleem: databases blijven verborgen omdat Google er niet in kan
kijken.
• Waarom dit zo is: alleen de voordeur is soms zichtbaar voor Google, en
wat bijkamertjes, de hoofdkamers niet.
• De oplossing: beschrijf nauwkeurig de voordeur en zoek pas in de database
verder.
VAGE TERM + ‘IETS’ MET ZOEK
Beschrijf de voordeur van de zoekmachine van de database met een hoofd-

term (bijvoorbeeld akte, advocaat, huis, bedrijf, wereldwijde vluchten, arts,
statistiek, cijfers etc.) en neem een term die over het zoeken gaat, bijvoorbeeld

Vinden van data
99
zoek, zoeken, search, find, trace, database, databank, register, track, search
by, zoek naar, select, selecteer, index, online, enter name, naam, vind, over-
zicht, lijst.
Voorbeelden van vereenvoudigde zoekacties om de voordeur van databases te

vinden:
Ik zoek: Ik tik: Verborgen database:

Mr. Bergsma zoek advocaat Orde van Advocaten
Professor in economisch zoek wetenschapper Verwijzing naar NARCIS
strafrecht
Hemant Vankawala doctor finder AMA-database
Maker van Stormfront.org zoek eigenaar website Domeindelver
Vervuiling ondergrond databank ondergrond Databank Ondergrond
Aalst Vlaanderen
Sterfdatum Willem zoek begraafplaatsen Graftombe.nl
Haaksma, Anjum
Google Payment search companies Kentucky Secretary of State,
Corporation, Kentucky zoekmachine
Alle KLM-vluchten naar VS ‘track flight’ Flightstats.com
+ hoogte
Fiscale giften aan moskeeën Zoek uitspraak Rechtspraak.nl
aftrekbaar? belastingrechter
Aantal basisscholen in Zoek scholen Onderwijsinspectie
Emmen
Site met Australische search newspapers trove.nla.gov.au/newspaper
kranten Australia
Verkoopakte Lambert zoek akte Utrecht Het Utrechts archief
Cruyswyk, Utrecht
500 grootse search Global Top 500 car marklines.com/en/news/
autoleveranciers Suppliers top500/
Extra tips
1. Zoeken met aanhalingstekens veronderstelt dat je precies weet wat op de

voordeur staat. Dat is soms lastig in te schatten. Probeer het niettemin
eerst met aanhalingstekens (want raak is dan goed raak), maar verwijder
ze snel weer als het resultatenlijstje je niet zint.
2. Is de lijst nog te uitgebreid? Verwijder dan oninteressante bronnen met het
commando – (min-teken), bijvoorbeeld: track worldwide flights –”book a
holiday”.
3. Gebruik deze methode alleen in Google.

4. Combineer nooit de inhoud van de database met de voordeur van de data-

base, bijvoorbeeld: search companies Google Payment Corporation. Hou
het eerst simpel: vind eerst de database en zoek dan pas verder.
5. Probeer deze methode uit voor je eigen vakgebied. Doe dat één keer per
maand om zelf nieuwe bronnen te vinden.
6. Stop na 30 minuten. De bron bestaat niet en/of je had je dag niet.
Bron: VVOJ (trainingsmateriaal Henk van Ess)
Dit langste hoofdstuk van dit boek doet je hopelijk beseffen dat er voldoende
materiaal bestaat om datajournalistiek mee te bedrijven. We kunnen hier niet
eens alles melden: je kunt ook eigen data creëren met behulp van onderzoe-
ken, of je in de wereld van mobiele data verdiepen. Op http://forreporters.
com/datavinden lees je meer.
Oefening 2.1 Vragen naar data
Formulieren vinden
Probeer via internet vijf formulieren te vinden die interessant zijn om nader te
onderzoeken. Kijk heel precies naar welke gegevens het formulier vraagt. Zet
de omschrijving van de gegevens in Excel in kolommenindeling. Begin vanaf
cel A1.
1. Markeer de privacygevoelige gegevens met een kleurtje.

2. Maak eventueel een onderverdeling als deze er niet is. Zo is het volledige
adres wel privacygevoelig, maar de postcode waarschijnlijk niet. Het veld
postcode staat niet impliciet in het formulier, maar is wel nodig voor het
adres.
3. De niet-gekleurde velden zijn interessant voor je onderzoek. Probeer goed
te kijken welke gegevens met elkaar te kruisen zijn (zie ook hoofdstuk 5:
Verwerken van Data – Draaitabellen maken). Voorspel per formulier
mogelijke nieuwskoppen.
Formulier bestuderen
In figuur 2.4 zie je dat de gemeente Losser een ‘FORMULIER KLACHT
TEGEN BESTUURLIJK OF AMBTELIJK OPTREDEN’ heeft – de hoofdlet-
ters zijn van de gemeente zelf. Download dit formulier nu via http://forrepor-
ters.com/klacht.
Het is 75 Kb groot en bestaat uit een pdf.

Vinden van data
101
Open het document en bekijk welke gegevens worden bijgehouden: gaat het
alleen om de afdeling, om medewerkers, om bestuurders of deze allemaal?
Op welke manier wordt de database nog verder gevuld? Met gedwongen vra-
gen of juist open vragen? Wordt ook de datum van het voorval bijgehouden?
Wat voor gegevens worden bijgehouden van de persoon die de klacht indient?
Door goed na te denken over de vraag tot wat voor databasevelden zo’n for-
mulier leidt, kun je gerichtere vragen stellen aan het gemeentebestuur. Wordt
misschien ook de postcode van klagers genoteerd? Dan kun je proberen om
een uitsplitsing op te vragen op postcode: in welke wijken wordt het meest
geklaagd over de gemeente?
Oefening 2.2 Sociale media
Verbanden vinden
Ga naar Follower Wonk (http://forreporters.com/wonk) en kies voor de optie
‘Compare Users’. Vul nu de Twitter-namen in van drie mensen en kijk wie
hun gemeenschappelijke vrienden zijn. Wat zegt dit? Wat vind je opvallend?
Wat niet?
Met lijsten werken

Verzamel via Follower Wonk en LinkedIn ten minste 20 medewerkers van
ABN AMRO en zet deze in een Twitter-lijst.
Oefening 2.3 Wobben
Beargumenteren
Natuurlijk is een goed gekozen argument niet bij voorbaat het recept voor suc-
ces. Maar als je niets probeert, weet je zeker dat je moet procederen. Zet achter
elk van de veertig bezwaren van ambtenaren, zoals deze zijn weergegeven in
paragraaf 2.2.3, één of meer tegenargumenten van de Nationale Ombudsman
uit paragraaf 2.2.4, zoals je hieronder ziet:
Figuur 2.78 De eerste twee vulden wij al voor je in

Wat is openbaar?
Af en toe moet er zelfs een rechter aan te pas te komen om te bepalen wat een
zelfstandig bestuursorgaan is – zo onduidelijk kan het soms zijn. Er zijn ruim
260 officiële zbo’s die je kunt doorbladeren op http://forreporters.com/zbo.
Figuur 2.79 Wie valt er onder de wet openbaarheid?
Bekijk de eerste honderd. Welke vijf instanties vind je zo interessant dat je

hiervan meer gegevens zou willen opvragen? Waarom?
Oefening 2.4 Overheidsdata
Werken met Statline

In samenwerking met de VVOJ (Vereniging van Onderzoeksjournalisten)
heeft het CBS speciaal voor dit boek een cursus Statline gemaakt die bestaat
uit acht afleveringen. Leer binnen een uur de belangrijkste mogelijkheden
van de grootste openbare cijferdatabase van Nederland. Ga naar forreporters.
com/cbscursus.
Werken met data

Ga naar figuur 2.63 en 2.64. Welke vragen wil je beantwoord zien nu je weet
dat graafwerk de hoofdoorzaak is van gevaarlijke gaslekken in leidingen en
dat slijtage de oorzaak is bij gasmeters? Kom met ten minste drie vragen. Met
welke dataset zou je deze gegevens willen vergelijken? Waarom?

Verwerken van data 3
Stel je voor: je hebt eindelijk dat prachtige databestand gevonden. Tijd om aan
de slag te gaan! Dan ontdek je de bittere praktijk van spelfouten, dubbele rijen
en gekke variabelen. Niet ieder databestand is direct geschikt voor een gede-
gen analyse. Sommige databestanden schreeuwen om een grote schoonmaak.
Dit hoofdstuk biedt een richtlijn om stap voor stap data te importeren, op te
schonen en een eerste eenvoudige analyse te maken. Het biedt oplossingen
voor problemen als:
Help, Excel lust mijn databestand niet!

Ik kan geen vergelijkingen maken, want mijn bestand staat vol met spelfouten
en verschillende beschrijvingen die eigenlijk hetzelfde betekenen ...
Wat moet ik met al die dubbelingen?
Ik wil mijn gegevens op een kaartje plotten, maar ik heb geen plaatsnamen!
Ik kan geen wijs uit mijn gegevens, hoe sorteer ik ze logisch?
Hoe vind ik nu een logisch verband tussen al die getallen?
We bespreken in dit hoofdstuk twee veelgebruikte programma’s: Office Excel

en Google Refine. Excel vormt onderdeel van een standaard Office-pakket, of
kan in een Open Office-versie gratis worden gedownload. Met Excel kun je
eenvoudig data opschonen, tabellen maken en gegevens analyseren. Google
Refine is via de developer-site van Google gratis te downloaden. Beide pro-
gramma’s bieden genoeg tools om data schoon te maken. Het verschil zit hem
bij de dataschoonmaak vooral in de gebruiksvriendelijkheid. Voor wie al
jarenlang Excel gebruikt, is het schoonmaken met dit spreadsheetprogramma
een eitje. Voor wie net begint, zal Google Refine wellicht iets intuïtiever tonen.
Een kwestie van uitproberen en je eigen favoriet bepalen.
Voordat we aan de grote schoonmaak beginnen, moet er natuurlijk wel iets te
schoonmaken zijn. De allereerste stap is dan ook het importeren van de data.
3.1 Voorbereidingen schoonmaak: data importeren
Hoe je dit doet, is afhankelijk van wat je te importeren hebt. Excel houdt
natuurlijk het meest van haar eigen formaat, .xls (of een variant hiervan, zoals

.xlsx). Als je zo’n bestand hebt, dan is het binnenhalen geen probleem, mits
het niet langer is dan zo’n 65.000 rijen, of breder dan 250 kolommen. Dan
sputtert Excel namelijk tegen. Mocht je een bestand hebben dat groter is, zet
het dan even om naar bijvoorbeeld een .csv- of .mdb-bestand. Daarvan accep-
teert Excel 1.048.576 rijen en 16.384 kolommen. Nogal een verschil.
Een .csv (Comma-separated value) bestand geldt als een Excel-vriendelijk for-
maat. Net als zijn andere Excel vriendelijke broeders .txt (Text file) en .xml
(Extensible Markup Language). Deze kun je over het algemeen zonder proble-
men gebruiken, als je ze even omzet. We bespreken in dit boek de twee meest
voorkomende afwijkende formaten: .csv, en .txt. Zie de handleiding van Excel
(http://forreporters.com/importeren) voor een bespreking van het importe-
ren van .html, .mdb, .xml en .pdf. Daar vind je ook meer informatie over de
manier waarop je data direct van een website in Excel kan importeren.
Een .csv-bestand kun je in Excel gewoon openen, zonder gekke toeren. Excel
herkent de komma’s als scheidingsteken en zet op basis van dit scheidings
teken de data direct in kolommen. Mocht je onverhoopt toch problemen
tegenkomen, volg dan de instructies als die voor een .txt-bestand.
Vergeleken met het importeren van een .xls- of .csv-bestand is er bij .txt is
iets meer werk aan de winkel. .txt-files zijn vaak files met daarin op het eerste
gezicht onduidelijke lappen tekst (bijvoorbeeld een namenlijst). Een voorbeeld
van een .txt-bestand is het open databestand van de gemeente Amsterdam met
een overzicht van bedrijven die een auto-deelservice aanbieden en de locaties
waarop de auto’s te vinden zijn (http://forreporters.com/parkeerplaatsen). Het
tekstbestand bevat ongeveer 900 regels en ziet er na het openen zo uit:
Figuur 3.1 Ruw tekstbestand parkeerplaatsen

Ver werken van data
105
Bij een open overheidsdatabestand vind je vaak een verantwoording. Uit de

verantwoording van dit .txt-bestand blijkt dat het bestaat uit een aantal – nu
nog onzichtbare – kolommen die het volgende betekenen:
• een overzicht van bedrijfsnamen: een G staat voor een Greenwheels-loca-
tie, een C voor een Drive Carsharing Locatie (de concurrent) en een S voor
iets onbekends;
• een adres van de locatie waar een auto staat, onderverdeeld in een straat-
naam en (soms) een huisnummer;
• twee geocodes: een lengte- en een breedtegraad waarmee je de ophaalloca-
tie op een kaartje zou kunnen plotten;
• de naam van de wijk waar de auto geparkeerd staat.
Interessante data, waarbij je je bijvoorbeeld kunt afvragen in welke wijk de

meeste deelauto’s staan. Met het oog is dit niet te doen; daarvoor is de lijst veel
te lang. Daarnaast kun je rijen van data onmogelijk met elkaar vergelijken, als
je ze eerst niet even scheidt. Daar kan Excel bij helpen.
Een .txt-bestand open je als een gewoon .xls-bestand, maar je moet het
dan wel meteen labellen als een .txt-bestand (anders wordt het bestand ook
niet zichtbaar in je zoekscherm). Dit geeft het startsein aan de Text Import
Wizard. Mocht je deze werkwijze inzetten voor een problematisch .csv-
bestand, volg dan dezelfde stappen, maar geef dan bij deze eerste stap aan dat
het om een .csv-bestand gaat.
De Wizard scant de data en vraagt of je het wilt openen als een bestand met
tekens die als scheiding werken, of als een bestand waar een vaste ruimte
wordt gebruikt om de onderdelen de scheiden. In het geval van ons deelauto-
bestand bepaalt het teken ‘:’ de scheiding tussen verschillende data. Dit vertel
je bij de volgende stap aan Excel (bij een .csv-bestand geef je hier aan dat het
om een komma gaat).
Nadat je dit hebt gedaan, zie je meteen de kolommen ontstaan in de Text
Import Wizard.

Figuur 3.2 De Text Import Wizard
Figuur 3.3 Data scheiden via de Text Import Wizard
Als je nu verder gaat, zie je dat je .txt-bestand keurig opgedeeld in het werk-
blad verschijnt; de grote schoonmaak kan beginnen.

Ver werken van data
107
Figuur 3.4 De tekst verschijnt na het importeren in verschillende kolommen
3.2 Vier populaire schoonmaakmiddelen
Schoonmaakmiddel 1: spelling controleren
Een typefoutje is zo gemaakt. De kans is groot dat je er eentje tegenkomt in

je bestand, als de maker hier niet goed naar gekeken heeft. Het controleren
van de spelling is heel eenvoudig. Druk op F7, controleer eventueel nog de
taal waarop je zoekt en Excel geeft een dialoogvenster of taakvenster bij een
fout gespeld woord. Je bepaalt hoe je elke fout wilt oplossen die door het pro-
gramma wordt gevonden. Bijvoorbeeld door de woordvormen aan te passen,
te negeren of toe te voegen.
Een correcte spelling is van groot belang. Dit databestand kent bijvoorbeeld
drie verschillende schrijfwijzen van één straatnaam: 1e Helmersstraat, eer-
ste Helmersstraat en eerste Helmerstraat. In eerste instantie herkent Excel
de straatnaam zelfs helemaal niet. Dit is vaak het probleem met bijvoorbeeld
eigen- of bedrijfsnamen. Je kunt dit oplossen door het woord toe te voegen,
waarna Excel de rest van het bestand met dit toegevoegde woord doorzoekt.
En zo vergelijkt Excel de spellingswijze van de eerste Helmersstraat met de
versie zoals de gebruiker hem heeft aangegeven.
In dit beginstadium is het trouwens ook goed om even te kijken naar lege vel-
den. Is alles wel ingevuld? Lege velden kunnen een foutmelding veroorzaken
als je later een analyse wilt maken (zie hoofdstuk 6: Discutabele data).

Schoonmaakmiddel 2: weg met die dubbele!
Net als het maken van typefout gaat er ook wel eens iets mis bij het samenvoe-
gen van verschillende bestanden. Soms ontstaan hierdoor dubbele waarden.
Een dubbele waarde is een waarde in een rij die exact gelijk is aan de waarde(s)
in een andere rij. Dat weten wij, maar Excel in eerste instantie niet. En zo kan
het ineens zo zijn dat er door een foutje in de database niet één, maar twee
Greenwheels- bedrijven gevestigd zijn aan de Amstel 266.
Dubbele waarden worden vastgesteld door de waarde die in de cel wordt weer-
gegeven en dat hoeft niet per se de waarde te zijn die in de cel is opgeslagen.
Als je bijvoorbeeld dezelfde datumwaarde in twee verschillende cellen hebt
staan en de ene cel is opgemaakt als ’13-4-1979’ en de andere als ’13 april 1979’,
telt Excel twee unieke waarden. Terwijl het toch echt een en dezelfde dag is.
Zorg trouwens dat je, voordat je aan dit schoonmaakwerk begint, altijd een
kopie bewaart van je originele bestand. En maak een nieuw werkblad voor
elke verandering die je maakt, zodat je bij een foutje niet gelijk in de stress
hoeft te schieten.
Als je voorzichtig wilt beginnen en alleen wilt checken of er dubbele waarden
in je bestand zitten, zonder deze direct te verwijderen, kun je dit doen door bij
het tabblad Start de opdracht Voorwaardelijke opmaak in de groep Stijlen te
geven. In het auto-deeldatabestand lichten direct een aantal rijen op.
Figuur 3.5 Dubbele waarden lichten op
De dubbelingen in de eerste en laatste rij gelden niet als zorgwekkend; geen

probleem dat de indicatie van ‘G’ of een omschrijving van het stadsdeel vaker

Ver werken van data
109
voorkomt. Heel normaal zelfs. Wel is het wat gek dat er verschillende straat-
namen oplichten. Maar ook hierbij blijkt na een nadere inspectie niets aan
de hand te zijn. De geocodes verschillen en dit betekent dat zich in sommige
straten gewoon meerdere locaties bevinden. Wel gaat hier een klein alarmbel-
letje rinkelen: je ziet hier duidelijk dat sommige straatnamen wél en sommige
straatnamen géén huisnummer bevatten.
Als je wél dubbelingen in een bestand vindt, kun je ervoor kiezen om deze
tijdelijk te verstoppen. Hiervoor filter je de unieke waarden door de opdracht
Geavanceerd in de groep Sorteren aan te klikken en te filteren op het tabblad
Gegevens. Als je de dubbelingen direct wilt verwijderen, kun je de opdracht
Duplicaten verwijderen in de groep Hulpmiddelen voor gegevens op het tab-
blad Gegevens aanklikken.
Het is verstandig eerst op unieke waarden te filteren of deze voorwaardelijk op
te maken om te controleren of de resultaten naar wens zijn voordat je dubbele
waarden verwijdert. Dat kan altijd nog.
Schoonmaakmiddel 3: waarden aanpassen of vervangen
De alarmbellen rinkelen: de adresgegevens zijn niet consequent. Sommige

adressen bevatten wel een huisnummer, de andere niet. Je hebt twee keuzes:
óf het databestand aanvullen óf gewoon alle huisnummers eruit slopen. Een
databestand aanpassen geldt vaak als een tijdrovende klus; in dit geval is het
voorlopig niet relevant. Het kan misschien wel interessant zijn om te zien hoe-
veel locaties een bepaalde straat telt, maar het huisnummer doet er niet toe
door de aanwezigheid van de geocodes. Je zou de straatnaam kunnen bewa-
ren en de huisnummers eruit kunnen slopen.
Slopen kan op verschillende manieren. In dit geval lijkt het effectief om de
tweede kolom te scheiden in twee nieuwe kolommen. In de ‘oude’ staat dan de
straatnaam zonder huisnummer en in de ‘nieuwe’ kolom staat een functieloos
overzicht van de huisnummers.
Het splitsen van een kolom kan bijvoorbeeld ook interessant zijn als je een
volledige kolom hebt met telefoonnummers die genoteerd zijn als: 0135182048.
Door deze te splitsen in het netnummer en het abonneenummer kun je zon-
der adres maar met hulp van het netnummer een overzicht maken van de ste-
den waaruit de gegevens komen. Daarnaast kan het prettig zijn om een voor-
en achternaam apart van elkaar op te slaan in verschillende kolommen, zodat
je de achternamen kunt analyseren zonder dat je wordt gehinderd door afwij-
kende voornamen. Het kan ook de andere kant op, als je iets wilt samenvoe-
gen. Bijvoorbeeld een aantal cijfers tot één IP-adres.

Hoe filter ik op unieke waarde?

1. Maak een selectie van het cellenbereik, of zorg ervoor dat de actieve cel zich in
een tabel bevindt.
2 Klik op het tabblad Gegevens, in de groep Sorteren en filteren, op Geavanceerd.
3. Voer in het dialoogvenster Uitgebreid filter een van de volgende handelingen
uit:
• Klik op Lijst in de cel filteren om het cellenbereik of de tabel te filteren.
• Als je het resultaat van de filterbewerking wilt kopiëren:
1. Klik op Kopiëren naar andere locatie.
2. Geef in het vak Kopiëren naar een celverwijzing op.
4. Schakel het selectievakje Alleen unieke records in en klik op OK.
De unieke waarden uit het geselecteerde bereik worden naar de nieuwe locatie
gekopieerd.
Hoe verwijder ik dubbele waarden?
Als je dubbele waarden verwijdert, heeft dat alleen gevolg voor het geselecteerde
cellenbereik of de huidige tabel. Eventuele dubbele waarden buiten het cellenbe-
reik of de tabel worden niet verwijderd.
Omdat je de gegevens definitief verwijdert, is het aan te bevelen om eerst het oor-
spronkelijke cellenbereik of de oorspronkelijke tabel naar een ander werkblad of
andere werkmap te kopiëren. Vervolgens doorloop je de volgende stappen:
1. Maak een selectie van het cellenbereik, of zorg ervoor dat de actieve cel zich in
een tabel bevindt.
2. Klik op het tabblad Gegevens, in de groep Gegevenshulpmiddelen, op Duplica-
ten verwijderen.
3. Voer een of meer van de volgende handelingen uit:
• Selecteer onder Kolommen een of meer kolommen.
• Klik op Alles selecteren als je alle kolommen in één keer wilt selecteren.
• Klik op Alle selecties opheffen als je de selectie van alle kolommen wilt
opheffen.
Als het cellenbereik of de tabel veel kolommen bevat en je slechts enkele kolom-
men wilt selecteren, is het handiger om eerst op Alle selecties opheffen te klikken
en daarna onder Kolommen de gewenste kolommen te selecteren.
4. Klik op OK.
Er verschijnt een bericht waarin wordt aangegeven hoeveel dubbele waarden er
zijn verwijderd en hoeveel unieke waarden er resteren, of om aan te geven dat er
geen dubbele waarden zijn verwijderd.
5. Klik op OK.

Ver werken van data
111
In het auto-deelvoorbeeld wil ik twee kolommen maken. Ik zoek daarvoor de

tekstconverter naar verschillende kolommen op in het tabblad Data.
Figuur 3.6 Poging tot het splitsen van data
Omdat de straatnaam en het huisnummer gescheiden worden door een spatie,

geef ik aan dat daar de nieuwe scheiding moet komen te liggen. En dan gaat
het gruwelijk mis.
Figuur 3.7 Het splitsen van data kan verkeerd gaan
Excel maakt nu een scheiding bij alle spaties, dus ook bij de spaties tussen
twee tekstdelen van een straatnaam. Zo gaat het niet lukken.

Dan kies ik een andere weg: via de zoek-en-vervang-functie (uit de vorige

paragraaf) selecteer ik alle cijfers uit de kolom en vervang ik deze door niets.
Ik houd nu alleen de straatnaam over. Bye bye huisnummer.
Schoonmaakmiddel 4: filteren en sorteren
De data beginnen langzaam te blinken. Toch zeggen ze me nog niet veel. Zo

wil ik bijvoorbeeld wel eens dieper inzoomen op de situatie in het centrum.
Het komt bij journalistieke analyses vaak voor dat de journalist niet in alle
data is geïnteresseerd, bijvoorbeeld omdat hij een analyse voor een bepaalde
regio wil maken.
Om bijvoorbeeld alleen de adressen van het centrum te filteren ga je in het
tabblad Data naar de functie ‘filter’. Je ziet nu boven aan iedere kolom een
knopje met een driehoekje verschijnen. Als je deze openklapt, kun je aange-
ven welk onderdeel je wilt selecteren. Als ik dit doe in de kolom ‘wijk’ en ik
selecteer enkel het centrum, dan verschijnen alleen de resultaten uit het cen-
trum.
Daarnaast vind je in het filterscherm de mogelijkheid om de gegevens in de
kolommen te sorteren. Bij tekstkolommen kun je de keuze maken om deze
alfabetisch (of vice versa) weer te geven. Bij cijferkolommen kun je de getal-
len op- of laten aflopen. Handig als je in één oogopslag de extremen wilt zien
(hoogste of laagste waarden).
Dit vierde schoonmaakmiddel is tevens een eerste voorzichtige analyse; nu je
weet wat voor data je beschikbaar hebt en wat de extremen zijn, kun je begin-
nen met het grote dataspel.
Kijk op http://forreporters.com/schoonmaak voor meer stap-voor-stap-instructies om

data schoon te maken in Excel.
3.3 Een eerste analyse
Na een check op spelling, dubbelingen en een logische splitsing van kolom-

men staat de database klaar voor gebruik. Klaar om alle wonderlijke relaties
en uitkomsten in één keer naar boven te toveren! Een eerste blik op de data-
base doet al deze dromen vervagen. Het is nog niet veel meer dan een set met
nietszeggende rijen en kolommen. Eén grote tabel met veel gegevens, maar
zonder relaties. Tijd voor een eerste draaitabel (Pivot Table).

Ver werken van data
113
Hoe splits ik een kolom? (voorbeeld: voor- en achternaam scheiden)

Stel: je wilt een kolom met een voor- en achternaam splitsen in twee kolommen.
Als de eerste kolom is opgemaakt met een scheidingsteken, gebruik dan de wizard
Tekst naar kolommen. Deze methode kun je gebruiken als de namen zijn opge-
maakt, zoals ‘Voor_naam Achter_naam’ (waarin de spatie tussen Voor_naam en
Achter_naam als scheidingsteken fungeert) of ‘Achter_naam, Voor_naam’ (waarin
de komma als scheidingsteken fungeert). Als de scheiding door een spatie wordt
aangegeven, doorloop dan de volgende stappen:
1. Selecteer het gegevensbereik dat je wilt converteren.
2. Klik op het tabblad Gegevens, in de groep Gegevenshulpmiddelen, op Tekst
naar kolommen.
3. Klik in stap 1 van de wizard Tekst naar kolommen op Gescheiden en vervolgens
op Volgende.
4. Schakel in stap 2 het selectievakje Spatie in en schakel vervolgens de overige
selectievakjes onder Scheidingstekens uit (selecteer hier ‘komma’, als de namen
gescheiden worden door een komma).
In het vak Voorbeeld van gegevens worden de voor- en achternamen weergegeven
in twee afzonderlijke kolommen.
5. Klik op Volgende.
6. Klik in stap 3 op een kolom in het vak Voorbeeld van gegevens en klik vervolgens
onder Gegevenstype per kolom op Tekst.
7. Als je de gescheiden inhoud wilt invoegen in de kolommen naast de volledige
naam, klik dan op het pictogram rechts van het vak Bestemming en selecteer de
cel naast de voornaam in de lijst.
8. Klik op het pictogram rechts van de wizard Tekst naar kolommen.
9. Klik op Voltooien.
Hoe verwijder ik een tekenreeks? (voorbeeld: verwijderen van alle cijfers uit een kolom)
1. Maak een selectie van het cellenbereik dat je wilt doorzoeken. Als je het hele
werkblad wilt doorzoeken, klik dan op een willekeurige cel.
2. Klik op het tabblad Start, in de groep Bewerken, op Zoeken en vervangen en klik
vervolgens op Vervangen.
3. Geef in het vak Zoeken naar de tekst of getallen op die je wilt zoeken.
4. Als je een opmaak wilt opgeven voor de zoekopdracht, klikt dan op Opmaak en
selecteer de gewenste opties in het dialoogvenster Opmaak zoeken.
5. Klik op Opties om de zoekopdracht verder te definiëren.
In het vak Binnen kun je Start of Werkmap selecteren om een werkblad of een hele
werkmap te doorzoeken.
6. Geef in het vak Vervangen door de vervangingstekens op.

Als je de tekens in het vak Zoeken naar wilt verwijderen, laat dan het vak Vervan-
gen door leeg.
7. Klik op Volgende zoeken.
8. Klik op Vervangen om alleen de gemarkeerde weergave van de gevonden
tekens te vervangen. Klik op Alles vervangen om de gevonden tekens overal te
laten vervangen.
Hoe verwijder ik een bepaald aantal tekens links of rechts van een tekst? (voorbeeld:
abonneenummer uit telefoonnummer slopen)
Gebruik de functies LINKS en RECHTS om deze taak uit te voeren.
LINKS: LINKS geeft het eerste teken of de eerste tekens in een tekenreeks als
resultaat, op basis van het aantal tekens dat je opgeeft. De formule =LINKS(A2;
LENGTE(A2)-3) verwijdert bijvoorbeeld de drie meest linkse tekens van een waarde
uit vakje A2 (bijvoorbeeld 013 uit de reeks 0135182049 als je enkel het abonnee
nummer wilt bewaren).
RECHTS: RECHTS geeft het laatste teken of de laatste tekens in een tekenreeks als
resultaat, op basis van het aantal tekens dat je opgeeft. De formule =RECHTS(A3;
LENGTE(A3)-9) verwijdert bijvoorbeeld het abonneenummer uit de reeks
0135182048, waarmee je alleen het netnummer overhoudt.
Hoe voeg ik een kolom samen? (voorbeeld: IP-adres samenstellen)

Stel, je wilt een kolom IP-adres maken door de twee kolommen Deel1 en Deel2 met
elkaar te combineren. Je gebruikt hiervoor de functie TEKST.SAMENVOEGEN of de
operator & om voor- en achternamen te combineren.
Laten we zeggen dat Deel1 in kolom A staat en Deel2 in kolom B. Door de for-
mule =A2&’ ‘&B2 te gebruiken, ontstaat een nieuwe kolom met volledig IP-adres,
waarbij de twee delen gescheiden zijn door een spatie. De functie D =TEKST.
SAMENVOEGEN(A2;’ ‘;B2) geeft hetzelfde resultaat. De functie =B3&’, ‘&A3 geeft als
resultaat eerst Deel2, gevolgd door Deel1, gescheiden door een komma.
Je kunt ook tekst en getallen samenvoegen, om bijvoorbeeld tot een lopende zin
te komen die bruikbaar is bij een visuele verwerking. Laten we in dit voorbeeld zeg-
gen dat in kolom A een partijnaam (VVD) staat en in B het aantal amendementen
(11) dat die partij heeft aangenomen. De formule =A2&’ nam ‘&B2&’ amendementen
aan’ geeft als resultaat: ‘De VVD nam 11 amendementen aan.’ De functie =TEKST.
SAMENVOEGEN(A2;’ nam ‘;B2;’ amendementen aan’) doet hetzelfde.

Ver werken van data
115
Een eenvoudige draaitabel maken

Een draaitabel is een dynamische weergave van gegevens in een database.
In een draaitabel kun je gegevens op elke denkbare manier laten weergeven,
rangschikken, sorteren en groeperen. We laten de deelauto’s in Amsterdam
even voor wat ze zijn en pakken een nieuw databestand op: een overzicht van
het aantal ingeschreven eerstejaars bij wetenschappelijke instellingen van
2007 tot en met 2011 (te vinden op de open datawebsite van de overheid via
http://forreporters.com/eerstejaars).
Figuur 3.8 Overzicht van het aantal ingeschreven eerstejaars bij wo-instel-
lingen van 2007 tot en met 2011
Dit bestand kent een eindeloze opsomming van rijen en kolommen. Gelukkig
hebben ze al wel kopteksten als ‘provincie’ en ‘gemeente’ zodat je vrij mak-
kelijk kunt zien wat wat is. Maar toch: een eerste blik legt geen relaties. Terwijl
je bijvoorbeeld graag zou willen weten hoe het staat met het aantal inschrij-
vingen van vrouwelijke studenten op verschillende universiteiten. En ook wat
voor studies een daling of stijging veroorzaken.
Selecteer hiervoor via het invoegmenu een tabel en geef direct aan dat jouw
tabel kopteksten bevat. Mocht dit niet zo zijn, geef dan een naam aan de tabel
en vervang de generieke kopteksten door een herkenbaar label. In dit geval
kent het databestand al duidelijke labels en is dat niet nodig. Plaats je cursor
vervolgens in de tabel en kies via het tabblad Invoegen de knop ‘Draaitabel’. Je
krijgt dan een totaal andere weergave van je data.

Figuur 3.9 Startpunt voor het maken van een draaitabel
Rechts vind je alle variabelen waarmee je kunt gaan spelen. Om de trends bij
de inschrijvingen van vrouwen te zien zetten we de instellingen in een rij en
de vrouwelijke ingeschreven studenten van de verschillende jaren in ‘values’
(blok rechtsonder). Het gewenste overzicht verschijnt.
Figuur 3.10 Het aantal ingeschreven vrouwelijke studenten
Wil je dieper gaan en zien binnen welke studierichtingen deze inschrijvingen

vooral plaatsvinden, dan kun je de beschrijvingen van de opleidingen toevoe-

Ver werken van data
117
gen aan de rij. Zo wordt bij dit bestand duidelijk dat de toename van vrouwe-
lijke studenten aan de Wageningen Universiteit vooral zit in de richting Dier-
wetenschappen.
Figuur 3.11 De toename lijkt het grootst bij dierwetenschappen
Wil je vervolgens zien of dit alleen voor Wageningen geldt, of ook voor andere
universiteiten, dan deselecteer je de instellingsnaam en zoek je alleen op
opleidingsnaam. Zie je liever niet de som, maar bijvoorbeeld het percentage,
klik dan op de kolomnaam en selecteer de berekening die je wilt.
Figuur 3.12 Verschillende rekenmogelijkheden bij een draaitabel

Tot slot van deze paragraaf nog even terug naar de data van de deelauto’s.
Dankzij een simpele Pivot- tabel zien we dat het overgrote deel van de auto-
verdeelpunten zich in het centrum van Amsterdam bevindt.
Figuur 3.13 Parkeerplaatsen verdeeld per buurt
Een leuk weetje, maar het zegt nog weinig. Want wat zit hier achter? Komt dit
doordat het centrum van Amsterdam relatief veel meer inwoners heeft? Of is
de buurt simpelweg veel groter? Op deze vraag kun je antwoord krijgen door
het combineren van data.
Meer weten over het maken van draaitabellen? Bekijk de instructie van data-expert Doug
Finney op http://forreporters.com/pivottable.
3.4 De bezem erdoor met Google Refine
Naast Excel gebruiken datajournalisten vaak Google Refine. Wat schoon-

maakmiddelen betreft, zijn beide programma’s aan elkaar gewaagd, al kun
je met Refine makkelijker geografische visualisaties maken Ook ‘lust’ Goo-
gle Refine wat apartere extensies als .json en .rdf, die nog wel eens problemen
geven in Excel.
Google Refine ziet data als een ruwe grondstof waarvan je iets nuttig maakt.
Google symboliseert dat met een diamant. Door deze diamant te slijpen
(‘facets’) komt een nieuw deel van de datadiamant naar boven.

Ver werken van data
119
Dan Nguyen van ProPublica gebruikte Google Refine in zijn Dollars for
Doctors-project in 2010 (http://forreporters.com/propublica). Bij dit project
zocht hij uit welke artsen het meest toegestopt krijgen door de farmaceutische
industrie. Hij ontdekte dat bijna vierhonderd artsen in de Verenigde Staten
jaarlijks meer dan een honderdduizend dollar ontvangen van één van de acht
onderzochte farmaceuten. Is dat nieuws? Misschien.
De data waren beschikbaar gesteld door de farmaceuten zelf. De journalisten
van ProPublica haalden de data uit pdf-bestanden en transformeerden deze
naar een spreadsheet in Google Refine.
Figuur 3.14 Betalingen aan artsen door farmaceuten
De spreadsheet was niet direct bruikbaar; zo waren niet alle namen consistent
gespeld. Waar Excel dit oplost door het controleren van de spelling en het ver-
vangen van namen, zet Google Refine zogenaamde ‘text’ facets in.
Leent je bestand zich niet voor een draaitabel, maar wil je wel bepaalde waarden
optellen of een gemiddelde bepalen? Dan kun je met de verschillende functies van
Excel werken. De functies vind je in het tabblad Home, bij het somteken ∑. Selecteer
de kolom waarvan je de waarden wilt aanpassen en klik op de ∑-knop. De totaal-
som van de kolom verschijnt onder aan de kolom. Je vindt hier ook andere functies
om bijvoorbeeld het gemiddelde, de mediaan of de uiterste waarden te bepalen.
Op http://forreporters.com/functies vind je een uitgebreid overzicht van deze en
andere functies van Excel.

Figuur 3.15 Text facets in Google Refine
Door de text facet in te zetten verschijnt in de linker balk een overzicht van
alle waarden uit een kolom. Daarbij staat ook meteen hoe vaak de waarde
voorkomt. Als je merkt dat hier verkeerde omschrijvingen bij zitten, of meer-
dere beschrijvingen van dezelfde waarde, kun je deze aanpassen. Je ziet de
samenvoeging dat direct in de linker balk verschijnen.
Figuur 3.16 Samenvoeging van data met hulp van facets
Dit is een prima methode als de lijst in de linker balk niet te lang is en met de
hand te repareren valt. De journalisten van ProPublica stonden echter voor
een grotere uitdaging: in de linker balk verschenen duizenden verschillend
gespelde namen, waarvan een groot deel dezelfde personen beschreef. G oogle
Refine gaat deze lijst te lijf door data te clusteren. Voor het vergelijken van

Ver werken van data
121
namen kent het programma vijf algoritmen, variërend van heel erg streng tot
heel erg los. De veiligste methode heet de vingerafdruk (‘fingerprint’) functie.
Deze selectiewijze gaat ervan uit dat twee namen identieke letters uit het alfa-
bet bevatten, ongeacht hoofdletters of interpunctie. Zo vertaalt de vingeraf-
druk-functie zowel ‘Johnny R. Cash’, ‘JOHNNY CASH R.,’ en ‘Cash, Johnny
O,’ naar ‘cash johnny r.’. Door deze functie toe te passen op het bestand met
namen van artsen gaf Google Refine een overzicht van mogelijke gelijke
namen (zie http://forreporters.com/clusteren voor andere clustermethodes).
Figuur 3.17 Samenvoeging van personen
Nadat de namen in het systeem op hun plaats stonden, checkten de journalis-

ten het bestaan van alle personen uit de lijst. Zo ontdekten ze bijvoorbeeld dat
een vader en zoon (beiden arts) door hun identieke namen onterecht tot één
persoon waren versmolten. Deze zeer tijdsintensieve extra check is volgens de
journalisten van ProPublica onontbeerlijk.
Het clusteren van informatie is niet alleen handig bij het samenvoegen van
verschillende namen, maar werkt ook om clusters te maken van verschillende
personen die een relatie met elkaar hebben op basis van bijvoorbeeld de kant-
oorlocatie. Zo kun je samenwerkingsverbanden van artsen met elkaar verge-
lijken.
Na de grote schoonmaak analyseerden de journalisten de data dagenlang. Het
leverde hun een groot aantal verhalen op. Anno 2012 heeft de database zich
uitgebreid met de gegevens van vier nieuwe farmaceuten en heeft ProPublica
de database op een gebruiksvriendelijke manier opengezet voor iedereen die
erin wil zoeken, zonder direct een oordeel te vellen over de uitkomst hiervan.
Dat is aan de gebruiker zelf.

Figuur 3.18 Eindproduct: een database waarin bezoekers zelf kunnen zoeken
Op http://forreporters.com/googlerefine vind je een uitgebreide tutorial van Google Refine.
Twee standaard beginnersfouten bij Google Refine
Soms geeft Refine na het gebruik van de Text Facet een verschil in spelling
aan, maar zie je zelf het verschil niet. Voordat je gaat wanhopen: vaak is er
dan sprake van een (verborgen) spatie aan het einde van het woord. Bekijk het
volgende voorbeeld: in eerste instantie lijkt er geen verschil te zijn tussen de
eerste twee. Toch blijkt er wat aan de hand. Door aan de linkerzijde de ‘edit’-
knop te selecteren kun je de fouten aanpassen en eventuele verborgen spaties
verwijderen.
Figuur 3.19 Verborgen spaties geven soms een vertekend beeld

Ver werken van data
123
Soms is een databestand zo groot, dat je niet gelijk kunt zien of er lege plekken
staan in een bestand. Je kunt met Refine makkelijk zien of een databestand
numerieke fouten bevat door het nummer face’ te gebruiken. Je krijgt dan een
normaalverdeling van de resultaten. Als je hierbij het vakje ‘error’ aanklikt,
krijgt je een overzicht van rijen met een nulwaarde, oftewel een leeg veld.
Maar pas op: bij bestanden met bedragen die in de miljoenen lopen, kan een
nul ook betekenen dat een bedrag onder de miljoen valt. Dit kun je ook met
Refine aanpassen met het nummer facet aanpassen.
Andere schoonmaakmiddelen
Excel en Google Refine gelden als twee veelgebruikte en gebruiksvriendelijke

tools om databestanden mee op te schonen. Toch zijn het zeker niet de enige
tools die je kunt gebruiken. Vaak is het een kwestie van veel oefenen en puz-
zelen en ontdek je zo welke tools je het prettigst vindt.
Suggesties voor andere dataschoonmaakmiddelen zijn:
• Data Wrangler: gratis online tool om data mee op te poetsen. Ontdekt
lege plekken, voegt rijen en kolommen samen. De tool geeft een uitgebreid
overzicht van veranderingen die je hebt doorgevoerd. Hierna kan de data-
set eenvoudig worden geëxporteerd naar bijvoorbeeld Excel.
• Google Spreadsheets: Google Spreadsheet ziet zichzelf graag als de gratis,
open versie van Excel. Het is binnen Google Spreadsheet mogelijk om een-
voudige aanpassingen te maken, bijvoorbeeld het vervangen, verwijderen
of opvullen van cellen. Daarnaast kun je de opmaak van een getal, datum
of valuta-eenheid wijzigen.
• SPSS: het aan te kopen programma SPSS oogt ingewikkelder dan bijvoor-
beeld Excel of Refine. Voor de meer geoefende datajournalist biedt het vele
mogelijkheden om data te hercoderen, fouten te ontdekken en de data ver-
volgens grondig te analyseren.

Kaarten maken met Google Refine
Refine kent, vergeleken met Excel, een unieke toevoeging: het maken van geauto-
matiseerde API-calls, oftewel geautomatiseerd extra velden aan je data toevoegen.
Een hele handige API is de Google Maps Api. Deze zet automatisch de GPS-coördi-
naten bij een plaatsnaam. Hierdoor kun je makkelijk een kaartje maken.
Om dit te doen selecteer je bij de facets ‘add columns’ de optie ‘add column by
fetching URLs’. Bij het ‘expression’-veld vul je de Google Maps API (of een wil-
lekeurige andere API-call) in: “http://maps.google.com/maps/api/geocode/
json?sensor=false&adress=“. Geef de kolom een nieuwe naam en hij verschijnt in je
overzichtssheet. Door dit stukje GPS-materiaal aan je plaatsnamen toe te voegen
kun je deze gegevens uit de kolommen en rijen eenvoudig met Google Maps op
een kaartje zetten. Kijk online voor een uitgebreide tutorial over het toevoegen van
geocodes online.
Figuur 3.20 Toevoegen van geocodes aan een dataset

Presenteren van data 4
In dit hoofdstuk maak je kennis met de belangrijkste visualisatietechnieken.

De toelichting op je data moet direct, precies en makkelijk te begrijpen zijn.
4.1 Wat is het verhaal?
Wie, wat, waar, wanneer, waarom? En hoe? De vijf w’s en die ene h zitten er
bij de klassiek geschoolde journalist al van vroeg af aan ingeramd. Zijn ze ook
van toepassing op datajournalistiek? Meestal wel. Of de nieuwsuitkomst voor
de schrijvende pers ook altijd het overbekende oprolbare bericht moet zijn?
Misschien niet. Datajournalistiek leent zich voor vele andere soorten verhaal-
lijnen.
Journalisten zoeken in de basis naar verhalen met nieuwswaarde, een verhaal
van een zeker algemeen belang. Een verhaal dat nog niet eerder bekend was en
afwijkt van het gewone. Journalisten proberen dit met een objectieve, trans-
parante blik. Tony Harcup en Deirdre O’Neill onderscheidden in 2001 in hun
onderzoek (http://forreporters.com/newsvalue) naar algemene nieuwswaar-
den tien invloeden die afzonderlijk of in samenhang met elkaar een verhaal
nieuwswaardig maken:
1. Het verhaal gaat over invloedrijke en machtige personen, organisaties of
instanties.
2. Het verhaal gaat over bekende mensen.
3. Het verhaal heeft een entertainmentwaarde.
4. Het verhaal kent een verrassende uitkomst of een contrast.
5. Slecht nieuws: verhalen met een conflict of tragedie in zich.
6. Goed nieuws: verhalen met een positieve boventoon.
7. Het verhaal heeft een grote impact omdat het veel mensen raakt.
8. Het verhaal gaat over groepen of landen die relevant zijn voor het publiek.
9. Verhalen die voortborduren op iets dat eerder in het nieuws was (follow-
up).
10. Verhalen die passen binnen de agenda van de nieuwsorganisatie zelf
(media-agenda).

4.2 Wie of wat vertelt het verhaal; de journalist of de data?
Data als duiding
Een journalist kan zich bij het maken van een verhaal baseren op een onge-
kend scala aan bronnen; gesprekken met specialisten of ooggetuigen, rap-
porten en andere klassieke bronnen. Of ruwe data. Dataverhalen lenen zich
bij uitstek om duiding te geven aan een actueel vraagstuk. Dit deden NRC-
redacteuren Arlen Poort en Thalia Verkade na de verkiezingen in 2010. Ze
verzamelden de stemgegevens per stembureau in Nederland en zetten deze
resultaten op een kaart.
Figuur 4.1 Stemgedrag in 2010 volgens NRC Handelsblad (http://forrepor

ters.com/stemgegevens)
Met behulp van de kaart toonden zij verschillende clichés aan: mensen
in dure buurten stemmen VVD, in wijken met veel gezinnen wordt CDA
gestemd. GroenLinks-stemmers wonen dicht op elkaar. En D66’ers zijn vaak
alleenstaand. Een ander feit: hoe meer allochtonen een buurt telt, hoe vaker er
PvdA gestemd wordt. Tot slot bleek er een sterk verband te bestaan tussen het
aantal ongeldige stemmen dat op een bureau werd uitgebracht, en het percen-
tage allochtonen in de omgeving.
Poort en Verkade gebruikten aan de ene kant de stemdata om een analyse te
maken. Aan de andere kant maakten zij de data volledig beschikbaar, zodat

P r e s e n t e r e n v a n d a t a
127
NRC-lezers het stemgedrag van de buren konden bekijken. Duiding en ver-

dieping naar aanleiding van een actueel thema: de verkiezingen.
Data als startpunt voor unieke verhalen
Naast het duiden van actuele thema’s kunnen data unieke verhalen genereren
die anders nooit naar boven zouden komen. Verschillende voorbeelden wor-
den in dit boek genoemd; zie bijvoorbeeld het verhaal van Dan Nguyen van
ProPublica over de geldstromen tussen farmaceuten en artsen (in het hoofd-
stuk over het verwerken van data). Zonder het verzamelen en combineren van
data had hij het verhaal nooit zo sterk kunnen brengen.
ProPublica maakte de data openbaar. Via een online database kunnen lezers
gegevens over hun eigen huisarts bekijken en hier hun eigen conclusies aan
verbinden. Het is een service die de Amerikaanse Sunlight Foundation ook
aanbiedt. Deze organisatie geeft data vrij over de manier waarop bedrijven,
lobbyisten, politici en industrieën aan elkaar gekoppeld zijn. Zonder hier een
waarde oordeel aan toe te voegen; dat laat zij aan de gebruiker zelf over.
Figuur 4.2 De Influence Explorer maakt politieke krachten zichtbaar (http://

forreporters.com/influence)

Datajournalistiek versus database storytelling
In het geval van de Influence Explorer spreken de data voor zich: het prin-
cipe van database storytelling. Database storytelling, ook wel gestructureerde
storytelling genoemd, is het principe waarbij nieuws gecentreerd zit rondom
data en door gebruikers geïnterpreteerd wordt. Dit in tegenstelling tot data-
journalistiek, waarbij de journalist het verhaal duidt. De rol van de journalist
(of informatiebeheerder) is bij database storytelling het in stand houden van
de database, zodat gebruikers of andere journalisten zelf hun verhalen uit de
database kunnen halen.
Hetzelfde principe geldt voor het Nederlandse COELO, een onafhankelijk
onderzoeksinstituut zonder winstoogmerk, verbonden aan de Faculteit Eco-
nomie en Bedrijfskunde van de Rijksuniversiteit Groningen. Het COELO ver-
richt onderzoek op eigen initiatief, maar ook in opdracht van derden, zoals
ministeries, provincies, waterschappen, gemeenten en lokale rekenkamers.
Het onderzoek van het COELO richt zich op onderwerpen die verband hou-
den met de decentrale overheden (gemeenten, provincies en waterschappen).
Het onderzoeksinstituut publiceert jaarlijks een onderzoek naar de tarieven
van ozb, reinigingsheffing en rioolheffing van de verschillende Nederlandse
gemeentes. De data maken zij online beschikbaar, zonder hier direct een ver-
haal aan te hangen. Gebruikers kunnen zelf nagaan wat de gemiddelde kosten
zijn in hun gemeente.
Figuur 4.3 Het COELO onderzoekt jaarlijks de tarieven van Nederlandse

gemeentes (bron: http://forreporters.com/coelo)

129
De Nederlandse datadesigner Eugene Tjoa maakte op basis van de COELO-

data in opdracht van het CBS een kaart die niet alleen de lasten per gemeente
weergeeft, maar ook een weging geeft ten opzichte van andere gemeentes.
Figuur 4.4 De lastenvergelijker van Eugene Tjoa (http://forreporters.com/

vergelijker)
Deze lastenvergelijker vormt vervolgens de basis van vele journalistieke pro-

ducties, bijvoorbeeld een verhaal van BN De Stem uit 2011, waarin wordt
vermeld dat een alleenstaande huurder zonder auto of hond op basis van
gemeentebelastingen het beste in de Brabantse gemeente Bernheze kan
wonen. Hij betaalt dan namelijk het minste aan belastingen: 187 euro. De
journalist verwijst in het stuk naar de lastenvergelijker van het CBS, waarmee
hij zijn verhaal transparant weergeeft.
Deze transparantie is voor veel datajournalisten aanleiding om gebruik te
maken van een tussenvorm waarbij de journalist niet alleen een verhaal duidt
maar ook de database vrijgeeft voor verder onderzoek. The Guardian volgde
dit principe bij een productie over de Afghanistan War Logs. Op basis van
eigen onderzoek concludeerden de journalisten een toename van het gebruik
van bermbommen. Hierover schreven zij in de krant en online. Maar daar-
naast presenteerden zij ook alle gebruikte data op hun website, zodat lezers op
zoek konden gaan naar nieuwe verhalen.

Figuur 4.5 The Guardian maakte een online productie over de Afghanistan
War Logs (http://forreporters.com/warlogs)
Of lezers daadwerkelijk gaan meespeuren naar nieuwe verhalen? Dat is de

vraag. De ervaring leert dat mensen bij openbare data graag kijken naar hun
eigen persoonlijke situatie, zoals bij de lastenvergelijker. Bij onderwerpen die
verder reiken dan de directe omgeving, is de participatie vaak een stuk lager.
4.3 De narrativiteit van data
De vraag wie of wat het verhaal vertelt, staat centraal in het artikel ‘Narra-
tive Visualization: Telling Stories with Data’ van Edward Segel en Jeffrey Heer
(2010, lees het hele stuk via http://forreporters.com/telingstories). Zij onder-
scheiden drie vormen van verhalen: een auteur gedreven verhaal, een lezer
gedreven verhaal of een tussenvorm. Deze keuze beïnvloedt volgens hen de
narrativiteit van een verhaal. Een auteur gedreven verhaal volgt volgens hen
een lineair pad, zonder mogelijkheden tot interactie. Een lezer gedreven ver-
haal is vaak niet lineair; de gebruiker kiest zijn eigen pad. In de tussenvorm
trekt een auteur conclusies op basis van data, maar is er ook ruimte voor inter-
actie.

131
De verschillen tussen auteur gedreven verhalen, lezer gedreven verhalen en

de tussenvorm vatten Segel en Heer samen in drie narratieve schema’s: de
Martiniglas-structuur, de interactieve slideshow en het Drill-Down-verhaal.
Martiniglas-structuur
Deze structuur begint met een auteur gedreven aanpak. De auteur stelt vra-
gen waarop hij antwoord wil geven, observeert en schrijft een conclusie voor-
dat hij een dataset of visualisatie van de dataset introduceert. De dataset of
visualisatie vertelt een eenduidig verhaal (het pootje van het Martiniglas),
maar biedt tevens een lezer gedreven onderdeel, waar verschillende paden
gevolgd kunnen worden (het driehoekige glas).
Een voorbeeld hiervan is een verhaal van de Washington Post over de uitkom-
sten van een Klimaatconferentie in Cancun in 2010. De journalisten geven
een leidraad voor het verhaal mee: een overzicht van de voor hen belangrijkste
beslissingen en uitkomsten. Daarnaast biedt het verhaal een aantal interac-
tieve visualisaties, bijvoorbeeld over de uitstoot van vervuilende gassen. De
lezer kan deze informatie combineren en op basis van feiten zien of zijn eigen
denkbeelden overeenkomen met die van de journalist.
Figuur 4.6 De Washington Post verhaalt over de Klimaatconferentie in

Cancun (http://forreporters.com/cancun)

Figuur 4.7 De lezer kan op basis van deze informatie zien of zijn eigen denk-
beelden overeenkomen met die van de journalist (http://forrepor
ters.com/emissions)
Interactieve slideshow
Deze structuur biedt een slideshow met een vorm van interactie op iedere
slide. Deze structuur biedt de gebruiker de mogelijkheid om verschillende
onderdelen van de presentatie te exploreren voordat hij naar een volgend
verhaalonderdeel gaat. In tegenstelling tot de Martiniglas-structuur stelt de
interactieve slideshow de gebruiker in de gelegenheid om stap voor stap een
verhaal te ontdekken, zonder aan het einde in één keer in het diepe te worden
gegooid.
Een voorbeeld hiervan is het verhaal uit The New York Times in 2010 waarin
de voorspellingen over het begrotingstekort door de overheid worden verge-
leken met het werkelijke tekort. De voorspellingen blijken te optimistisch. Per
periode kan de gebruiker kijken welke voorspellingen er zijn gedaan en hoe
die afweken van wat er werkelijk gebeurde, waarna het totale plaatje ontstaat.
De slideshow vormt het grotere verhaal over een langere tijd, de slides bevat-
ten de periodes die de lezer gedetailleerder kan bekijken.

133
Figuur 4.8 De slideshow van The New York Times toont het verhaal over lan-
gere tijd (http://forreporters.com/budget)
Een ander (geen datajournalistiek) voorbeeld komt van The Guardian uit
2010. In een interactief verhaal over de redding van 33 Chileense mijnwerkers
krijgen alle personages een apart gezicht. Lezers banen zich zelf een weg door
het verhaal door op de verschillende portretten te klikken en zo hun eigen
verhalen naar boven te halen.
Figuur 4.9 Lezers bepalen zelf waar ze beginnen bij het interactieve verhaal
van The Guardian (http://forreporters.com/miners)

Figuur 4.10 De keuze is aan de kijker bij dit interactieve verhaal (http://for-
reporters.com/miners)
Drill-Down-verhaal
In deze structuur kiest de gebruiker meteen zijn verhaal na aanreiking van

een generiek thema. Deze vorm is lezer gedreven; hij bepaalt wat hij wil zien.
Toch denkt een journalist bij deze structuur na over de vraag welke informa-
tie hij interactief aanbiedt, waardoor er toch een vorm van selectie aan het
verhaal voorafgaat.
Figuur 4.11 Na een korte inleiding bepaalt de gebruiker zelf welk pad hij volgt
(http://forreporters.com/prison)

135
Een voorbeeld hiervan is een visualisatie van de Washington Post over het
bestaan van vijf strafkampen in Noord-Korea. Na een korte inleiding bepaalt
de gebruiker zelf welk pad hij volgt. De journalist heeft hierbij al wel een selec-
tie gemaakt in de data die hij de lezer wil aanbieden.
4.4 Hoe vertel ik mijn verhaal?
De modellen van Segel en Heer gaan ervan uit dat het verhaal zich afspeelt op
één en hetzelfde platform: een scherm dat in verbinding staat met internet. In
de praktijk lopen datajournalistieke verhalen vaak over meerdere platformen,
bijvoorbeeld een ‘Martiniglas-pootje’ in een journaaluitzending of artikel in
de krant, waarna de lezer doorverwezen wordt naar een online pagina. Soms
stuurt een mediamaker de lezer via een gerichte lijn door deze platformen
(bijvoorbeeld met een ‘lees verder online’-ankeiler na een item). In dat geval is
er sprake van crossmediaal verhalen vertellen. Verhalen zijn dan vaak lineair
en kennen soms dubbelingen, omdat het verhaal online gedeeltelijk herhaald
wordt met beelden van de journaaluitzending.
Transmediale verhaallijnen laten de lineariteit los. In het transmediale model,

geïntroduceerd door de wetenschapper Henry Jenkins in zijn boek Conver-
gence Culture uit 2008 (http://forreporters.com/jenkins), lopen de verschil-
lende verhaallijnen door elkaar. Gebruikers, kijkers of lezers kunnen op ieder
platform instappen en krijgen idealiter een afgerond verhaal te zien. Wel
worden ze getriggerd om ook op andere platformen te kijken, waar andere
invalshoeken of nieuwe verhaallijnen worden getoond. De verschillende ver-
haallijnen versterken elkaar en vertellen nooit twee keer hetzelfde. Ieder plat-
form doet waar het goed voor is, bijvoorbeeld een online beeldscherm voor
interactieve visuals, met een langer tekstverhaal in print om de feiten duide-
lijk op een rijtje te zetten.
Een voorbeeld hiervan is de documentaire Where is Gary? (http://forre-
porters.com/gary) van de Belgische programmamaker Jean Paul Baptiste.
Tijdens deze webdocumentaire gaat hij op zoek naar een oplichter genaamd
Gary. Via Facebook staat hij in contact met kijkers, die hem helpen in zijn
zoektocht. Wekelijks zendt hij een samenvatting van zijn zoektocht uit, die
hij na de ontknoping samenbrengt tot één grote documentaire, die op televi-
sie wordt uitgezonden. Deelnemers kunnen in deze vorm zelf kiezen hoever
ze met de maker op reis willen gaan. Of alleen door het kijken van de docu-
mentaire, óf samen met het kijken van de webisodes, óf door het volgen van
alle elementen, inclusief de interactieve zoektocht via verschillende sociale-
mediakanalen. De keuze is aan de kijker.

Crossmediaal en transmediaal verhalen vertellen zijn beide onderdeel van

multimediale storytelling, een begrip dat er simpelweg van uitgaat dat je ver-
schillende platformen inzet bij het vertellen van een verhaal.
Leidraad voor multimediale producties
De Amerikaanse Knight Foundation (een journalistiek samenwerkingsver-

band tussen de universiteit van Berkeley en USC Annenberg) ontwikkelde
richtlijnen voor het maken van een multimediaal verhaal (http://forreporters.
com/storyboarding). Zij maken hierbij allereerst een onderscheid tussen door
een reporter en door een producent gemaakte verhalen. Bij de eerste soort is
de journalist verantwoordelijk voor alle verhaallijnen en maakt hij zelf, even-
tueel met wat technische hulp, alle items en producties. In het tweede geval
bepaalt de producent de verhaallijn en zet hij verschillende mensen in voor
verschillende producties. Uiteindelijk harkt de producent alle informatie bij
elkaar en bouwt het verhaal. Beiden maken vooraf gebruik van een story-
board, een schets met de volgende informatie:
• een lead met de samenvatting van het verhaal;
• profielen van de belangrijkste spelers in het verhaal;
• een situatieschets;
• voors en tegens van het verhaal;
• een eventuele geschiedenis van het verhaal.
In plaats van te denken in een chronologische opeenvolging van gebeurte-

nissen stelt de Knight Foundation dat het beter is om te denken in blokken
informatie. Dus: ‘We hebben dit gedeelte van het verhaal, en dit en dit.’ Het
betreft onderdelen die later uitgewisseld kunnen worden op verschillende
platformen.
Na het maken van dit tekstuele gedeelte worden de verschillende onderdelen
binnen verschillende mediumtypen geplaatst; welke verhaallijn verschijnt
waar? Sommige mediumtypen lenen zich beter voor een bepaald soort verha-
len dan andere.
Audio is volgens de Knight Foundation geschikt voor verhalen die:

• emotie in een stem weergeven;
• de sfeer van een gebeurtenis weergeven;
• reflectie bieden;
• een persoon beschrijven;
• een omschrijving geven van een setting (omgevingsgeluiden en derge-
lijke).

137
De volgende typen verhalen lenen zich goed voor video:

• verhalen met actie, bijvoorbeeld rampen of sport;
• beschrijving van een omgeving;
• het neerzetten van karakters;
• dramatische verhalen;
• verhalen over kinderen of dieren;
• verhalen over criminaliteit;
• verhalen over hoe dingen werken;
• ruw materiaal, vaak opgenomen door een niet-journalist.
Een video waar al deze elementen goed samenkomen, is het video verhaal
‘Trapped in an elevator’ van The New Yorker. De video toont de versnelde
beelden van vier bewakingscamera’s, die gericht staan op een man die veertig
uur vastzit in een lift. Het ruwe materiaal geeft een beschrijving van de omge-
ving en kent door de muziek een dramatisch effect.
Figuur 4.12 Ruwe omgevingsbeelden in combinatie met muziek zorgen voor

dramatiek (http://forreporters.com/elevator)
Zie http://forreporters.com/audio en http://forreporters.com/video voor tien-

tallen voorbeelden van geslaagde audio- en videoproducties.
Foto’s zijn online of in print sterk om verhalen weer te geven die:

• reflectie bieden;
• emoties weergeven;

• een idee van een persoon weergeven;

• een overzicht geven van een plek of gebeurtenis.
Een foto die al deze elementen in zich heeft, is de wereldberoemde foto van
‘The Marlboro Man’ in Fallujah. Korporaal James Blake Miller werd in 2004
hét symbool van het Irak-conflict.
Figuur 4.13 ‘The Marlboro Man’, originele foto uit de Los Angeles Times
(Luis Sinco via Associated Press), later verwerkt tot Mediastorm-
documentaire
De originele foto is later meerdere malen bewerkt; onder meer tot een beklem-
mende MediaStorm-fotoslideshow met geluid. Dit bewegende fotoverhaal
vertelt het persoonlijke relaas van The Marlboro Man (http://forreporters.
com/marlboro). Zie http://forreporters.com/foto voor deze en andere sterke
beeldverhalen.
Tekst (voorbeelden op http://forreporters.com/tekst) is volgens de Knight
Foundation bij uitstek geschikt om:
• achtergrondinformatie te geven en context te bieden;
• de voors en tegens van een ontwikkeling aan te geven;
• historie of personen te beschrijven;
• samenvattingen te geven of breaking news toe te voegen.
Statistieken en data lenen zich volgens de Knight Foundation vooral voor

(interactieve) visualisaties (http://forreporters.com/databases). Visualisaties
kunnen informatie in één oogopslag helder overbrengen. En met de komst
van nieuwe, openbare en gratis tools is het voor de journalist zelf mogelijk om
deze visualisaties te maken.

139
4.5 Hoe presenteer ik mijn verhaal? De kracht van

datavisualisatie
Waar het ontwerpen van infografieken eerder vooral voorbehouden was aan
grafici en technici, nemen journalisten in het geval van datajournalistiek
soms een aantal van hun taken over. Gratis (online) tools helpen hierbij.
De belangrijkste uitdaging bij het maken van visualisaties is de informatie
begrijpelijk houden voor de lezer, zegt auteur en designer David McCandless
in zijn boek Information is Beautiful (http://forreporters.com/information).
In dit boek demonstreert hij het belang van een originele, overzichtelijke en
creatieve weergave van feiten en cijfers. McCandless vindt dat er in de media
nogal gegoocheld wordt met bedragen. Dat soms zelfs ‘miljoen’ en ‘miljard’
worden verward. Om dit te illustreren maakte hij de ‘Billion Dollar-o-gram’,
die niet meer doet dan een aantal uitgaven tegen elkaar afzetten.
Figuur 4.14 Datavisualisatie uit Information is Beautiful

Bij deze visualisatie draait het vooral om verhoudingen; de exacte cijfers zijn
van ondergeschikt belang. De visualisatie maakt in één oogopslag duidelijk
hoe groot de kosten zijn van de financiële crisis. Duidelijker dan welke tabel of
tekstbeschrijving ooit had kunnen doen.
Information is Beautiful bevat meer van dit soort experimenten om infor-
matie toegankelijk te maken en op een originele manier aan te bieden.
McCandless stelt dat informatie interessant (betekenisvol en relevant) en
integer (accuraat, consistent) moet zijn. Daarnaast biedt een goed design vol-
gens hem overzicht in de cijferberg, een uitnodiging tot kijken en ontdekken,
meerdere detailniveaus, een heldere vormgeving, bronnen en een verrassing
of grappig element.
Visualisaties zijn er in verschillende vormen en maten. Tabellen, grafieken,
diagrammen en kaarten komen veelvuldig terug bij datajournalistieke visu-
alisaties. Al lijken deze door interactieve technieken al lang niet meer op de
grafieken zoals we ze ooit op school voorbij zagen komen.
4.6 Tabellen, grafieken en diagrammen
Datajournalisten spelen steeds vaker leentjebuur bij visuele experts. Daar-

door worden producties steeds mooier, zo valt te lezen in Beautiful Visualiza-
tion, Looking at Data through the Eyes of Experts (O’Reilly, 2010) of Journal-
ism in the Age of Data: A Video Report on Data Visualization.
In The Crisis of Credit Visualized werken datajournalisten, grafische pro-

fessionals en webspecialisten samen om een verhaal te vertellen. Een van de
studenten van de New Yorkse professor voor journalistiek, Jay Rosen, barstte
zelfs in gezang uit om hydraulisch drillen uit te beelden in The Fracking Song.
Tabellen, grafieken en diagrammen worden gebruikt om de informatie te
ordenen en duidelijk weer te geven. Zeker om verhoudingen, vergelijkingen
en ontwikkelingen in de tijd zichtbaar te maken zijn ze erg handig. Grafieken
bouwen is keuzes maken. Welke grafieken gebruik je voor welke gegevens? En
waar moet je zoal op letten?
Andrew Abela ontwikkelde ‘The Extreme Presentation method’ als een manier
om ingewikkelde informatie om te zetten naar effectieve communicatie. Hij
ontwierp een schema om de keuze voor een grafiek te vergemakkelijken.

141
De meest voorkomende grafieken zijn lijngrafieken, staafdiagrammen en cir-

keldiagrammen. Een lijngrafiek is een grafiek waarbij punten door een lijn
verbonden worden. Zo’n grafiek is uitgezet langs twee assen: een horizontale
as (x-as) en een verticale as (y-as). Lijngrafieken lenen zich uitstekend voor
ontwikkelingen in de tijd. De tijd wordt dan op de x-as uitgezet, de hoeveel
heden (de afhankelijke variabele) op de y-as.
Figuur 4.15 Kieswijzer Andrew Abela – Nederlandse vertaling gemaakt door

Andris Versteeg (http://forreporters.com/grafiek)
Staafdiagrammen zijn handig om verhoudingen en hoeveelheden mee weer

te geven. Je kunt er eveneens een tijdsverloop mee weergeven. De hoeveelhe-
den worden doorgaans in de y-as afgezet en de verschillende eenheden of het
tijdsverloop op de x-as. Cirkeldiagrammen zijn vooral bedoeld om procentu-
ele aandelen (verhoudingen) weer te geven.
Valkuilen
Kijk eens goed naar onderstaande grafiek uit The Economist. Wat is hiermee
aan de hand?
Op het eerste gezicht lijkt het alsof de criminaliteit sterk is afgenomen. Het
zegt echter niets over het aantal incidenten. De grafiek presenteert relatieve
cijfers in plaats van absolute getallen en kan zo een vertekend beeld geven als
je dit niet in je achterhoofd houdt.

Figuur 4.16 Relatieve of absolute cijfers? (http://forreporters.com/economist)
Nog eentje. In welke visualisatie is de stijging van het aantal miljonairs het
grootst?
Figuur 4.17 Spectaculaire stijging aantal miljonairs in Nederland? (http://for-

reporters.com/miljonairs)
Het lijkt alsof het aantal miljonairs in de eerste grafiek meer is toegenomen
dan in het tweede plaatje. De stijging is echter even groot; in het linker plaatje
start men simpelweg met een hoger nulpunt. Een visualisatietruc die vaak
gebruikt wordt om cijfers te dramatiseren.

143
Tot slot kunnen statistieken helpen bij het beantwoorden van vragen waar je
het antwoord al op denkt te weten. Zie de voorbeelden van Vali Chandraseka-
ran op de site van Bloomberg Businessweek (http://forreporters.com/business
week).
Figuur 4.18 Correlatie of oorzaak? (http://forreporters.com/businessweek)
Maar of de vermeende correlatie nu ook werkelijk een causaal verband aan-

geeft?
Excel
Een journalist kan een oneindig aantal tools inzetten om grafieken te

maken. Welke tool je hiervoor kiest, ligt aan de wensen op het gebied van
interactiviteit of design. Excel bijvoorbeeld maakt prima statische grafie-
ken. Voor de meeste grafieken, zoals kolom- en staafdiagrammen, heb je niet
meer nodig dan een set van data in rijen en kolommen in een werkblad. Voor
andere grafiektypen, zoals cirkeldiagrammen en bubbeldiagrammen, is een

bepaalde rangschikking van de gegevens nodig. Excel biedt de mogelijkheid

tot een traditionele kolom, lijn of staafdiagram. Daarnaast kun je met dit
programma een 3d- of een bubbelgrafiek maken. Na het aanmaken van een
grafiek kun je bijschriften aanpassen, of de vorm en kleur wijzigen. Excel-
grafieken werken over het algemeen prima als aanvulling op een artikel.
Zie http://forreporters.com/grafiekenmetexcel voor een uitgebreide handleiding grafieken

maken met Excel.
Google Fusion Tables
Online kun je nog veel verder gaan. Google Fusion Tables, ManyEyes en
Tableau zijn drie handige programma’s waarmee je zowel statische als inter-
actieve grafieken kunt maken. Google Fusion Tables is een online applicatie
waarmee een journalist kaarten, tijdlijnen en grafieken creëert. De applicatie
zit in de cloud, waardoor het gemakkelijk is om met meerdere mensen samen
aan één project te werken. Als je ingelogd bent bij Google Fusion Tables, kun
je openbare tabellen bekijken of een eigen set uploaden. Het doorbladeren van
beschikbare tabellen kan een goede manier zijn om inspiratie op te doen naar
vragen die je kan stellen of gewoon om een idee te krijgen van wat er allemaal
is aan data. Als je een bestand uploadt (Google Fusion Tables accepteert de
meeste gangbare formaten), houd er dan rekening mee dat Excel-bestanden
maar 1 Mb groot mogen zijn. CSV-bestanden kunnen tot 100 Mb. Als je dit
hebt gedaan, krijg je een tabel te zien waarop je een aantal handelingen kan
uitvoeren. Zoals filteren, berekeningen maken, sub-tabellen creëren en visu-
aliseren.
Aljazeera maakte in 2009 gebruik van een interactieve tijdlijn met hulp van
Google Fusion Tables. In de interactieve tabellen kunnen gebruikers informa-
tie naar boven halen. Zo krijgen zij meer inzicht in het aantal geweldsdelicten,
gewonden en doden tijdens de oorlog in Afghanistan. Gebruikers kunnen op
verschillende punten in de grafiek klikken en krijgen zo extra informatie over
een bepaald punt in de visualisatie.

145
Figuur 4.19 Interactieve tijdlijn, gemaakt met Google Fusion Tables (http://
forreporters.com/aljazeera)
Met Google Fusion Tables maak je de meest gangbare interactieve grafieken,

zoals de lijn-, kolom- en staafdiagram. De grote visualisatiekracht van Google
Fusion Tables zit echter in vormen als een geo- of boomgrafiek.
Zie http://forreporters.com/fusiontables voor een stap-voor-stap-tutorial van Fusion

Tables.
Figuur 4.20 Gemiddelde wachttijden in een ziekenhuis in Groot-Brittannië

(http://forreporters.com/ziekenhuis)

ManyEyes
Bovenstaand voorbeeld van een boomgrafiek geeft een overzicht weer van
de gemiddelde wachttijden in een ziekenhuis in Groot-Brittannië, gebaseerd
op open data van de overheid. Deze grafiek is gemaakt met het programma
ManyEyes. ManyEyes (www-958.ibm.com) is een gratis tool om grafieken en
tekstanalyses te maken. De mogelijke grafieken zijn bij dit programma onder-
verdeeld in vijf categorieën:
• grafieken om verschillende waarden te vergelijken, zoals een staafdia-
gram, een blokkenstructuur of een bubble chart;
• grafieken om relaties aan te geven zoals een spreidings-, matrix- of net-
werkdiagram;
• grafieken om data als onderdeel van een geheel te tonen, bijvoorbeeld een
taart- of boomstructuur;
• lijngrafieken die het verloop over een bepaalde tijd aangeven;
• geografische kaarten.
Het gebruik van ManyEyes is gratis. Je bent wel verplicht om bij publicatie je
dataset en je visualisatie openbaar te maken.
Zie http://forreporters.com/manyeyes voor een complete uitleg van ManyEyes.
Tableau Public
Tableau is online applicatie waarmee je grafieken en kaarten kunt maken en

delen. Tableau is een betaald pakket, maar kent ook een gratis Tableau Public-
versie. Hierbij moet je wel, net als bij ManyEyes, na publicatie je visualisatie
en dataset openbaar maken. Tableau werkt met ‘dimensions’ en ‘measures’.
Dimensions zijn de zaken waar je data op sorteert (bijvoorbeeld een overzicht
van alle bedrijventerreinen in Nederland), measures zijn de gegevens die je
daadwerkelijk toont (bijvoorbeeld een provincienaam). Na het rangschikken
van de gegevens en het aanmaken van de grafiek biedt Tableau, vergeleken
met ManyEyes en Excel, meer mogelijkheden om de opmaak van de visualisa-
tie aan te pakken.
The Guardian maakte in 2011 met Tableau een interactieve visualisatie van
verschillen in inkomens. Lezers kunnen hierbij op verschillende beroepen
zoeken, maar ook hun eigen salaris vergelijken met die van anderen.

147
Figuur 4.21 Inkomensverdeling gemaakt in Tableau (http://forreporters.com/

inkomens)
Zie http://forreporters.com/tableau voor een complete training in het gebruik van

Tableau- software.
4.7 Kaarten
Tableau, ManyEyes en Fusion Tables bieden naast het maken van interac-
tieve grafieken en diagrammen een bijzondere optie: het maken van geogra-
fische kaarten. Deze kaarten kun je gebruiken als de data gekoppeld zijn aan
een geografische ligging, bijvoorbeeld als je een overzicht wil maken van de
hoogte van gemeentebelastingen. Door te werken met verschillende kleuren
wordt in één oogopslag zichtbaar waar het meest moet worden betaald. Daar-
naast werken de programma’s met verschillende lagen; zo kan een journalist
een kaart zo aanmaken dat de gebruiker zowel op provincie als op gemeente
kan selecteren.
The Guardian maakte in 2010 gebruik van verschillende tools om de rellen in
Londen in kaart te brengen. Een daarvan was een interactieve kaart, gemaakt
in Google Fusion Tables, waarbij naar een verband wordt gezocht tussen
armoede en het ontstaan van de rellen.

Figuur 4.22 Reading the riots, datavisualisatie (http://forreporters.com/read-

ing riots)
Visualisaties met kaarten kunnen ook andere vormen aannemen dan een
overzicht van gekleurde vakjes. Een voorbeeld van een kaart, gemaakt in
Tableau (New Scientist, 2011), toont een patroon van stormen van de afgelopen
jaren. Op basis van deze oude gegevens wordt een stormachtig jaar voorspeld.
De gekleurde slierten geven inzicht in het verloop en de kracht van de s tormen.
Figuur 4.23 Stormpatronen, gemaakt in Tableau (http://forreporters.com/storm)

149
Om kaarten te maken met Tableau, Fusion Tables en MayEyes dien je geo

locaties aan data te koppelen. Dit kan bijvoorbeeld met KML files. KML staat
voor Keyhole Markup Language. KML kun je zien als een soort program-
meertaal voor geografische gegevens. KML is ontwikkeld door Google en
wordt nu beheerd door een onafhankelijk instituut, waardoor andere appli-
caties er ook gebruik van kunnen maken. KML-bestanden kunnen bestaan
uit één of meer plaatsmarkeringen, paden, polygonen (vlakken die in bijvoor-
beeld Google Earth kunnen worden weergegeven) of overlays (overlappende
vakjes over een visualisatie).
Heb je geen zin of tijd voor het werken met KML-bestanden, of wil je slechts
enkele losse punten op een kaart aangeven, dan kun je ook gebruikmaken van
Google Maps. Dit biedt wat minder mogelijkheden tot het aanpassen van het
design, maar het werkt wel lekker simpel.
4.8 Woordenwolken
Een woordenwolk geeft het relatieve gebruik van woorden in een tekst aan.
Woorden die vaker voorkomen in de tekst, worden groter weergegeven.
Datajournalisten gebruiken woordenwolken om een simpel overzicht te
geven van een lange tekst of verbanden te zoeken binnen bepaalde woorden-
wolken. Voor schrijvers is het daarnaast een ideale manier om je eigen tekst
op overmatig woordgebruik (bijvoorbeeld op het woordje ‘toen’) te con-
troleren. Daarnaast gebruiken veel mensen woordenwolken om zichzelf te
introduceren.
Online vind je veel tools om woordenwolken te maken. Vooral Wordle wordt
vaak gebruikt.
Wordle genereert na de invoer een eerste woordwolk, die je verder naar wens
kunt aanpassen. Ook kun je invloed uitoefenen op de woorden die in de
word cloud zijn opgenomen. Wordle probeert de taal van de tekst te herken-
nen en verwijdert vervolgens automatisch de stopwoorden ‘de’, ‘het’ en ‘een’.
Toch werkt dit niet helemaal perfect. Het is dus handig als je de wolk zelf nog
nakijkt. Zo voorkomt Wordle bijvoorbeeld niet dat afgeleide woorden, zoals
stoel en stoeltje, apart worden opgenomen. Na het aanpassen van de woorden-
wolk kan een journalist de woordenwolk kopiëren of embedden in een site.
NRC Handelsblad maakte in 2010 met behulp van Wordle een analyse van de
belangrijkste toespraken van president Obama. Hierbij zie je dat Wordle niet
perfect werkt. ‘South’ en ‘Carolina’ worden als twee aparte woorden gezien,
terwijl je dat idealiter niet zou willen.

Figuur 4.24 Een Wordle-woordenwolk van NRC Handelsblad (http://for

reporters.com/obama)
Een andere woordenwolkdienst, Tagxedo, kent wat extra trucjes ten opzichte
van Wordle:
• het herkennen van afgeleide woorden en het opnemen van de meest
gebruikte vorm in de word cloud (vooralsnog Engelstalig);
• de mogelijkheid tot het inladen van een bestand;
• het bepalen van de vorm van de word cloud (bijvoorbeeld een hartvorm,
rechthoek, ster of op basis van een tekst of afbeelding die je ingeeft);
• het bepalen van de verhouding van de word cloud (3:2, 4:3, 16:9).
ManyEyes gaat nog een stukje verder dan Wordle en Tagxedo. Het presenteert
niet alleen resultaten op basis van de frequentie van woorden, maar probeert
ook een relatie te leggen tussen bepaalde woorden. Het werkt niet perfect,
maar kan wel binnen enkele secondes een eerste indruk geven van de relaties
binnen een tekst.
De woordenboom van ManyEyes geeft bijvoorbeeld de verschillende con-
texten van een woord of meerdere woorden aan. De context wordt getoond
door middel van een boomstructuur. Onderstaand voorbeeld uit ManyEyes
geeft de boomstructuur aan van een toespraak van Rutte bij het afscheid van
Tjeenk Willink als vice president van de Raad van State. In de visualisatie zie
je direct hoe Rutte Tjeenk Willink in verband brengt met bepaalde zaken.

151
Figuur 4.25 Visualisatie afscheidsspeech Mark Rutte met hulp van ManyEyes
Een andere intelligente toepassing van ManyEyes is het in kaart brengen van
het netwerk van woordengroepen. Dit diagram toont relaties tussen verschil-
lende woorden aan. Bijvoorbeeld door woordennetwerken naar boven te
halen met een ‘en’-, ‘van’- of ‘is gelijk aan’-relatie. Je kunt bij Engelse teksten
gebruikmaken van een reeks vooropgezette verbanden en bij Nederlandse
teksten zelf je gewenste relatiewoorden toevoegen. Deze optie geeft inzicht in
relaties die een schrijver zelf in een tekst heeft gelegd.
4.9 Tijdlijnen
Journalisten laten regelmatig tijdlijnen zien bij hun productie. Het idee daar-
achter is dat je snel de historische ontwikkeling van een onderwerp ziet, bij-
voorbeeld van kernenergie.

Figuur 4.26 Tijdlijn op de website van de NOS
Onder invloed van datajournalistiek komt er steeds meer aandacht voor

betere vormgeving. Hieronder dezelfde tijdlijn over kernenergie, maar dan
gemaakt met Timeline 3D, software van de firma Beedocs:
Figuur 4.27 Dezelfde tijdlijn twee uur later, gemaakt met Timeline 3D
Bij veel media worden verklarende illustraties vaak gemaakt op de afdeling
infographics. Op het web werkt dat niet altijd even goed: een brede illustra-
tie waardoor je helemaal naar rechts moet scrollen of een lange lap tekst die
naar onderen doorloopt, is niet van deze tijd. Bovendien ontbreekt er enige
interactie.

153
De methode om de saaie tijdlijn in 3D te maken is simpel en gemakkelijk. Het

kostte onervaren studenten van de Universiteit van Amsterdam nog geen
twee uur om van een tekstueel getinte tijdlijn een visueel overzicht te maken.
Een goede tijdbalk of tijdlijn is een grafische weergave van een chronologische
opvolging van gebeurtenissen of periodes. Het schema heeft de vorm van een
balk en bezit tijdsaanduidingen met een inschrift of een bijschrift. De tijdbalk
heeft een duidelijke schaalindeling. De gebeurtenissen en periodes kunnen
zowel in de geschiedenis hebben plaatsgevonden als dat ze nog moeten plaats-
vinden in de toekomst.
Het Rotterdamse bedrijf Hoppinger biedt TimeRime aan: een online com-
munity waarbinnen bezoekers tijdlijnen kunnen aanmaken. De onderwerpen
van de tijdlijnen kunnen betrekking hebben op alles wat in relatie kan wor-
den gebracht tot tijd. Gebruikers plaatsen zelf tekst, plaatjes of video in een
systeem, waarna ze op chronologische volgorde worden gepresenteerd en een
overzicht verschijnt van een onderwerp. Deze uitkomst kan vervolgens via een
embed code worden opgenomen in een site, of met anderen worden gedeeld.
De redactie van het Nederlands Instituut voor Beeld en Geluid maakte met
TimeRime een tijdlijn met daarin 60 jaar Nederlandse televisiegeschiedenis.
Het materiaal op de site www.tv60jaar.nl is afkomstig van verschillende col-
lecties van het Nederlands Instituut voor Beeld en Geluid en de Nederlandse
Publieke Omroep, Nationaal Archief/Spaarnestad Photo en EYE Film Instituut
Nederland. In de tijdlijn staan televisie-uitzendingen, foto’s en filmfragmenten.
Figuur 4.28 Zestig jaar televisiegeschiedenis in één tijdlijn

(http://forreporters.com/tijdlijn)

Voor wie wil werken met grotere bestanden (bijvoorbeeld CSV) kan gebruik-
maken van ProPublica’s open source TimelineSetter. De Los Angeles Times
gebruikte deze tool bij het visualiseren van een verhaal over corrupte politici.
Figuur 4.29 Tijdlijn gemaakt met TimelineSetter. De Los Angeles Times won
een Pulitzer-prijs voor het complete verhaal (http://forreporters.
com/bell)
De TimelineSetter kent, naast de mogelijkheden voor het maken van chro-

nologische tijdlijnen, eenvoudige koppelingen met RSS feeds, real time data,
YouTube en Google Maps.
Zie http://forreporters.com/timelinesetter voor een uitgebreide introductie in deze tool.
Fusion Tables, Tableau, Wordle, TimeRime; het is slechts een kleine greep uit
alle visualisatietools die voor datajournalisten beschikbaar zijn. Ieder heeft zo
zijn favorieten. Kijk op de website van dit boek voor een actueel overzicht van
visualisatietools óf lees over de favoriete tools van een aantal datajournalisten
in het laatste hoofdstuk van dit boek.
Oefening: Presenteren van data
Maak een kaart
Bekijk op http://forreporters.com/kaartmaken hoe je zelf eenvoudig een kaart

kunt maken. Volg de instructies stap voor stap en maak een kaart van voor
jou relevante data.

Rokende pistolen 5
Dit is het hoofdstuk waarin ‘data verwerken’ en ‘nieuws vinden’ samen

komen. Eindelijk heb je spannende cijfers, maar de getallen dansen voor je
ogen. In dit hoofdstuk vertellen we hoe je cijfers moet interpreteren en waar je
op moet letten om nieuws te vinden. Je kunt een onderzoek van The New York
Times stap voor stap zelf nadoen dankzij journalist Andy Lehren. S peciaal
voor dit boek stelde hij al zijn materiaal ter beschikking. De Nederlandse
datapionier Dick van Eijk (NRC Handelsblad) schreef aan dit hoofdstuk mee
en onthult zijn twaalf beste tips. Tot slot heeft Pulitzer-prijswinnaar Sarah
Cohen (ex-Washington Post) nog drie ijzersterke suggesties voor je. We hopen
dat je straks geen enkel ontzag meer hebt voor enorme hoeveelheden cijfers.
5.1 Data analyseren: twee strategieën
Rommel je erop los totdat je iets ziet wat nog nooit iemand zag? Of heb je
vooraf een hypothese die je probeert te bewijzen? Deze twee strategieën vullen
elkaar meestal goed aan. Meestal leidt het rommelen tot een vaag v ermoeden.
5.1.1 ‘Rommelen’
Breek met de regels tijdens je rommelfase. Probeer altijd eerst zélf de cijfers
te visualiseren via eenvoudige grafieken in Excel, zie http://forreporters.com/
grafiekenmetexcel. Pas dan vallen je bijzondere stijgingen of dalingen op.
Maak gerust een grafiekje die niet begint bij 0, maar met 9.5 omdat je anders
de nuances niet ziet. Hieronder zie je een lijst van klachten van werknemers
bij een groot Nederlands bedrijf. Je ziet dat er tussen de jaren 2008, 2009, 2010,
2011 en 2012 nauwelijks verschil zit. Dat komt omdat je een schaal gebruik van
0 tot 100:

Figuur 5.1 Niets aan de hand
Laten we de schaal nu eens beginnen in de buurt van het gemiddelde van die
vijf jaren (dat is 10.94). We beginnen met 9.5 en eindigen bij 12.5. Dezelfde cij-
fers zien er nu opeens zo uit:
Figuur 5.2 Toch wat aan de hand
Je ziet dat er in 2012 meer klachten zijn geweest dan je kon zien in figuur 5.1.
Het gaat erom dat je in de rommelfase de data zo presenteert voor jezelf dat je
slimme vragen kan gaan stellen. Misschien gebruik je bovenstaande grafiek
nooit in je verhaal. Maar het helpt je wel de cijfers te beoordelen. Dat doen veel
datajournalisten: ze visualiseren de gegevens vaak voor zichzelf en niet voor het
publiek. Pas helemaal aan het eind van de productie gaat de grafische afdeling
misschien aan de slag met een illustratie of productie voor een breed publiek.
Veel data-onderzoek kent de rommelfase waarin je de getallen op je laat

inwerken en kijkt of je dingen ziet die niet meteen te plaatsen zijn. Dat zijn
vaak de rokende pistolen om vage vermoedens te ontwikkelen. En die leiden
in veel gevallen tot een hypothese.
Hypothese
Een hypothese is een vraag die je baseert op een (soms vaag) vermoeden.

Rokende pistolen
157
Je hebt een lijst van alle oorspecialisten van Nederland waarin staat met welke
verzekeraar ze zaken doen. Ook heb je rapportcijfers van patiënten. Wat zou
je met deze lijst kunnen doen? Een hypothese kan zijn: ‘Zitten de slechtst
beoordeelde oorartsen bij dezelfde verzekeraar?’
De sorteerfunctie in Excel helpt je hypotheses te toetsen. Je kijkt naar de
onderste twintig artsen in de lijst en controleert of bepaalde verzekeraars mis-
schien vaker voorkomen dan andere. Is dat niet het geval? Pas je hypothese
dan aan: ‘Zitten de best scorende oorartsen bij dezelfde verzekeraar?’
In dit voorbeeld blijkt dat inderdaad zo te zijn. Deze constatering is op zichzelf
nog geen nieuws. Het gaat om de reden: waarom scoort de ene verzekeraar zo
goed en de rest niet? Als het de duurste verzekeraar is, dan lijkt de verklaring
logisch. Mensen die meer betalen, krijgen betere zorg. Als het een gemiddeld
dure verzekeraar of juist een goedkope verzekeraar is, dan wordt het al interes-
santer. Hoe kan het dat de goedkoopste verzekeraar ook de beste is?
5.2 Case: de marathon in New York
Ter ontspanning , na een serie inspannende onderzoeksverhalen, ging Andy

Lehren van The New York Times aan de slag met een oude uitslagenlijst van de
marathon van New York. Het zou uiteindelijk leiden tot interessant nieuws,
maar het eerste artikel was dat bepaald niet. Speciaal voor dit boek vertelt
Lehren hoe hij te werk is gegaan.
Zo op het eerste oog zit er geen nieuws in een bestand dat al maanden geleden
is gepubliceerd:
Figuur 5.3 Niets aan de hand

5.2.1 De rommelfase
In deze rommelfase dacht Lehren: wat mis ik eigenlijk aan deze cijfers? Ik zie
alleen de gefinishte mensen. Misschien is het interessant om te zien wie juist
niet finishte en waarom. Hij vraagt een tweede database van de marathon op.
Zijn interesse gaat uit naar de kolom DNF: Did Not Finish. Hij besluit 400
afgehaakte lopers nader te analyseren, want de nieuwe marathonloop in New
York staat voor de deur. Zijn onderzoek leverde een leuk voorverhaal op voor
de liefhebbers, zie http://forreporters.com/marathon.
Figuur 5.4 Voor de liefhebbers: wie haakt waar af bij de marathon van New
York?
Lehren kon na de publicatie de data nog niet loslaten. Hij had een hypothese.
Dat mag jij nu ook doen. Ga naar http://forreporters.com/nytdata en je krijgt
de originele database die Lehren zelf samenstelde op grond van zijn onder-
zoek. Hij heeft deze op verzoek van de auteurs aan jou beschikbaar gesteld.
Het eerste probleem dat je moet oplossen, is dat het bestand is weggeschreven
in CSV. In paragraaf 3.1 lees je hoe dat moet. Als je het bestand hebt ingelezen,
ziet het er nog niet helemaal goed uit. Vooral de vierde kolom irriteert: daar
zijn de naam, leeftijd, sponsor en het land van de loper op één hoop gegooid:

Rokende pistolen
159
NameAgeSponsorCountry
Hoe los je dit op?

1. Zet je cursor in veld D1.
2. Ga in Excel naar Gegevens -> Tekst naar kolommen en klik op Volgende.
3. Probleem! Wil je scheiden op SPATIE, dan gaat het mis:
Figuur 5.5 De standaard scheidingstekens hebben hier geen zin
De lange namen, zoals Marilson Gomes Dos Santos, worden verkeerd over de
kolommen verdeeld.
4. Maak het bestand in meerdere stappen schoon. Ga naar Overige en vul ( in:
Figuur 5.6 De schoonmaak moet in stappen

5. Klik volgende en voltooien en ga akkoord met de vraag of je de cellen wilt

vervangen. Het begin van je database moet er nu zo uitzien:
Figuur 5.7 De namen zijn nu netjes gesorteerd; nu nog de rest
6. We moeten nu wat ruimte maken voor de leeftijden van de marathonlopers,

hun eventuele sponsor en de naam van het land of de Amerikaanse staat. Ga
naar Invoegen – Cellen en voeg twee cellenrijen toe.
7. Klik op kolom E. Je moet Excel nu vertellen wat voor soort gegevens er in de

nieuwe kolommen komen te staan. Doe je dat niet, dan krijg je na het impor-
teren misschien rare gegevens te zien. Klik op CONTROL-1 en kies voor de
categorie Algemeen -> OK.
8. Klik weer op kolom E en ga naar Gegevens -> Tekst naar kolommen en klik
op Volgende. Ga naar Overige en vul ) in en klik op Volgende.
Figuur 5.8 De leeftijden netjes tonen

Rokende pistolen
161
9. Het bestand moet er nu zo uitzien:
Figuur 5.9 Bijna klaar: sponsors en landen staan nog wel in één kolom
Klik op kolom F en ga via Gegevens weer naar Tekst naar Kolommen en Vol-
gende. Nu kun je als scheidingsteken wel een komma aanvinken.
Figuur 5.10 Nu mag je wel een komma kiezen
Klik op Volgende en Voltooien.
10. Het laatste klusje dat je nu nog moet doen, is dat je boven de kolommen de
juiste omschrijving zet.
Figuur 5.11 De klus is geklaard, we kunnen aan het werk
Onderzoek welke sponsor het beste scoort: wie heeft de hoogst geklasseerde
lopers? Wie de laagst geklasseerde? Welke landen scoren het best? Welke het
slechtst? Wie is de hoogst geklasseerde oudste deelnemer? Wie is de jongste?

Al spelende met de database – we zitten nog steeds in de rommelfase – viel

Lehren iets op. Als je voorbij de top 1000 scrollt, zie je bij de tussentijden (10,
15, 20 km, halverwege, 25, 30, 35 en 40 km) af en toe cijfers ontbreken. De tus-
sentijden worden gemeten door een soort mat in de weg.
5.2.2 De hypothese
Nu kwam Lehren met een hypothese: hebben de renners die meer dan een
keer de mat hebben gemist, gefraudeerd?
Sorteer de renners nu zo dat ze de eerste mat moeten hebben gemist, maar wel
een eindtijd hebben (40K). Dat doe je zo:
1. Klik helemaal links op de 1 en kies voor Gegevens  Filteren. Je ziet dan

dit:
Figuur 5.12 Filteren van gegevens
2. Ga naar veld I1 en klik op het kleine pijltje naast 10K:

3. Klik op Alles selecteren.
Figuur 5.13 Alles selecteren moet uit

Rokende pistolen
163
Scroll naar beneden totdat je Lege Waarden ziet. Vink dit aan.
Figuur 5.14 Lege Waarden moet aan
Je hebt nu een lijst van mensen die de eerste rondetijd hebben gemist. Je wilt
echter alleen mensen zien die ook werkelijk de finish hebben gehaald. Klik op
het pijltje in cel P1 en haal nu juist het vinkje weg bij Lege Waarden.
Opeens ruik je nieuws. Sommige renners hebben twee, drie, vier en zelfs alle
matten gemist, behalve de eindmat. Ze zijn toch geklasseerd. Hoe kan dit?
Figuur 5.15 Rokende pistolen in beeld: hoe kan het dat iemand vele matten
mist en toch mag finishen?

Lehrens tussendoortje (‘ik wilde een beetje ontspannen met cijfers over mijn
favoriete sport’) wordt nu opeens een hoofdnummer. Hij wist de foto’s van
de mensen te vinden die mogelijk gefraudeerd hebben – via een site waarop
renners foto’s kunnen nabestellen. Het viel hem op dat een winnaar in de cate-
gorie ouderen een jonge, gebronsde Italiaan was. Het complete verhaal dat
ontstond dankzij deze data, vind je op http://forreporters.com/verhaal.
5.3 Cijfers interpreteren
Hoe interpreteer je cijfers? We pakken een tweede voorbeeld op grond waar-

van je zes algemene tips krijgt die je op databases kunt toepassen. We werken
met een persbericht van Bejaardentehuis Het Rokende Pistool in Antwerpen,
in de volksmond ‘De Snik’ geheten. Daarin staat dat de hoofdvleugel is ver-
bouwd, dat ze heel tevreden zijn over hun zorgbeleid en, oh ja, ze melden wat
cijfers over ongevallen in het tehuis. Kijk eens naar figuur 5.16.
Figuur 5.16 Bejaardentehuis Het Rokende Pistool: hoeveel ongelukken waren

er in 2010 en 2011?
Wat vind jij nieuws? Je ziet dat het aantal ongelukken is gedaald met 60.
Figuur 5.17 Minder ongelukken, dat is positief nieuws

R o k e n d e p i s t o l e n
165
Afgezien van het flauwe woord ‘oudjes’ lijkt er niks mis te zijn met deze kop.
Het aantal ongelukken is gedaald en dat staat ook in het artikel. Maar is dit
het echte nieuws? Is een daling interessant genoeg voor een bericht? Dat hangt
natuurlijk van de oorzaak af. Maar voordat je daarnaar op zoek gaat, moet je
eerst onderzoeken hoe nieuw de cijfers zijn. Want anders word je misschien
slachtoffer van de ‘De Goed Nieuws Show’.
5.3.1 Check de nieuwswaarde
Sommige journalisten zullen het nieuws in figuur 5.17 niet melden omdat ze
een daling niet spannend genoeg vinden. Ze willen liever een alarmerende
stijging. Die lijkt niet aanwezig. Maar zo redenerend doen ze in de case van
Bejaardentehuis Het Rokende Pistool precies wat de directie hoopt: de echte
verhalen worden genegeerd.
Het tehuis blijkt nog nooit in zijn bestaan cijfers over ongelukken naar buiten
te hebben gebracht. Het is de allereerste keer dat ze het doen. Deze nieuwe cij-
fers zijn weggemoffeld in een persbericht over andere zaken.
Controleer altijd of er al verhalen zijn gemaakt over je data. In dit voorbeeld

heeft het bejaardentehuis voor de allereerste keer gemeld dat er ongelukken in
eigen huis plaatsvinden. Dat las je nog nooit elders. Ze weten je aandacht af te
leiden door ook het cijfer voor het jaar 2010 te melden. Daardoor ga je vanzelf
denken: ach, het valt wel mee, het aantal ongelukken is met zestig gedaald.
Dat is precies de bedoeling van de directie. Ze maken van slecht nieuws goed
nieuws: dat er 180 ongelukken zijn geweest in één tehuis, is wellicht heel
opmerkelijk. Stel dat er maar 200 mensen wonen? Dan heb je als oudere een
hoge kans dat je een ongeluk gaat meemaken. Dat is een aardig nieuwtje.
5.3.2 Vraag aanvullende cijfers op
Veel cijfers, vooral in gevoelige kwesties, worden zó gepresenteerd dat jij er

niet van onder de indruk raakt. Neem de verstrekte cijfers niet klakkeloos
aan, maar ga op zoek naar ontbrekende gegevens.
Vraag zo veel mogelijk de achterliggende cijfers op. Neem geen genoegen met
alleen een rekenkundig gemiddelde. Doe je dat niet, dan ontdek je niet dat er
iets niet klopt. Neem de kop ‘Nederlander snapt Google niet’. Uit een inter-
netonderzoek onder 4000 Nederlanders blijkt dat 80 procent van de mensen
geen verschil ziet tussen de advertenties in Google en de zoekresultaten. Als je

de cijfers opvraagt, zie je direct dat meer dan 80% van de deelnemers aan het
onderzoek ouder is dan 60 jaar. Wat zegt dat? Dat vooral ouderen geen ver-
schil zien tussen reclame en niet-gesponsorde zoekresultaten.
Een van de simpelste, maar splijtende vraag die je aanbieders van cijfers kunt
stellen, is: welke gegevens ontbreken? Ik onderzocht de sterfte in een kinder-
ziekenhuis die ogenschijnlijk wel meeviel. Maar het ziekenhuis had de minst
voorkomende operaties uit de statistieken gehaald om te voorkomen dat zeld-
zame ingrepen met dodelijke afloop te zwaar zouden meewegen. Dat kwam
ik pas te weten door de simpele vraag te stellen: zijn dit alle cijfers van alle
operaties?
Een ontkennend antwoord levert vaak de kiem voor nieuws. Waarom zijn de
cijfers niet meegenomen? Waren ze soms te gevoelig? Zo ja, waarom dan?
Om te beoordelen of Het Rokende Pistool nieuwswaardig is, moet je gaan vra-

gen om meer data. Het eerste wat je opvraagt, is: hoeveel bewoners heeft het
tehuis?
Figuur 5.18 Is het nieuws nu anders?
Je ziet nu dat niet alleen het aantal ongelukken is gedaald, maar ook het aantal
bewoners. Dat werpt een ander licht op de cijfers.
5.3.3 Maak cijfers vergelijkbaar
Probeer de cijfers vergelijkbaar te maken. Zet de data uit figuur 5.18 in Excel.
We gaan nu bekijken hoe het aantal ongelukken zich verhoudt tot het aantal
bewoners.
Figuur 5.19 Cijfers vergelijken. Sommen maken, stap 1

Rokende pistolen
167
Stap 1
We gaan nu het aantal ongelukken delen door het aantal bewoners.
Zet je muiscursor in D6 en klik op
Stap 2
Klik op B6 en je krijgt figuur 5.4 te zien. Zet achter B6 het deelteken / en klik
op cel C6. Dit is wat je ziet:
Figuur 5.20 Cijfers vergelijken. Sommen maken, stap 2
Stap 3
Tik ENTER. In kolom D6 komt nu een getal te staan: 240/1600 = 0.15.
Herhaal de bovenstaande stappen, maar nu begin je de som in D7 en deel je B7

door C7. In kolom D7 komt nu een getal te staan: 180/1200 = 0.15 (zie figuur 5.21).
Figuur 5.21 Cijfers vergelijken. De resultaten van de vergelijking: er is geen

relatieve stijging, er is geen relatieve daling
Je ziet dat in beide jaren hetzelfde percentage bewoners een ongeluk kreeg. Er
is dus geen sprake van minder ongelukken; ze bleven gelijk. De kop moet op
dit moment zijn, als het al nieuws is:
Figuur 5.22 Een heel andere kop, gebaseerd op dezelfde cijfers

Ook met dit ‘nieuws’ is het bejaardentehuis blij. Er is niks aan de hand!
Maar wacht even, weet je eigenlijk wel hoeveel bewoners een ongeluk hebben
gehad? Nee, dat weet je niet. Kijk nog even naar figuur 5.19. Je weet alleen het
aantal bewoners per huis en het aantal ongelukken.
Vraag opnieuw aanvullende cijfers op. Dat is niet raar. Bij je onderzoek zal dat
vaak gebeuren. Cijfers zijn net als zegslieden: antwoorden geven vaak aanlei-
ding om door te vragen.
5.3.4 Beoordeel de ernst van de cijfers
De nieuwe cijfers zijn binnen:

JAARTAL ONGELUKKEN BEWONERS PERCENTAGE SLACHTOFFERS
2011 180 1200 0.15 180
2010 240 1600 0.15 100
Figuur 5.23 Nog meer cijfers: nu met het aantal slachtoffers. Hoeveel mensen
kregen een ongeluk?
In 2011 zijn 180 verschillende bewoners betrokken geweest bij een ongeluk. In
2010 waren dat er maar 100. Dus sommige bewoners kregen vaker een onge-
luk in dat jaar. Wat betekent dit voor het beoordelen van de ernst van de cij-
fers? Dat is aan jou. Ga je uit van ongelukken of mensen?
Aan welke invalshoek hecht jij de meeste waarde en waarom? Waarschijnlijk
gaat het je om de mensen in het tehuis, niet om het veel abstractere ‘ongeluk-
ken’. In 2011 waren er meer mensen die een ongeluk hadden (180) dan in 2010
(100). Het aantal slachtoffers is juist gestegen. Eindelijk ben je bij het nieuws
dat het bejaardentehuis liever had verzwegen:
Figuur 5.24 Vergelijk deze kop met figuur 5.17. Bijna was je de mist ingegaan.

Rokende pistolen
169
Misschien begrijp je nu waarom we in de inleiding van dit boek schreven

dat cijfers vaak niet het hele verhaal vertellen. Dat moet jij doen. Je snapt
inmiddels dat je de waarheid kan liegen, afhankelijk waarvan je stopt met je
onderzoek.
5.3.5 Stel de ‘Nou en’-vraag
In datajournalistieke projecten is de blijdschap over een bijzonder verband

of opmerkelijk verschil soms zó groot dat de vlag te snel uitgaat. Het weken-
lange gezwoeg op de database heeft eindelijk een nieuwtje opgeleverd en dat
moet meteen de wereld in. Stel, zeker bij cijfers, altijd de ‘Nou en’-vraag. Wat
betekent figuur 5.23 nou eigenlijk? Hoe ernstig zijn de ongelukken? Dat weet
je helemaal niet. Terug naar paragraaf 5.3.2: vraag aanvullende gegevens op.
Hier zijn ze:
Figuur 5.25 Tien doden, dat wist je nog niet
Je ziet dat er in 2011 tien mensen zijn overleden door een ongeluk. Bepaal eerst
de nieuwswaarde (paragraaf 5.3.1). Is hier al eens over geschreven? Is er mis-
schien een brand geweest? Of zijn dit compleet nieuwe cijfers? Het blijkt dat er
nooit over is gepubliceerd. De meest ernstige kop heb je nu pas:
Figuur 5.26 De heftigste kop tot nu toe

5.3.6 Onderzoek vage uitsplitsingen
We vragen ook de onderverdeling op van het aantal lichtgewonde mensen in

het tehuis.
Figuur 5.27 Uitsplitsing van het aantal lichtgewonden
Je ziet dat de categorie Val in 2010 veel kleiner is dan de categorie Overig.
Dat is soms ook een truc om je op een dwaalspoor te brengen. Het is vreemd
om een categorie die het grootst is Overig te noemen en de kleinste categorie
wel een naam te geven (Val). Vraag op dit soort momenten altijd een betere
onderverdeling op:
Figuur 5.28 Aantal brandwonden in het tehuis
De categorie Overig bestaat volledig uit mensen met (lichte) brandwon-

den. Ook al is het cijfer al een tijdje oud, het blijft interessant om na te gaan
waarom in een jaar tijd maar liefst 210 brandwonden optraden bij de ouderen
in het bejaardentehuis. De oorzaak blijkt het bezuinigen op het verplegend
personeel te zijn, waardoor ouderen niet altijd op tijd uit bad worden gehaald:
Figuur 5.29 Alweer nieuws, dit keer door de cijfers uit 2010 nog eens beter te
bekijken

Rokende pistolen
171
Nog even terug naar figuur 5.27. Kijk naar het aantal mensen dat gevallen is.
Onderzoek de oorzaken. In dit geval was er bezuinigd op schoonmaakperso-
neel, waardoor de vloeren veel te glad waren:
Figuur 5.30 En nog een nieuwtje
Hieronder staan nog even alle zes krantenkoppen die we tegenkwamen gedu-
rende het onderzoek naar De Rokende Pistolen. De eerste twee koppen, ‘Min-
der oudjes gewond’ en ‘Evenveel oudjes gewond’, geven nieuws aan waarmee
de directie van het bejaardentehuis niet ontevreden is: de journalist heeft nau-
welijks meer gedaan dan het persbericht overschrijven. De andere vier kop-
pen kwamen voort uit datajournalistiek en zijn natuurlijk interessanter dan
de eerste twee.
Figuur 5.31 Zonder datajournalistiek was je bij de eerste twee nieuwsberich-

ten blijven hangen

5.3.7 Controleer de methodiek
In bovenstaande cases ging het om absolute waarden en niet om meningen.

Controleer bij meningen altijd hoe ze tot stand zijn gekomen. Alleen al het feit
dat een onderzoek volledig via internet wordt afgehandeld, kan betekenen dat
het niet representatief is. In 2012 werd bekend dat ruim 20% van de Amerika-
nen vrijwel nooit op internet is – ze kunnen daarom nooit meedoen aan de
steekproef.
Probeer ook de vragen op te vragen. ‘Burgers waarderen onze dienstverlening

het hoogst’, meldt een Nederlandse multinational trots. In werkelijkheid heeft
een onderzoeksbureau de volgende vraag gesteld:
Welke bewoording vindt u het beste passen bij ons bedrijf?

a. dienstverlening
b. bereikbaarheid
c. snelheid
d. vriendelijkheid
De vraag is zo opgesteld, dat de geënquêteerde wel positief moet antwoorden.
5.4 De tips van de pro’s
We vroegen Dick van Eijk, een van de eerste datajournalisten van Nederland,
naar zijn beste tips om rokende pistolen te vinden. Ook Pulitzer-prijswinnaar
Sarah Cohen gaf deze. Ze staan beiden op het standpunt dat cijfers net zo
betrouwbaar zijn als een woordvoerder: soms wil de belanghebbende niet de
vuile was buiten hangen.
5.4.1 Lees goed
Bij de meeste kant-en-klare datasets hoort een toelichting. Daarin staat

beschreven welke variabelen erin zitten en hoe. Lees die toelichting, het liefst
een paar keer. Het is vaak erg taaie kost, trek er dus wat tijd voor uit en denk
niet ‘het zal wel’. Let vooral op definities, ontbrekende waarden, afrondingen,
meeteenheden, meetmomenten en identificerende velden. Als je zelf een data-
set samenstelt, schrijf dan ook zo’n toelichting. Op het moment dat je keuzes
maakt, weet je wat je doet, een paar maanden later ben je dat vergeten.

173
Definities zijn belangrijk, omdat je vaak data uit verschillende bronnen met
elkaar zult vergelijken. En verschillende bronnen willen nog wel eens verschil-
lende definities hanteren. Als de ene dataset ‘gepensioneerden’ definieert als
65-plussers en de andere als ontvangers van een ouderdomspensioen, heb je een
probleem. Niet elke 65-plusser ontvangt een ouderdomspensioen en niet elke
ontvanger van een ouderdomspensioen is boven de 65. Daar gaat je vergelijking.
Soms zijn zulke problemen op te lossen, maar lang niet altijd. Je bespaart jezelf
veel werk door zo veel mogelijk aan te sluiten bij gangbare definities, bijvoor-
beeld die van het CBS. Ja, er is ook kritiek op die definities – alleen al over de
definitie van allochtoon zijn boekenplanken vol geschreven – maar ervan afwij-
ken maakt het doorgaans erg lastig om goede data te krijgen.
5.4.2 Ontdek wat ontbreekt
Ontbrekende waarden zijn heel gebruikelijk in datasets. Ze kunnen verschil-

lende oorzaken hebben en ze kunnen op verschillende manieren worden
weergegeven. In datasets die stammen uit enquêteonderzoek, heb je bijvoor-
beeld altijd te maken met respondenten die bepaalde vragen niet hebben
beantwoord. Maar let op: niet beantwoord is niet hetzelfde als ‘geen mening’
of ‘weet niet’. In macrodatasets, bijvoorbeeld met gegevens over landen of
regio’s, kan het zijn dat een bepaald gegeven gewoon niet voor elk land bekend
is. Het drinkwaterverbruik in Nederland is vrij precies bekend, dat van Tsjaad
niet. Maar er kunnen ook heel andere redenen zijn waarom een veld leeg is,
bijvoorbeeld omdat de gegevens geheim zijn, of omdat ze om privacyredenen
niet openbaar gemaakt worden. Dit laatste komt vaak voor in CBS-data over
buurten: in sommige buurten wonen zo weinig mensen van een bepaalde
categorie, dat gepubliceerde gegevens meteen tot personen herleidbaar zou-
den zijn. De manier waarop ontbrekende waarden in een dataset zijn opge-
nomen, verschilt: soms is een veld gewoon leeg, soms staat er een streepje of
een kruisje, soms een numerieke code. Bij enquêtemateriaal betekent ’99’ of
’999’ vaak dat de waarde ontbreekt. Vervang zulke codes eventueel door iets
anders, want als er in een veld een streepje staat, kun je er niet mee optellen of
aftrekken. En als er ’99’ staat en je gaat de inhoud van dat veld optellen bij dat
van een ander veld, krijg je rare uitkomsten.

Statistiek in de krant: kansen zijn iets anders dan kansverhoudingen

Door Sjoerd de Jong
Ombudsman NRC
Nederlanders, ook journalisten, gokken te weinig bij paardenraces. Anders zouden

ze wel vertrouwder zijn met het verschil tussen kansen, odds en odds ratios. Kansen
geven de waarschijnlijkheid aan dat iets al dan niet gebeurt. De odds geven de ver-
houding aan tussen die kansen. De odds ratio is de factor waarmee kansverhoudin-
gen (de odds dus) verschillen.
Een fictief voorbeeld. Stel dat Nederlandse mannen een kans van 20 procent heb-
ben op haaruitval, en dus een kans van 80 procent dat dit niet gebeurt. De kansver-
houding op haaruitval is dan 20/80 = 0,25. Stel dat Belgische mannen onder gelijke
omstandigheden 50 procent kans hebben op haaruitval. Hun kans verhouding is
dan 50/50 = 1,00. De kans voor de Belgen op haaruitval is dan 2,5 keer zo hoog als
voor de Nederlanders (50 gedeeld door 20), maar hun odds zijn maar liefst 4 keer zo
hoog (1 gedeeld door 0,25). En die 4 heet dan de odds ratio.
Verwarring ligt hier op de loer – en journalisten zijn meestal al beter met woorden
dan met cijfers. NRC Handelsblad maakte volgens briefschrijvers een ‘klassieke fout’
in de berichtgeving over een opzienbarend onderzoek in het Nederlands Juris-
tenblad (‘Verdachte met buitenlands uiterlijk krijgt eerder celstraf’, 14 maart). De
krant meldde dat verdachten met een ‘buitenlands’ uiterlijk ‘een vijf keer hogere
kans [hebben] op onvoorwaardelijke celstraf dan Nederlanders, in plaats van een
werkstraf of boete’. Spreken zij de taal niet, dan neemt die kans toe tot twintig keer
hoger.
Hier werden kansen, odds en odds ratios door elkaar gehaald, meenden diverse
kenners. Was dat zo?
Aanvankelijk schreven de verslaggevers inderdaad gewoon over grotere ‘kansen’
om in de cel te belanden. Op de valreep lieten ze zich overtuigen door onderzoeker
Hilde Wermink dat dit niet correct was en pasten ze hun tekst aan. Het onder-
zoek stelt immers niet vast dat groep A een grotere kans heeft op y1 dan groep B,
maar dat bij groep A de kans op y1 ten opzichte van de kans op y2 groter is dan bij
groep B.
Alleen, hoe vermijd je zulke formules en lastige Engelse termen?
Wermink stelde de journalisten deze formulering voor: ‘De kans om wel veroor-
deeld te worden tot een onvoorwaardelijke gevangenisstraf versus de kans op
geen onvoorwaardelijke gevangenisstraf is ruim 20 keer groter voor mensen met
een buitenlands uiterlijk die niet de Nederlandse taal spreken in vergelijking met
verdachten met een Nederlands uiterlijk die de Nederlandse taal spreken.’
Maar de onderzoekster waarschuwde al dat ook die formulering tot misverstanden
kan leiden.

175
Dat bleek, want na publicatie klommen de statistici in de pen. Manfred te

Grotenhuis van de Radboud Universiteit Nijmegen schreef een uitvoerige reactie.
Zijn uitleg begrijp ik als volgt: de kans dat een ‘buitenlander’ onvoorwaardelijke
celstraf krijgt versus de kans op een boete of taakstraf is 5 keer hoger dan die voor
Nederlanders; als hij de taal niet spreekt, 20 keer. Maar dat zijn odds ratios. Buiten-
landers hebben dan niet meteen ook een 5 (en 20) maal hogere kans de gevangenis
in te gaan dan Nederlanders. Twintig keer zou ook absurd zijn, want van de Neder-
landers kreeg 11 procent celstraf en dan zou dus van de buitenlanders 220 procent
(20 x 11 procent) achter de tralies verdwijnen. Odds en odds ratios kunnen groter
zijn dan 100, kansen niet. Als de kans dat u bijvoorbeeld dit jaar niet aangereden
wordt door een krantenbezorger 99,8 procent is, bedragen uw odds 99,8/0,2 = 499.
De kans om in de cel te belanden is volgens Te Grotenhuis voor buitenlanders
gemiddeld eerder 2,5 en 5 keer zo hoog; maar dat is dan weer gebaseerd op een
tabel in het onderzoek die geen rekening houdt met andere relevante variabelen,
zoals de zwaarte van het delict.
En de onderzoekers drukten zich uit in odds ratios, omdat de statistische methode
die ze gebruikten in het artikel een kansverhouding berekent en niet direct kansen.
Zat de krant er nu naast? Niet wat de strekking betreft. Het bericht begon als volgt:
‘Politierechters straffen verdachten met een buitenlands uiterlijk strenger dan
Nederlanders, in het bijzonder als de verdachten geen Nederlands spreken.’ Daar is
geen speld tussen te krijgen, volgens dit onderzoek.
Maar de formulering die op de valreep werd gekozen bij de cijfers (‘kans op cel-
straf in plaats van een boete of taakstraf’), werd niet uitgelegd, en ook niet overal
gebruikt.
Zo stond op de voorpagina: ‘Zijn ze ook het Nederlands niet machtig, dan lopen
ze een twintig keer hogere kans op een vrijheidsstraf.’ En het achtergrondstuk
signaleerde een andere ‘opvallende’ conclusie uit het onderzoek: ‘De kans om wel
veroordeeld te worden tot een onvoorwaardelijke celstraf is voor mannen 6,5 keer
zo groot als voor vrouwen.’ Maar ook hier ging het om odds ratios.
Als leek onthoud je dan toch simpelweg dat de kans van buitenlanders om de cel in
te gaan 5 en 20 keer hoger is dan die van Nederlanders. Een dag later stond het ook
gewoon zo in het commentaar van de krant. En zo verspreidde het nieuws zich ook
op internet.
Moet de krant dan lastige wetenschappelijke termen gebruiken?
Nee, als het maar helder en consequent wordt uitgelegd. Bij twijfel: raadpleeg de
wetenschapsredactie. Of statistici natuurlijk. Dan neemt de kans dat het goed gaat
toe.
Dit stuk is met toestemming van de hoofdredactie van NRC Handelsblad

opgenomen in dit boek.

5.4.3 Afrondingen
Afrondingen kunnen je op het verkeerde been zetten. Zo suggereren de cij-

fers uit de CBS-database Statline soms een mate van exactheid die ze helemaal
niet hebben: een deel van de cijfers is at random afgerond. Je weet dan dus niet
of er naar boven of naar beneden is afgerond. Dit speelt vooral bij lage aantal-
len. Of die afrondingen erg zijn, hangt af van je vragen.
5.4.4 Wat bedoelen ze?
Meeteenheden zijn niet altijd helder, maar je moet precies weten wat de mee-
teenheid is om je data te kunnen interpreteren. Gaat het om individuen of
huishoudens? Gaat het om buurten of postcodegebieden? Gaat het om kiezers
of kiesgerechtigden? Om netto-inkomen, bruto-inkomen, belastbaar inko-
men of besteedbaar inkomen?
5.4.5 Wanneer hebben ze gemeten?
Meetmomenten kunnen verschillen. Vooral in internationale datasets

komt het voor dat een gegeven in het ene land reeds bekend is van 2011, ter-
wijl van het andere land 2009 het meest recente jaar is waarvoor dat gegeven
beschikbaar is. Of dat erg is, hangt maar net af van wat je precies wilt doen.
De koninklijke weg is om voor alle gevallen hetzelfde meetmoment te gebrui-
ken, maar soms kan dat niet, of verlies je daardoor te veel actualiteit. Weet wat
je doet en waarom.
5.4.6 Let op de saaie nummervelden
Identificerende velden zijn velden waarvan de waarde uniek is voor een

bepaalde entiteit en daarmee een record kan identificeren. Veel datasets heb-
ben zulke velden. Mocht je een dataset krijgen zonder zo’n veld, maak het dan
zelf. Sluit waar mogelijk aan bij unieke nummers die gezaghebbende instan-
ties gebruiken, zoals gemeente- of buurtnummers van het CBS, of BRIN-
nummers van het ministerie van OC&W voor scholen. Het gebruik van zulke
velden maakt het makkelijker om datasets te koppelen. Je gebruikt dan het
unieke nummer als koppelveld. En unieke nummers voorkomen ook verwar-
ring tussen bijvoorbeeld Bergen in Noord-Holland en Bergen in Limburg.

177
Als je de toelichting hebt gelezen en hebt bekeken wat voor velden en records
er in de database zitten, heb je een eerste idee van wat voor vlees je in de kuip
hebt. Vaak heb je dan al lang een rij journalistieke vragen klaarliggen. Je had
immers juist die dataset opgevraagd om je vragen te kunnen beantwoorden.
Maar of je nu wel of geen vragenlijst hebt liggen, het kan nooit kwaad eerst
eens wat te vissen in je data. Gewoon een beetje stoeien om te kijken of er iets
interessants in zit. Hoe pak je dat aan?
5.4.7 Sorteren is leren
Alle software om data te analyseren heeft mogelijkheden om records snel te

rangschikken op de waarde in een bepaald veld. Zo kun je buurten rangschik-
ken op aantal inwoners of oppervlakte, en landen op aantal telefoonaanslui-
tingen of percentage van de bevolking met een universitaire opleiding. Maak
vooral heel veel van zulke rangschikkingen. Je krijgt dan gevoel voor twee
belangrijke aspecten van je dataset: het bereik van waarden en usual suspects.
Dat zijn handige zaken om uit je hoofd te weten; ze maken het interpreteren
van data eenvoudiger.
5.4.8 De bandbreedte
Bereik vertelt je hoe groot de grootste zijn en hoe klein de kleinste. Hoeveel
mensen wonen er in een grote buurt, hoeveel mensen in een kleine? Wat is
het gemiddeld inkomen in een steenrijke buurt, wat in een straatarme? Pro-
beer ook te kijken naar de verdeling. Zijn er een paar uitschieters? Of gaat een
waarde van een veld heel geleidelijk van hoog naar laag? Dit kun je het snelst
zien door even een grafiekje te maken. Met uitschieters is vaak iets bijzonders
aan de hand. Wetenschappers proberen uitschieters in een dataset meestal
weg te moffelen: die vinden ze lastig, omdat ze verbanden verstoren. Journa-
listen zijn dol op uitschieters, want daar zitten vaak verhalen in. Maar pas op:
een uitschieter kan ook een artefact van de dataset zijn, of een fout. Juist bij
uitschieters moet je extra goed kijken of dat cijfer wel klopt.
5.4.9 De gebruikelijke verdachten
Usual suspects zijn records die je regelmatig tegenkomt als je rangschikkin-

gen maakt op allerlei velden. Wanneer je bijvoorbeeld buurten rangschikt op

inkomen, of op werkloosheid, of op allochtonen, of op opleidingsniveau, dui-

ken sommige buurten in diverse top twintigs of top vijftigs op.
Vaak kun je wel beredeneren waarom dat zo is (als er veel mensen werkloos
zijn, zal het gemiddeld inkomen wel niet zo hoog zijn), soms is het verrassend.
In elk geval liggen er bij de usual suspects potentiële verhalen.
5.4.10 Gevallen zoeken
Tot dusverre hebben we alleen naar afzonderlijke velden gekeken. Als je naar
meer velden tegelijk kijkt, kun je grofweg twee dingen doen: gevallen zoeken
en verbanden leggen.
Gevallen zoeken is typisch journalistiek werk. Neem een set buurtgegevens
van het CBS. Zoals al is opgemerkt, zal het vaak zo zijn dat een buurt met veel
werkloosheid een arme buurt is. Maar dat is niet per definitie zo. Door te fil-
teren op meer dan één variabele kun je gericht op zoek gaan naar intrigerende
gevallen, bijvoorbeeld rijke buurten met veel werkloosheid, of arme buurten
waarin iedereen een baan heeft. Zijn die er? Dat blijkt uit je data. En zo ja, wat
is daar dan aan de hand? Daarvoor moet je nader onderzoek doen, en daar-
voor heb je vaak niet genoeg aan je data, maar moet je ter plekke gaan kijken.
Het kan bijvoorbeeld zijn dat een buurt een rijk deel en een arm deel heeft.
Dat zie je niet in de data, maar misschien wel op luchtfoto’s. En in elk geval in
het echt. Wetenschappers die met dezelfde data in de weer zijn, kijken overi-
gens zelden naar losse gevallen: ze zijn vooral geïnteresseerd in verbanden.
5.4.11 Verbanden vinden
Verbanden kunnen ook journalistiek interessant zijn. Het gaat dan om de

samenhang – al dan niet oorzakelijk bepaald – tussen twee of meer variabelen:
hoe hangen citoscores van kinderen samen met etniciteit, hoe hangt het salaris
van ambtenaren samen met hun geslacht, hoe hangt de aanwezigheid van Euro-
parlementariërs bij debatten samen met hun herkomstland of politieke partij?
De overeenkomst tussen al dit soort vragen is dat je je data moet groeperen op
een variabele (etniciteit, geslacht, herkomstland) en voor elke groep een gemid-
delde moet uitrekenen voor een andere variabele (citoscore, salaris, aanwezig-
heid). De meeste analysesoftware heeft hiervoor handig gereedschap, bijvoor-
beeld draaitabellen (pivot tables) in Excel, en group-by queries in Access.

179
Let wel, we zijn nog lang niet aan definitieve analyses bezig om antwoorden
te kunnen geven op zulke vragen. We zijn alleen maar aan het vissen, aan het
kijken of er mogelijk interessante verbanden opduiken waar je journalistiek
gezien wellicht iets mee kunt, die nader onderzoek vergen omdat er op het
eerste gezicht iets onverwachts of nieuwswaardigs uitkomt.
5.4.12 Heb kennis van zaken
Bij zo’n nader onderzoek ga je preciezer kijken naar de manier waarop die
categorieën zijn gedefinieerd, hoe het zit met ontbrekende variabelen. En
natuurlijk ga je er meer over lezen: wat is er al bekend over citoscores van
allerlei etnische categorieën, of over de salarissen van mannen en vrouwen?
Niet alleen helpt het lezen van boeken, rapporten en artikelen je zoeken naar
zinnige vragen en naar nieuws, het helpt je ook valkuilen vermijden. Is er
rekening gehouden met leeftijd, met ervaring, met kinderen die de citotoets
niet hebben gemaakt? Realiseer je dat je bij het onderzoeken van verbanden
op het terrein begeeft waarop ook beleidsonderzoekers en wetenschappers
actief zijn. Dat is handig, want dan is er al vergelijkbaar onderzoek. Maar
het is ook link, omdat je gemakkelijk in methodologische haarkloverijen
terechtkomt. Die gaan gegarandeerd over de hoofden van je lezers of kijkers
heen, en doen de geloofwaardigheid van je verhaal zelden goed.
Het analyseren van data biedt een waardevolle aanvulling op het journalis-
tieke repertoire, maar het komt niet in de plaats van kennis van zaken over het
onderwerp. Als je niet weet waar je het over hebt, ga je geheid de mist in, hoe
handig je ook bent in het stoeien met datasets.
Tot zover de tips van Dick van Eijk. Sarah Cohen werkte jarenlang als data-
base-editor bij de Washington Post en won met haar werk de prestigieuze
Pulitzer-prijs. Ze is nu werkzaam als professor journalistiek aan de Duke Uni-
versity in Durham. Voor dit boek vroegen we naar haar drie beste tips in de
zoektocht naar rokende pistolen.

5.4.13 Bekijk het van twee kanten
Cohen probeert dezelfde gegevens of gegevens die sterk op elkaar lijken

van verschillende kanten te krijgen. Zo zijn nationale gegevens vaak opge-
bouwd uit lokale gegevens. Gegevens over scholen komen in eerste instan-
tie van een individuele school, worden dan verwerkt in wijkdata, vervolgens
naar gemeentelijke data en uiteindelijk becijferd op nationaal niveau. ‘Door
de onderliggende gegevens te bestuderen zie je soms opvallende verschillen
tussen datasets waardoor je interessante nieuwe vragen kunt stellen.’ Maar
andersom kan ook: met een beetje geluk combineer je twee niet complete
databases tot eentje die wel aardig volledig is. Deb Nelson van de Washing-
ton Post vroeg aan de National Institutes of Health en de Harvard University
dezelfde gegevens. Beide clubs censureerden elk gegevens die ze niet publiek
wilden hebben. Toen Nelson de twee gecensureerde databases kreeg, bleek dat
de twee instituten niet precies dezelfde cijfers hadden verwijderd. Daardoor
werden twee incomplete databases uiteindelijk wel compleet.
Cohen merkt ook regelmatig dat ze cijfers soms eerder kan krijgen door bij
verschillende leveranciers navraag te doen. De auteurs van dit boek heb-
ben gemerkt dat sommige cijfers van het CBS die nog niet openbaar zijn, wel
beschikbaar zijn bij Eurostat. Dat komt doordat de deadline voor bepaalde
Nederlandse statistieken voor Europa strenger is dan voor het CBS zelf. Zo
vind je via een omweg toch de cijfers.
5.4.14 Werk van beneden naar boven
Sarah Cohen werkt liever ‘vanaf de grond omhoog’ dan vanaf ‘statistieken
naar beneden’. ‘Wat ik daarmee bedoel, is dat ik het liefst individuele gevallen
vind – door een straatinterview of gewoon vragen stellen – en dan omhoog ga
om te berekenen hoe wijdverspreid het patroon is. Toen ik werkte aan onder-
zoek naar landbouwsubsidies, was ik in eerste instantie niet bezig met allerlei
cijfers, maar met een tip dat mensen subsidie voor rijst kregen terwijl ze hele-
maal geen rijst verbouwen. Vervolgens ben ik gaan nadenken: kan ik zoiets
ook terugvinden in een database? Waar moet ik dan op letten? Ergens moet
zijn vastgelegd dat ze subsidies krijgen, maar dat ze kennelijk geen bewijs
hoeven te leveren over wat er daadwerkelijk wordt verbouwd. Al gauw bleek
dat nergens in de regels stond dat ze bewijs moeten leveren, zelfs niet om in
aanmerking te komen voor aanvullende subsidies bij lage prijzen of weerram-
pen, zoals overstromingen of droogte. Door de databases goed te bestuderen
vonden we honderdduizenden landbouwers die een beetje subsidie kregen
voor helemaal niets doen. Het ging om een periode van vijf jaar, waarin ruim
1,3 miljard dollar werd uitgekeerd.’

Rokende pistolen
181
Figuur 5.32 Het nieuwsitem van Sarah Cohen vind je op www.forreporters.

com/sarah
5.4.15 Modus operandus
Bedenk vooraf hoe een database is opgebouwd door na te denken wat wel
en niet wordt bijgehouden. Kom vooraf met een modus operandi. Sarah
Cohen: ‘Stel dat je op zoek bent naar fake overheidscontracten. Hoe zou-
den die zijn verwerkt in officiële data? Wat zou iemand moeten doen om het
te verbergen? Is het misschien zo dat kleinere bedragen niet hoeven te wor-
den gespecificeerd en dat je ze in de statistieken in een algemenere post terug
kan vinden? Zo ja, wat is die post dan? Wordt er misschien een uitgavenpost
bedacht die ongebruikelijk is?’
Sarah roemt een stuk van The New York Times over het omkopen van Mexi-
caanse ambtenaren door winkelketen Wall-Mart, zie http://forreporters.com/
walmart.
Figuur 5.33 Farmsubsidy.org houdt ook voor Nederland bij wie subsidie krijgt
en waarom, zie http://forreporters.com/subsidie en http://www.
hetlnvloket.nl/databank-eu-subsidiegegevens-2011

De journalisten van The New York Times ontdekten dat de bedragen voor
omkoping werden weggewerkt via rekeningen met daarop steeds dezelfde,
maar ongebruikelijke (want niet gangbare) code. ‘Kijk dus naar codes en
omschrijvingen die je niet snapt omdat je ze nooit eerder zag. Roep desnoods
vergelijkbare cijfers van een ander bedrijf in dezelfde branche op en vergelijk
hun modus operandi. Wat afwijkt, is vaak een “smoking gun”: kijk naar de
codes die een bepaalde ambtenaar gebruikt en verder niemand.’
Vrijwel alle cijfers bevatten omschrijvingen die je niet meteen begrijpt. Leer
het speciale jargon kennen en durf bij voortduring te vragen om wat iets bete-
kent. Vraag om een legenda, een ‘code book’, instructies of wat dan ook dat
bijdraagt aan begrip van de database. Het helpt je dingen te zien in een data-
base waarop je normaal gesproken niet let. Als jij het al niet begrijpt, hoe moet
je lezer, luisteraar of kijker het dan begrijpen?
Oefening: Smoking guns
Hypothese bedenken
Op vakantie ben je voor € 2,50 per boeking verzekerd tegen het niet doorgaan
van je reis vanwege calamiteiten, zoals een faillissement. Dat geld wordt geïnd
door de Stichting Garantiefonds Reisgelden. Je beschikt over een lijst van het
aantal personen dat zich verzekerde tegen calamiteiten. Ook heb je het jaar-
verslag van de stichting waarin staat hoe vaak ze schade hebben gehad. Wat is
nu een interessante hypothese?

Discutabele data 6
Hoe kan een cijfer nou niet waar zijn? Een werkloosheidspercentage is mis-
schien gebaseerd op een ingewikkelde berekening, maar is altijd exact. Als
je een buitentemperatuur voelt van 30 graden Celsius, is dat een precieze
meting. Het is dan gewoon warm – geen punt van discussie.
Als het Centraal Bureau voor de Statistiek meldt dat meer mensen dan ooit
geld lenen, dan is dat toch boven elke twijfel verheven? De omzetcijfers van de
detailhandel of inflatiecijfers: hoe kunnen die er nu naast zitten? Waarom zou
je maar een moment twijfelen aan de waarheid van exacte getallen?
Omdat cijfers ook maar meningen zijn.
Het zit ‘m in de kleinste dingen, om maar eens te beginnen met de buiten-

temperatuur. Wat is temperatuur? Vakspecialisten zeggen dat ze de kineti-
sche energie berekenen van luchtdeeltjes. Die berekening bepaalt ons doen en
laten: met vrieskou blijven we thuis en met tropische temperaturen doen we
het rustig aan. De Duitse meteoroloog Gerd Jendritzky vindt het ontzag voor
de luchttemperatuur dubieus: ‘We voelen als mensen niet de temperatuur van
de lucht. Wat we voelen, is de temperatuur van ons lichaam, dat reageert op
lucht, wind, zon, luchtvochtigheid en allerlei andere factoren.’
Meteorologen experimenteren daarom met nieuwe indexen, zoals gevoels-
temperaturen.
Vraag je bij elk cijfer altijd af: hoe is het tot stand gekomen? Het werkloos-
heidspercentage is niet zo precies als het klinkt. Wie stop je in een werkloos-
heidscijfer? Natuurlijk niet kinderen of mensen die al met pensioen zijn. Maar
wie dan wel? In 1984 daalde de werkloosheid onverwachts. Bij nader onder-
zoek was dat nogal logisch. De overheid besloot dat jaar om 50.000 werklozen
boven de 57,5 jaar niet meer mee te rekenen. Zo wordt er voortdurend aan het
getal gesleuteld. Probeer altijd bij de maker van de cijfers op te vragen in welk
jaar wat is veranderd in de ‘cijferformule’. Soms is het botte feit dat de over-
heid sleutelt aan de berekening van cijfers al nieuws. De toenmalige minister-
president Ruud Lubbers zei af te zullen treden als meer dan een m iljoen

mensen arbeidsongeschikt zouden zijn in Nederland. Voorafgaand aan ingrij-

pende maatregelen werd de berekening van arbeidsongeschiktheid aangepast,
zodat Lubbers niet om deze reden hoefde af te treden.
Een ander voorbeeld. Het CBS publiceerde in 2012 onderstaand bericht:
Figuur 6.1 Foutieve berichtgeving van het CBS – het gebeurt maar zelden
De Volkskrant besloot het na te trekken en concludeerde dat het CBS blun-

derde. Uit de kleine lettertjes bij de CBS-statistieken valt namelijk op te
maken dat het CBS álle creditcardtransacties als ‘lening’ telt, ook gewone
betalingen die met creditcards zijn verricht. Het CBS heeft gewoon een fout
gemaakt door het opnemen van creditcardbetalingen in de statistieken.
Een dag later verscheen op de website van het CBS het volgende bericht:
Teruggetrokken: Nederlanders lenen meer en vooral duurder.
Het CBS heeft op 22 februari op deze website een artikel gepubliceerd over con-
sumptief krediet. Naar aanleiding van een artikel in De Volkskrant is onduidelijk-
heid ontstaan met betrekking tot de creditcardkredieten. Onderzocht wordt welke
gevolgen dit heeft voor de cijfers en conclusies in het artikel. Totdat hierover zeker-
heid is trekt het CBS dit artikel terug uit zorgvuldigheidsoverwegingen.

Discutabele data
185
6.1 Onnozele verbanden
Jelke Bethlehem werkt als wetenschapper bij het CBS en doet onderzoek naar
de manier waarop cijfers worden vergeleken en hoe ze tot stand komen. Hij
ziet niet alleen het gevaar van berichtgeving op basis van wankele cijfers,
maar ook het gevaar van vergelijken. Als voorbeeld maakte hij een pun-
tenwolk, waarbij voor elke provincie de waarden van twee variabelen tegen
elkaar zijn afgezet: de omvang van het brandweerkorps (het operationele deel)
en het aantal branden met schade. Zelden zie je een zo duidelijk verband. De
punten liggen vrijwel op een rechte lijn. De conclusie is duidelijk. Naarmate
er meer brandweerlieden in een provincie zijn, doen zich meer branden voor.
Hieruit zou je kunnen concluderen dat er bij bezuinigingen op brandweer-
korpsen minder gebouwen in vlammen opgaan. Of als je nog korter door de
bocht gaat, dat alle brandweerlieden pyromanen zijn!
Figuur 6.2 Aantal brandweerlieden en aantal branden per provincie
De grafiek toont een duidelijke samenhang tussen het aantal brandweerlieden

en het aantal branden. Door de brandweerlieden op de x-as te zetten en de
branden op de y-as, wordt de suggestie gewekt dat de omvang van een korps
van invloed is op het uitbreken van branden. Of nog erger: dat de brandweer-
lieden zelf de oorzaak zijn. Maar dat is gelukkig onzin; de grafiek geeft alleen
een samenhang weer en specificeert niet de reden hiervoor. Er is geen sprake
van een causaal verband.
Je bent vergeten rekening te houden met een andere factor: de dichtheid van
de bebouwing. En daarmee het aantal mensen dat in de regio van een brand-
weerkorps woont. Wanneer er sprake is van een dichtere bebouwing, zijn
er meer kansen op brand en daarvoor zijn meer brandweerlieden nodig.

Het probleem is niet dat je appels met peren vergelijkt, je bent domweg de
bananen vergeten.
Een andere denkfout die vaak wordt gemaakt bij onderzoek, is de Simpsons
paradox. Die is genoemd naar de statisticus E.H. Simpson, die er in 1951 voor
het eerst over publiceerde. De paradox verklaart waarom de resultaten van
groepen lijken om te draaien, als je ze op een onhandige manier combineert.
Stel je voor: in twee klinieken (we noemen ze Het Alziende Oog en Snel
Weer Zien) worden twee oogingrepen uitgevoerd, een ingreep aan staar en
een minder risicovolle laserbehandeling. De meeste van deze operaties gaan
goed (+), maar soms gaat er ook wel eens iets mis (-). In de volgende tabel staan
de aantallen ingrepen van een kalenderjaar uitgesplitst.
Kliniek + - Totaal
Het Alziende Oog 2400 80 2480
Snel Weer Zien 700 20 720
Totaal 3100 100 3200
Figuur 6.3 Overzicht totaal aantal succesvolle en niet-succesvolle ingrepen

van twee klinieken
We zijn nu geneigd om te zeggen dat Snel Weer Zien een betere score heeft,
immers:
• percentage succesvolle ingrepen Het Alziende Oog: 2400/2480 = 0.968;
• percentage succesvolle ingrepen Snel Weer Zien: 700/720 = 0.972.
Maar is dit wel terecht? Dat kunnen we pas zien als we verder de cijfers
induiken. Dan blijkt dat Het Alziende Oog relatief vaker de meer risicovolle
staaringreep uitvoert. Allereerst de cijfers van de lichte ingreep, de laser
behandeling.
Kliniek + - Totaal
Totaal 1200 31 1231
Figuur 6.4 Overzicht succesvolle en niet-succesvolle laserbehandelingen van

twee klinieken

Discutabele data
187
Nu zien we een ander beeld: Het Alziende oog scoort ietsje beter (0.976) dan
Snel Weer Zien (0.974). Dat komt nog ietsje duidelijker naar voren bij de wat
zwaardere staaringrepen.
Kliniek + - Totaal
Totaal 1900 69 1969
Figuur 6.5 Overzicht succesvolle en niet-succesvolle staaringrepen van twee

klinieken
Het Alziende Oog scoort ook nu beter (0.965) dan Snel Weer Zien (0.962).
Zo zien we de Simpsons paradox: als je de gegevens van de klinieken op een

onhandige manier combineert, lijken de resultaten van de groepen om te
draaien. Bij dit voorbeeld vergeten we in eerste instantie om te kijken naar de
verhouding van de verschillende soorten ingrepen.
Het verschijnsel komt ook voor in de sport: een voetballer kan bijvoorbeeld
zowel in 2010 als 2011 een beter scoringsmiddelde hebben dan een concurrent,
terwijl de concurrent over die twee jaren samen ineens een hoger gemiddelde
heeft. Ook een onderliggende gezamenlijke oorzaak kan een vertekend effect
veroorzaken. Baby’s met een laag geboortegewicht van rokende moeders heb-
ben een lager gemiddeld sterftecijfer dan baby’s met een laag geboortegewicht
van niet-rokende moeders. Dat komt waarschijnlijk niet doordat roken goed
is voor een baby; rokende moeders krijgen gemiddeld meer kinderen met een
laag geboortegewicht.
De boodschap zal nu wel duidelijk zijn. Als je ergens een statistisch ver-
band vindt, dan moet je niet in de val trappen om onmiddellijk een oorza-
kelijk verband vast te stellen. Ook het CBS moet daarmee oppassen. In het
CBS-webmagazine van 20 mei 2009 staat een artikel met de kop ‘Boeren met
meewerkende partner hebben grootste boerderij’. En het bericht begint met
de zinnen: ‘Boeren met een meewerkende levenspartner hebben grotere land-
bouwbedrijven dan alleenstaande boeren of boeren met een niet-meewer-
kende partner. Van de boeren in Nederland heeft 62 procent een partner die
ook op de boerderij werkt. Ongeveer 27 procent heeft geen partner.’ Het staat
er niet, maar het roept de suggestie op dat als je boer maar zo gauw moge-
lijk een partner moet nemen, want dan wordt je bedrijf groter. Maar zo zit het
natuurlijk niet. Het oorzakelijk verband zal eerder andersom liggen: op grote
boerderijen heb je een meewerkende partner nodig. Misschien had de kop

beter anders kunnen luiden, zoiets als ‘Grote boerderijen hebben meer mee-
werkende partners’.
Hoe dan ook, met de statistiek kom je meestal niet veel verder dan het vast-
stellen van een verband, het samengaan van twee verschijnselen. Pas op met
het wekken van de suggestie van oorzakelijke verbanden.
6.2 Uitspraken zonder waarde
Vergelijk beide uitspraken eens. Welke vind je het meest geloofwaardig?
Uit een studentenblad:
‘De gemiddelde bijverdienste van een student van de postdoctorale opleiding

voor journalistiek aan de Erasmus Universiteit is 600 euro.’
Een student uit deze groep zélf:
‘Huh, volgens mij verdienen de meeste studenten uit mijn groep helemaal
niets bij.’
Beide uitspraken lijken tegenstrijdig. Wie geloof je? Waarom? Geloof je de

officiële statistiek of de mening van één student? Waarom?
Laten we de precieze cijfers bekijken:

Jan 0
Kees 6000
Willem 0
Mathilde 0
Jose 0
Taran 0
Matteo 0
Anita 0
Marcel 0
Anna 0

Discutabele data
189
Van de tien studenten heeft alleen Kees een bijverdienste van 6000 euro
per maand. Dat komt omdat hij een succesvol bedrijfje heeft in iPhone-
applicaties. De rest van de groep heeft geen bijbaantje en moet zelfs geld lenen
om rond te komen.
Gemiddelde
Het is een raar ding, een gemiddelde. Niemand in de groep verdient echt 600
euro bij. Cijferaars hebben gewoon alle inkomens bij elkaar opgeteld en door
tien gedeeld. Op Kees na verdient iedereen 0 euro. Vrijwel niemand in de
groep herkent zich in de statistisch verantwoorde uitspraak dat de rekenkun-
dig gemiddelde bijverdienste van de tien studenten 600 euro per maand is.
Zo is het wel vaker met een rekenkundig gemiddelde. Op grond van boven-
staand voorbeeld denk je dat vrijwel iedereen wel wat bijverdiensten heeft, ter-
wijl vrijwel niemand een bijverdienste heeft.
Lees beide uitspraken nu nog eens. Bij nader inzien ligt de opmerking van
de student het dichtst bij de waarheid: op Kees na heeft niemand een bijver-
dienste. Stel dat je zonder nader onderzoek in je productie had gemeld dat de
gemiddelde bijverdienste 600 euro is. Niemand klaagt je aan voor deze con-
statering. Maar een grote bijdrage aan waarheidsvinding lever je niet.
Daarom zijn in de statistiek ook andere gemiddelden bedacht die je een beter
beeld geven van de werkelijkheid dan maar gewoon alle waarden bij elkaar op
te tellen en te delen door het aantal waarden. Hier zijn er twee:
De modus
Dit geeft je in één oogopslag een prima beeld van welk getal het vaakst voor-
komt. Je berekent het zo:
1. Open Excel.
2. Vul in kolom A de tien namen van studenten in en in kolom B de juiste
waarden (allemaal 0, behalve Kees 6000).
3. Klik op vakje B17 en klik één keer op het formule-teken.


De computer laat nu dit zien:
Figuur 6.6……………..
Wijzig nu het woord SOM in MODUS.ENKELV en wijzig B16 in B13. Je ziet

nu:
Figuur 6.7………………
Klik op ENTER en je ziet de MODUS voor deze cijferreeks, die je al van mij-
lenver zag aankomen: 0. Dat klinkt al heel anders dan het gemiddelde inko-
men is 600 euro per maand – het meest voorkomende inkomen is 0 euro.
De mediaan
De mediaan is een maat die ook kijkt naar de verdeling van cijfers. Welke 50%
ligt boven het middelste cijfer? Welke 50% ligt onder het middelste cijfer?

Discutabele data
191
Een mediaan is precies dat: het midden in een verdeling van cijfers.
Stel je voor: je hebt een aantal kwaliteitsmetingen van water. Het gemiddelde
wordt berekend door een aantal getallen bij elkaar op te tellen en vervolgens te
delen door het aantal getallen. Voorbeeld: het gemiddelde van kwaliteitsme-
tingen met de waarden 2, 3, 3, 5, 7 en 10 is 30 gedeeld door 6; de uitkomst is 5.
De mediaan is het middelste getal van een groep getallen. Dat wil zeggen dat
de helft van de getallen een waarde heeft die groter is dan de mediaan, en de
helft van de getallen een waarde heeft die kleiner is dan de mediaan. Voor-
beeld: de mediaan van 2, 3, 3, 5, 7 en 10 is 4.
De mediaan is nuttig bij journalistieke verhalen als je uitspraken wilt doen als:
‘De helft van de leerlingen scoorde hoger dan een acht op hun eindexamen.’
Wellicht ten overvloede: deze berekeningen kun je niet maken voor zoge-
naamde categorische variabelen (ook wel aangeduid als kwalitatieve of klasse-
variabelen). Voorbeelden van categorische variabelen zijn bijvoorbeeld de
bloedgroep met als klassewaarden A, B, 0 of AB, mannelijk of vrouwelijk,
licht of donker, zwart of wit, et cetera. Je kunt wel rekenen met kwantita-
tieve variabelen. Onder kwantitatieve variabelen verstaan we variabelen als
lichaamslengte, gewicht, de tijd, aantal kinderen, een score op een toets of IQ.
Samenvattend:
• Het rekenkundig gemiddelde bestaat uit alle waarden bij elkaar opgeteld,
gedeeld door het aantal waarden.
• De modus laat zien welk getal het vaakst voorkomt.
• De mediaan is het middelste cijfer in een reeks.
6.3 Onzinnige conclusies
Datajournalist Dick van Eijk vindt het soms best ingewikkeld om op basis van
een goede dataset correcte conclusies te trekken: ‘Verwarring van correlatie
en causaliteit, rekenfouten of gebrek aan statistische kennis kunnen gemak-
kelijk leiden tot betwistbare of zelfs onzinnige conclusies.’
Op donderdag 7 mei 1998 publiceerde NRC Handelsblad, zoals sinds 1994

gebruikelijk is, na verkiezingen een pagina met kaarten: hoe hadden partijen
gescoord in alle gemeenten? Na publicatie constateerden sommige lezers
dat ‘hun’ gemeente een verkeerde kleur had: een bepaalde partij had daar
juist gewonnen, en niet verloren zoals de kaart suggereerde, of omgekeerd.

Die lezers hadden gelijk. Wat was er aan de hand? Iets geks in elk geval, want
veel gemeenten hadden wel de juiste kleur, maar niet allemaal. Nader onder-
zoek leerde dat elke gemeente op alle kaarten de kleur had die de gemeente die
daar in het alfabet op volgde, had moeten hebben.
Soms heeft een partij ongeveer evenveel gewonnen of verloren in twee
gemeenten die elkaar in het alfabet opvolgen, maar vaak ook niet natuurlijk.
Wat was er misgegaan? Bij het verwerken van de gegevens in Excel was een
blok gegevens één rij te ver verplaatst. Dick van Eik: ‘Eén muisklik, het equi-
valent van een typefout, en een hele pagina met kaarten was verprutst. Op
maandag 11 mei werd de hele pagina opnieuw afgedrukt, nu goed. In kleur,
wat toen nog niet alledaags en dus extra duur was. Het is waarschijnlijk de
grootste correctie uit de geschiedenis van NRC Handelsblad.’
En dat door één verkeerde muisklik. Een datajournalist heeft krachtig gereed-
schap in handen, ook om fouten te maken.
Deze fout was eenvoudig te voorkomen geweest als voor plaatjes dezelfde pro-
cedure zou zijn gevolgd als voor tekst: eindredactie.
Controleer op elke kaart een stuk of tien gemeenten handmatig. Als die klop-
pen met de brondata, kloppen ze waarschijnlijk allemaal. Als er ook maar één
niet klopt, kloppen er waarschijnlijk veel meer niet, en moet de data-analyse
worden overgedaan, in elk geval vanaf het punt waar het misging (als je dat
snel kunt vinden). Van Eijk: ‘Te gemakkelijk werd op de redactie gedacht: dit
komt uit de computer, dus het klopt. Natuurlijk is dat onzin, maar dat reali-
seer je je pas als het een keer gruwelijk misgaat. Zorg er dus voor dat alles wat
je als datajournalist produceert, of dat nu teksten zijn of plaatjes, wordt gecon-
troleerd door iemand anders – iemand die begrijpt wat hij moet controleren
en die toegang heeft tot de brondata.’
Het is onmogelijk om elk detail te controleren, maar controleer in elk geval

de belangrijkste resultaten zoals de beste scorende organisaties of slecht pres-
terende bedrijven. Controleer bij de toppers en losers nauwgezet of er mis-
schien andere factoren meespelen bij hun klassering.
Dát in dit geval snel werd ontdekt waardoor de fout was veroorzaakt, kwam
doordat bij de databewerking een vaste procedure was gevolgd. Die is eigenlijk
heel eenvoudig: sla bij elke bewerkingsslag het tussenproduct op. Bij kleine,
eenvoudige bestanden kan dat op een apart werkblad in een Excel-bestand.
Bij heel grote bestanden gaat dat niet of is dat onpraktisch. Sla dan telkens
een tussenbestand op met een nieuwe, logische naam. Door in die naam een

Discutabele data
193
ummer op te nemen kun je later makkelijk stap voor stap het hele proces nog
n
eens langslopen en uitvissen waar er eventueel iets is fout gegaan. Bovendien
kun je dan met het laatste bestand voor de fout verder werken, en hoef je niet
álles opnieuw te doen.
Van Eijk: ‘Dat kan zo maar dagen werk besparen.’ Leg ook vast wat je in elke
tussenversie hebt gedaan, in het bestand zelf, in de eigenschappen van het
bestand, of in de naam. Een bestand met een naam als ‘Verkiezingen 1998 ver-
sie 07 – na uniformeren partijnamen’ is ook jaren later nog te interpreteren.
6.4 Foute data
In bovenstaand voorbeeld had Dick van Eijk zelf een fout gemaakt in het ver-
werken van ruwe gegevens tot analyseerbare data, het zogeheten data clean-
sing of data poetsen. Nog lastiger te ontdekken en nog lastiger te voorkomen
is het als er in de brondata al fouten zitten. Wellicht ben je er niet op bedacht
dat degelijke instellingen als het CBS, de Kamer van Koophandel of een
gemeente foute data verstrekt. Maar dat gebeurt soms wel. Het is helaas lang
niet altijd mogelijk zo’n fout tijdig op te sporen, maar met een paar procedures
zijn de risico’s wel te beperken.
De grootste risico’s zitten op de plekken waar de afwijkingen zitten, de uit-
schieters. Immers, juist die vormen vaak aanleiding tot verhalen of in elk
geval tot zinnetjes in een verhaal. Daarom verdienen uitschieters – in de nega-
tieve zin – extra aandacht.
Neem een onderzoek naar verhuispatronen op buurtniveau. Het percentage

huishoudens dat uit een buurt verhuist, zegt iets over de demografische stabi-
liteit van de buurt. Als er bijna nooit een huishouden vertrekt, wonen er jaren-
lang dezelfde mensen, en is de kans groot dat veel mensen elkaar kennen. Als
elk jaar de helft vertrekt, is de buurt een doorgangshuis, waar de kans groot is
dat buren vreemden voor elkaar zijn.
Snel wat rangschikkingen maken en op zoek naar de uitschieters. Van Eijk:

‘Die waren er wel. Er waren zelfs buurten waar 100 procent was vertrok-
ken. Dan moet je dus uitzoeken of dat echt zo is en hoe dat dan kan. Met een
telefoontje naar de desbetreffende gemeente kom je vaak al een eind: in het
geval van de 100 procent verhuizingen ging het om een buurt die bestond
uit een bejaardentehuis dat was gesloopt. Verder stonden er geen woningen,
dus de sloop leidde tot het vertrek van alle bewoners. De nieuwbouw van het

ejaardentehuis stond in een andere buurt. Zo bleken buurten met verhuis-

b
percentages boven de 50 procent eigenlijk allemaal met grootschalige stads-
vernieuwing of andere sloop te maken te hebben gehad.’
‘Die verklaring is plausibel, maar je moet ze stuk voor stuk checken, voor alle
buurten waar het percentage heel hoog is. Zo was er een buurt waarover de
afdeling voorlichting van de gemeente liet weten dat daar geen sprake was
geweest van stadsvernieuwing. Toch zou meer dan een derde van alle huis-
houdens in één jaar zijn verhuisd. Zo’n hoog percentage komt eigenlijk alleen
voor in heel slechte buurten, waarvan hier geen sprake was. Wat dan?’
Voorlichting wist het niet. Op naar de afdeling Wonen. Ook daar had men
geen idee: er was geen grote nieuwbouw, geen sloop, en ze konden zich niet
voorstellen dat er zo veel mensen verhuisd waren. Maar ja, het stond in de
officiële data van de gemeente. Volgende loket: de afdeling Bevolking. Na drie
keer het verhaal te hebben uitgelegd aan even zovele medewerkers was het
raak: de man die het bestand had gemaakt, wist hoe het zat. De gemeente had
nu eenmaal elk jaar te maken met allerlei administratieve correcties en men-
sen die niet meer te achterhalen waren. Voor het gemak had men die allemaal
in één buurt laten vallen, dan klopten de totalen voor de gemeente in elk geval
weer. Dat die op buurtniveau niet klopten, vond men niet zo erg, want met die
cijfers deed men eigenlijk niets.
Dit is een voorbeeld van een verschijnsel dat zich nogal eens voordoet als je
data gaat gebruiken voor een heel ander doel dan ze zijn verzameld: de data
zijn niet zuiver, althans niet voor jouw doeleinden.
Dick van Eijk: ‘Je kunt je dan echt lelijk in de vingers snijden. Neem criminali-
teitscijfers: agenten moeten bij een aangifte een postcode invullen van de plek
waar het delict heeft plaatsgevonden. Soms is die bekend, bijvoorbeeld bij een
inbraak in een woning, maar soms is dat niet zo duidelijk, bijvoorbeeld bij een
beroving op straat. Maar ja, de agenten moeten wat invullen en op sommige
politiebureaus hadden ze de gewoonte om dan de postcode van het politiebu-
reau in te vullen. Voor hen was daarmee de kous af, het formulier was inge-
vuld, de aangifte kon worden verwerkt.’
Totdat iemand alle delicten per postcode in kaart ging brengen en enkele
onverwachte black spots in de stad ontdekte, plaatsen met zeer veel crimina-
liteit. En het duurde ook nog even eer duidelijk werd dat dit toevallig allemaal
plaatsen waren waar een politiebureau stond … De data waren nooit bedoeld

Discutabele data
195
geweest om op deze manier te gebruiken. De agenten zelf hadden geen last

van die foute postcodes. Maar de onderzoeker wel.
Vraag je daarom bij elke dataset die je krijgt af wie de set heeft samengesteld
en met welk doel. Er is niets op tegen om die data met een heel ander doel te
analyseren. Niet zelden levert dat nieuws op, omdat niemand eerder op die
manier naar die data heeft gekeken. Maar wees je bewust van de risico’s, vraag
je af of je oneigenlijk gebruik tot problemen of foute conclusies kan leiden.
‘Wees alert op rare uitkomsten: die kunnen nieuws zijn, maar ook een fout in
het bestand. Check waar nodig en waar mogelijk bij degene die de data heeft
verzameld hoe het zit. Te veel checken bestaat niet. Ja, het kan je een primeur
kosten – en een rectificatie besparen.’
En dan denk je dat je alles hebt gecheckt, en dan gaat het nog fout. Bij het ana-
lyseren van data over werkgelegenheid in alle gemeenten van Nederland bleek
dat in een bepaalde periode van economische voorspoed (tweede helft van de
jaren negentig van de vorige eeuw) in vrijwel alle gemeenten het aantal banen
was toegenomen. In sommige gemeenten heel veel, in andere minder of wei-
nig. Slechts in enkele gemeenten was het aantal banen afgenomen. Die gingen
we stuk voor stuk controleren, voordat we een top tien van werkgelegenheids-
krimpers in de krant zetten.
En wat bleek? In alle gemeenten waar het aantal banen was afgenomen, was
iets bijzonders aan de hand. Dat moet ook haast wel in zo’n bloeiperiode. Slui-
ting van grote bedrijven en instellingen, zoals scheepswerven of kazernes –
dat soort oorzaken zorgde voor een forse afname van het aantal banen in zo’n
gemeente en nivelleerde de groei bij de andere bedrijven daar.
Toen bleek dat er een gemeente was waar niet zulke voor de hand liggende
oorzaken te vinden waren voor de krimp van de werkgelegenheid. Wat was
daar dan aan de hand?
Door een gemeentelijke herindeling was een bepaalde gemeente een stuk
grond kwijtgeraakt aan een buurgemeente. Op dat stuk grond lag onder
meer een bedrijventerrein met redelijk wat banen. Het aantal banen in die
gemeente was weliswaar afgenomen, maar dat kwam niet doordat het daar
economisch niet goed ging. De banen bestonden nog steeds, op dezelfde plek,
alleen lag die toen in de buurgemeente. Het is ondoenlijk om dit soort din-
gen voor meer dan vierhonderd gemeenten te gaan checken. Maar doe dat wel
voor de uitschieters. Een blunder in je top tien staat erg stom.

Maar zelfs als je alle uitschieters checkt, kan het nog fout gaan. In een Bra-
bantse gemeente met een krimpende werkgelegenheid bleken inderdaad twee
grote bedrijven te zijn gesloten, dus een afname van het aantal banen was best
plausibel. Op de dag dat het verhaal in de krant stond, vergaderde de gemeen-
teraad toevallig, en de raad legde de wethouder van economische zaken het
vuur na aan de schenen: die had immers steeds gezegd dat het zo goed ging
met de economie in die gemeente, maar in de krant stond dat de gemeente
qua werkgelegenheid tot de slechtst presterende van Nederland behoorde. De
wethouder probeerde zich te verdedigen: wat in de krant stond, klopte niet,
het ging écht goed.
Maar de raad achtte de krant een geloofwaardiger bron dan de wethouder,
en even leek de gemeente op een regelrechte bestuurscrisis af te stevenen. De
volgende morgen een wanhopige wethouder aan de telefoon: wat in de krant
stond, klopte écht niet, zei hij tegen Dick van Eijk.
Alle tussenbestanden waren er nog, dus het viel eenvoudig na te gaan of er

ergens in de bewerking wat fout was gegaan met die gemeente. Dat bleek niet
het geval. Het aantal banen kwam overeen met de gegevens in de bronbestan-
den. Dus toen de leverancier van die data gebeld: kan het zijn dat er met de
gegevens van deze gemeente iets mis is, want volgens de gemeente kloppen ze
niet? Een paar uur later kwam het verlossende antwoord: ja, er zat een fout in
het bronbestand. De consequenties van een gemeentelijke herindeling waren
niet goed verwerkt, waardoor het aantal banen in het jaar voor de herindeling
dubbel was geteld. Geen wonder dat daarna sprake was van een afname. Cor-
rectie in de krant én een brief naar de gemeente …
‘Het leek alsof we alle voorzorgsmaatregelen hadden genomen, en toch ging

het fout. Was dit te voorkomen geweest? Misschien wel. Net iets rigoureuzer
checken: twee grote bedrijven gesloten en 1600 banen minder, hoeveel men-
sen werkten er dan precies bij die bedrijven? Minder dan 1600, zo bleek. Les:
niet te snel denken dat je voldoende hebt gecheckt. Een check te weinig kan
dodelijk zijn, een check te veel bestaat niet.’
6.5 Checklist voor betrouwbare data
De ervaringen van Bethlehem en Van Eijk staan niet op zichzelf. Cijfers zijn
meningen. Onderzoeken kennen verschillende doeleinden. Mensen maken
bewust en onbewust fouten. Toch moet een journalist altijd streven naar een

Discutabele data
197
valide en betrouwbare uitkomst van een onderzoek. Wat dat betreft kent zijn
werk overeenkomsten met dat van een wetenschapper.
Validiteit zegt iets over de inhoud: wordt er gemeten wat de bedoeling is?
Betrouwbaarheid heeft te maken met de stabiliteit van het onderzoeksre-
sultaat. Wanneer het onderzoek zou worden herhaald, komen dan dezelfde
resultaten naar voren? Of geeft het een volledig nieuw beeld? Dit kan bijvoor-
beeld misgaan als je met een open vraag naar het uitgaansgedrag van mensen
vraagt. Voor de één is dit alleen cafébezoek, voor een ander valt een avondje
naar de bioscoop of een dagje naar de Efteling hier ook onder.
Datajournalisten maken doorgaans gebruik van bestaand onderzoek of
bestaande datasets. Om erachter te komen of deze valide en betrouwbaar zijn
moet je je van tevoren een aantal zaken afvragen. Welke vragen je jezelf moet
stellen, hangt af van het soort data waarmee je werkt.
Een zinvol onderscheid kan worden gemaakt tussen:

1. data die het resultaat zijn van registratie van menselijk gedrag en bevin-
dingen; hierbij kun je denken aan peilingen bij het stemgedrag of vragen
over het welzijn van een bepaalde bevolkingsgroep;
2. data die worden voortgebracht door apparatuur; hierbij kun je denken aan
temperatuurmetingen, maar ook de hoogte van een waterstand.
Dit onderscheid is van belang omdat het kwaliteitsvraagstuk voor beide cate-
gorieën verschillende invalshoeken kent. Bij de eerste categorie spelen vooral
methodologische vraagstukken een primaire rol. Bij de tweede categorie staat
de nauwkeurigheid van de apparatuur en het raffinement van de toegepaste
algoritmiek centraal.
Het onderscheid valt niet zonder meer samen met de scheiding tussen mense-
lijke (‘zachte’) en exacte (‘harde’) vraagstukken. Zo behoren gedigitaliseerde
tekstcorpora uit de geesteswetenschappen tot de eerste categorie data en
werken onderzoekers met een sociale of economische achtergrond met data
verzamelingen uit beide categorieën.
Betrouwbaarheid van peilingen
CBS-onderzoeker Jelke Bethlehem legde de basis voor een checklist van de

betrouwbaarheid van data die menselijk gedrag registreren, zoals bij peilin-
gen. Op de website vind je zijn volledige rapportage.

1 Is de afzender betrouwbaar?
‘Samen koffie drinken blijkt nog altijd een populair middel onder jongeren
om onderlinge contacten te verstevigen. Waar sociale netwerken als Hyves en
Twitter ervoor zorgen dat we elkaar altijd kunnen bereiken en constant weten
waar onze “vrienden” zijn, zien jongeren nog altijd een duidelijk verschil tus-
sen online contacten en hun echte vrienden, met wie ze graag bijkletsen onder
het genot van “een bakkie”.’ Dit blijkt uit een onderzoek onder jongeren tus-
sen 18 en 35 jaar dat in 2009 werd uitgevoerd door Douwe Egberts.
Onderzoeken met een hoog ‘Wij van WC-eend adviseren WC-eend’-gehalte.
Ze verdwijnen bij de gemiddelde journalist direct in de prullenbak. Maar wat
als het onderzoek is uitgevoerd door een gerenommeerd onderzoeksinstituut?
Dan loont het nog steeds de moeite om de opdrachtgever te achterhalen. Wel-
licht is de methode betrouwbaar, maar heeft de opdrachtgever ervoor gekozen
om bepaalde onderzoeksresultaten wél en andere niet te tonen in een persbe-
richt.
Ditzelfde gaat op voor de betrouwbaarheid van een dataset. Stap 1 bij het
bepalen van de betrouwbaarheid is het achterhalen van de afzender. Ga na of
deze partij belangen zou kunnen hebben om bijvoorbeeld slechts gedeeltes
van alle beschikbare data te leveren. Als je hier op wat voor manier dan ook
aan twijfelt, laat de set dan altijd nakijken door een andere expert, of vergelijk
de dataset met andere cijfers.
2 Is er een onderzoeksverantwoording beschikbaar?

De onderzoeksverantwoording is een rapport dat precies beschrijft hoe het
onderzoek is opgezet en uitgevoerd. Het rapport moet voldoende informatie
bevatten om te kunnen vaststellen of het om een wetenschappelijk verant-
woord onderzoek gaat.
In het rapport vind je allereerst informatie over wat voor data je in de kuip
hebt: zijn het ‘harde’ metingen zoals waterstanden of staan de resultaten voor
gevoelens of meningen van mensen? In het eerste geval verhaalt een onder-
zoeksverantwoording over de meetmethode, in het tweede geval vertelt een
onderzoeksmethode bijvoorbeeld ook over de wijze van selectie van respon-
denten.
Bij peilingen onder mensen moet de onderzoeksverantwoording minimaal de

volgende aspecten beschrijven:
• de naam van de opdrachtgever;
• de naam van de organisatie die de peiling heeft uitgevoerd;
• de doelpopulatie; dit is de groep waarop de uitkomsten van het onderzoek
betrekking heeft;

Discutabele data
199
• de volledige vragenlijst; duidelijk moet worden gemaakt of de vragenlijst

ook van tevoren is getest;
• hoe is het onderzoek afgenomen: groepsgewijs, individueel, face-to-
face, via internet? Hebben respondenten spontaan gereageerd of is men
gevraagd om mee te doen?
• de wijze waarop de steekproef is getrokken; duidelijk moet worden aange-
geven of er is geloot en hoe er is geloot;
• de omvang de bruto-steekproef: dit is de omvang van de steekproef zoals
hij is getrokken uit het steekproefkader;
• de omvang van de respons (netto-steekproef): dit is het aantal responden-
ten.
• het percentage respons (100 x response / bruto-steekproef).
• de wijze waarop de respons eventueel is gecorrigeerd voor non-respons
(en eventuele andere selectie-effecten); in ieder geval moeten de gebruikte
weegvariabelen worden genoemd;
• de omvang van de onzekerheidsmarges; merk op dat deze alleen kun-
nen worden berekend als de steekproef is geloot, en de non-respons niet
tot vertekening leidt; in geval van aanzienlijke non-respons of zelfselectie
kunnen de afwijkingen nog veel groter zijn; dit moet dan worden gemeld.
Op basis van dit onderzoeksrapport kun je een inschatting geven van de

betrouwbaarheid van het onderzoek, door bij de onderzoeksverantwoording
de volgende vragen te stellen:
3 Is de doelpopulatie in orde?
Onderzoeksgegevens zijn het resultaat van metingen. Dit kunnen metingen
zijn van bijvoorbeeld een temperatuur, maar ook resultaten uit enquêtes of
peilingen. In het laatste geval is het belangrijk om te achterhalen of de geïn-
terviewden representatief zijn voor het onderzoek. Dit speelt zich af op een
aantal niveaus.
Allereerst is het goed om te kijken of de doelpopulatie in orde is. De doel-
populatie is de groep van mensen waarop de uitkomsten van het onderzoek
betrekking heeft. De doelpopulatie moet duidelijk worden omschreven. Pro-
blemen kunnen ontstaan als het steekproefkader niet de hele populatie afdekt.
In feite wordt de steekproef dan uit een andere, kleinere groep getrokken.
De consequentie daarvan is dat de uitkomsten dan ook betrekking hebben
op die kleinere groep en niet op de oorspronkelijke populatie. Voorbeeld: de
doelpopulatie is gedefinieerd als alle Nederlanders van 18 jaar en ouder, ter-
wijl de steekproef wordt getrokken uit bezitters van een internetverbinding

thuis. De conclusies van het onderzoek hebben dan alleen betrekking op de

internetbezitters van 18 jaar en ouder.
Een poll op de website van een krant geeft hierdoor dan ook vaak een ver-
tekend beeld als journalisten op basis van dit ‘onderzoek’ uitspraken doen.
Immers, het zegt enkel iets over een percentage van de websitebezoekers, die
soms helemaal de krant niet lezen. Een uitspraak als ‘uit een poll onder onze
krantenlezers blijkt ...’ snijdt dan totaal geen hout.
4 Is de steekproef juist getrokken?

Om op verantwoorde wijze conclusies te kunnen trekken over de doelpopula-
tie moet de steekproef door loting worden getrokken. Iedereen in de populatie
moet een positieve kans hebben gehad om in de steekproef te komen. De trek-
kingskansen moeten bekend zijn.
De steekproef wordt getrokken uit een steekproefkader. Dit is bijvoorbeeld
een lijst waarin voor ieder lid van de doelpopulatie de contactgegevens staan
(adres, telefoonnummer, e-mailadres, e.d.). Als het steekproefkader niet de
gehele doelpopulatie bestrijkt, dan hebben de conclusies van het onderzoek
alleen betrekking op het deel van de doelpopulatie dat via het steekproefka-
der kan worden bereikt. Als de steekproef niet is verkregen door loting, dan
zijn de trekkingskansen onbekend en kunnen er nooit goede schattingen voor
populatiepercentages (en populatiegemiddelden) worden berekend. Dit is
bijvoorbeeld het geval bij peilingen via het internet waarbij de steekproef is
geworven door zelfselectie.
5 Is de steekproef groot genoeg?

Dat de meningen van vijf willekeurige personen niet representatief zijn voor
iedereen in Nederland, klinkt logisch. Maar hoeveel mensen uit een bepaalde
doelgroep moet je dan wel hebben om een realistisch beeld te schetsen? Dan
hangt af van de vraag hoe zeker je de resultaten wilt hebben. Wetenschappers
duiden dit aan met een onzekerheidsmarge.
Die onzekerheidsmarge geeft aan hoeveel de werkelijke waarde kan afwijken
van de schatting of de peiling. Onderzoekers werken vaak met een betrouw-
baarheid van 95 procent. Om de bijhorende minimale grootte van de steek-
proef uit een bepaalde doelgroep uit te rekenen, bestaan er ingewikkelde for-
mules. Maar er is ook een makkelijke weg te vinden op www.journalinks.be/
steekproef/.
Stel je voor, je wilt een representatief beeld krijgen van alle Lowlands-
bezoekers in 2011. Hier waren 55.000 bezoekers aanwezig. Om een repre-
sentatief beeld (de genoemde 95 procent) te krijgen van deze doelpopulatie

Discutabele data
201
moet je minimaal 382 bezoekers ondervragen. Voor een nog zekerder beeld
van 99 procent zouden dit er 656 moeten zijn. Wordt bijvoorbeeld slechts de
mening van honderd mensen gepeild, dan zijn de uitkomsten onbetrouwbaar.
De kans is dan te groot dat deze honderd mensen een onzeker beeld geven van
de werkelijkheid. Daarom zegt een willekeurige poll op een website over het
algemeen ook vrij weinig.
6 Wordt er rekening gehouden met non-respons?

Non-respons is het verschijnsel dat in de steekproef getrokken personen niet
de gewenste gegevens verstrekken. Bijvoorbeeld omdat een enquête via het
intranet wordt gehouden en sommige mensen hier geen toegang toe heb-
ben. Non-respons leidt er heel vaak toe dat bepaalde groepen mensen over-
of ondervertegenwoordigd zijn in de steekproef. Daardoor is de gerealiseerde
steekproef niet meer representatief . De omvang van de vertekening in de uit-
komsten wordt door drie factoren bepaald:
• Hoeveel mensen doen niet mee? Een groter percentage non-respons
leidt tot een grotere afwijking in de uitkomsten. Is de respons bij een
peiling laag, dan is het risico groot dat er ernstige afwijkingen zijn in de
uitkomsten.
• Zijn non-respondenten anders? Bijvoorbeeld: bij verkiezingsonderzoek
blijkt vaak een sterke samenhang tussen respons en stemgedrag. Mensen
die niet meedoen aan het onderzoek, gaan ook niet stemmen. En respon-
denten gaan juist wel stemmen. Dit leidt ertoe dat stemmers zijn overver-
tegenwoordigd in de peiling.
• Doen sommige mensen vaker aan onderzoek mee dan anderen? Als er
mensen zijn met hoge responskansen (ze doen vaak mee aan dit soort
onderzoek) en mensen met lage responskansen (ze doen bijna nooit mee
aan dit soort onderzoek), dan verhoogt dit de vertekening in de uitkom-
sten. Als iedereen even geneigd is om aan het onderzoek mee te doen (hun
responskansen zijn gelijk), dan leidt non-respons niet tot een vertekening.
Het is meestal niet mogelijk om vast te stellen hoe groot de vertekening is.
Dat kan alleen als bekend is wat de antwoorden van de non-respondenten op
de vragen zouden zijn. Omdat het echter om non-respondenten gaat, zijn die
antwoorden dus onbekend. Het is wel mogelijk om uit te rekenen hoe groot de
afwijking ten gevolge van non-respons maximaal kan zijn.
Soms corrigeren onderzoekers non-respons door aan elke respondent een

gewicht toe te kennen. Die gewichten worden zo berekend dat ze corrigeren
voor de over- of ondervertegenwoordiging van groepen in de respons.

Een voorbeeld: uit een peiling blijkt dat de respondenten voor 60% uit man-
nen bestaan en voor 40% uit vrouwen. Dat is niet goed, want de Nederlandse
bevolking bestaat voor 49,5% uit mannen en voor 50,5% uit vrouwen. Kenne-
lijk hebben de mannen beter gerespondeerd in de peiling omdat ze zijn over-
vertegenwoordigd. Om hiervoor te corrigeren krijgt elke responderende man
een gewicht van 49,5 / 60 = 0,825. Dit betekent dat elke man nog maar meetelt
voor 0,825 in plaats van 1. Het gewicht is kleiner dan 1 omdat er te veel man-
nen waren in de respons. Elk vrouw krijgt een gewicht van 50,5 / 40 = 1, 263.
Dus elke vrouw telt mee voor 1,263 in plaats van 1. Het gewicht is groter dan 1
omdat er te weinig vrouwen waren in de steekproef.
Het toekennen van gewichten aan mannen en vrouwen leidt ertoe dat de res-
pons representatief wordt met betrekking tot het geslacht. Die gewichten kon-
den worden uitgerekend omdat de juiste percentages in de populatie bekend
waren. Het idee achter wegen is nu om de respons representatief te maken met
betrekking tot zo veel mogelijk kenmerken.
7 Bevatten de data gaten of fouten?

Op sommige vragen geeft niet iedereen een antwoord. Misschien wel omdat
het gevoelige vragen zijn. Dat leidt dus tot ontbrekende gegevens in je data-
bestand. Dat is lastig. Daarom wordt vaak een imputatietechniek toegepast.
Daarbij wordt een geschatte waarde (een voorspelling) bepaald en ingevuld.
Veel imputatietechnieken vullen alleen maar de gaten op (de ‘Alabastine-
methode’), maar leiden niet tot betere schattingen. Want wie zegt dat de geïn-
terviewde dit antwoord had gegeven? Probeer bij de onderzoekers na te vra-
gen of ze Alabastine hebben gebruikt.
Daarnaast is een fout maken menselijk: in een groot databestand wordt een 1
soms zo maar een 10 of steken tikfouten de kop op. Gebruik hierbij je gezonde
verstand. Zitten er gekke uitschieters in? Vraag dan na of dit wellicht een
foutje is. En maak een dataset altijd goed schoon, als je er zelf analyses mee
wilt maken. Hoofdstuk 3 over het verwerken van data biedt hiervoor handvat-
ten.
8 Is de kwaliteit van de vragenlijst in orde?

De vragenlijst is van cruciaal belang. Door te manipuleren met de formule-
ring van de vragen en de volgorde ervan is het mogelijk de uitkomsten van het
onderzoek te beïnvloeden. In een goede vragenlijst zijn de vragen objectief en
begrijpelijk geformuleerd.

Discutabele data
203
In ieder geval moeten de volgende valkuilen worden vermeden:

• Onbegrijpelijke vragen. Vragen kunnen onbegrijpelijk worden voor de
respondenten door jargon of woordgebruik dat hun niet bekend is, of door
lange, vage of ingewikkelde zinsconstructies. Voorbeeld: Bent u tevreden
over de recreatieve voorziening in uw woonplaats?
• Vragen die op verschillende manieren kunnen worden geïnterpreteerd.
Voorbeeld: Wanneer ging u van school af? Gaat het hier om een datum,
leeftijd of andere gebeurtenis (toen ik in verwachting was)?
• Suggestieve en sturende vragen. Voorbeeld: Vindt u ook niet dat …?
• Vragen waarin meer dan één vraag wordt gesteld. Voorbeeld: Heeft u deze
baan voor korte tijd om iets bij te verdienen?
• Vragen die een ontkenning of dubbele ontkenning bevatten. Voorbeeld:
Gebruikt u liever niet een niet-medicinale shampoo?
• Vragen die te veel een beroep doen op de herinnering. Dit levert vooral
problemen op als het om een relatief lange periode gaat en gevraagd wordt
naar gebeurtenissen die niet heel belangrijk zijn en regelmatig voorkomen.
Voorbeeld: Hoe vaak heeft u in het afgelopen jaar een bezoek gebracht aan
de supermarkt?
Voor een goed onderzoek is het noodzakelijk dat de vragenlijst wordt getest
voordat hij echt gebruikt
gaat worden voor het onderzoek. En is het dus net zo noodzakelijk om na te
gaan of die test heeft
plaatsgevonden.
Betrouwbaarheid van ‘harde’ data
Als je te maken krijgt met data die voortkomt uit apparatuur, vraag je dan
allereerst ook af wie de afzender is. Schat deze op waarde: vind je het een
betrouwbare partij?
De kwaliteitscheck gaat verder onder meer over de nauwkeurigheid van de
meetgegevens. Rijkswaterstaat geeft bij haar datasets over de waterstanden
bijvoorbeeld uitgebreide informatie over hoe de metingen tot stand zijn geko-
men. Op het moment dat je meerdere datasets over waterstanden wil gaan
samenvoegen, check dan of de datasets op dezelfde soort metingen zijn geba-
seerd. Anders zou het kunnen dat je appels met peren gaat vergelijken.
Loop vervolgens alle beschrijvingen van de verschillende variabelen in de
dataset na. Klopt dit, is het duidelijk? Lees de beschrijving nauwgezet. Heb je
vragen of twijfel je ergens over? Neem dan contact op met de onderzoekers.

Ga na in hoeverre de dataset de werkelijkheid beschrijft. Kun je ervan uitgaan

dat de apparatuur naar behoren heeft gewerkt? Hoe vaak moet een waterstand
zijn gemeten om een correct beeld te kunnen krijgen? Is één keer per dag vol-
doende, of moet het juist zelfs één keer per minuut? En heb je dan voldoende
data om je vraag te kunnen beantwoorden?
En net als bij de peilingen: wat is er gedaan met mismetingen? Is hier de
Alabastine-methode op toegepast? Als hier geen antwoord op wordt gegeven
in een onderzoeksverantwoording, vraag het dan na bij de onderzoeker. Weet
hij hier geen antwoord op? Wantrouw de data dan.
Kijk ook of variabelen het resultaat zijn van een directe meting, of dat het
reeds gemiddelden of samenvoegingen zijn van achterliggende variabelen.
Vraag in dat geval dan altijd om de achterliggende gegevens en ga na of de ver-
werking van de gegevens correct is gebeurd.
6.6 Onzichtbare problemen
Heb je na het doorlopen van de checklist alle onzekerheden om zeep gehol-

pen? Dat is niet zeker. Data kennen soms onzichtbare problemen, die zelfs met
de langste checklist niet te achterhalen zijn.
Zo concludeert de politie in 2010 in een artikel op Webwereld.nl dat al haar

statistieken onbetrouwbaar zijn door de invoering van een nieuw, omslachtig
ICT-systeem. Hierdoor voeren veel agenten aangiftes, bekeuringen, proces-
sen-verbaal, observaties en andere handelingen niet meer in. Mengs Gerrit-
sen, hoofd communicatie van politie IJsselland, uit daarom haar grote zorg
over de statistieken van. Zo meldt de politie een enorme daling in het aantal
aanrijdingen, maar dat is volgens de woordvoerder hoofdzakelijk te danken
aan het feit dat deze in veel minder gevallen worden vastgelegd.
Een ander voorbeeld. Het bedrijf Jobfeed biedt naar eigen zeggen een over-
zicht van bijna alle nieuwe vacatures die verschijnen op internet. Dit doen ze
al jaren, waardoor ze een historisch overzicht opbouwen van al deze online
vacatures. Wellicht interessant om trends in te ontdekken? Niet echt. Aller-
eerst geeft het bedrijf slechts een overzicht van een beperkt aantal sites waarop
vacatures verschijnen en geeft het zo nooit een volledig beeld. Nog lastiger is
het dat het bedrijf in de loop der jaren steeds nieuwe sites heeft aangesloten
(en weer heeft afgestoten), waardoor het ook onmogelijk is om deze beperkte
datasets te vergelijken. Het bedrijf is hier zelf trouwens volledig transparant
over, dus wat dat betreft geen probleem.

Discutabele data
205
Maar wat als er nu geen politiewoordvoerder uit de school klapt of een bedrijf
niet een eerlijk beeld schetst? Of misschien nog wel erger: wat als de organi-
saties zelf niet door hebben dat de datasets niet kloppen? Of dat ze misschien
wel expres bepaalde resultaten achterhouden omdat die niet helemaal goed in
hun straatje passen? Deze problemen blijven in de werkelijkheid onzichtbaar.
Een gezonde dosis wantrouwen werkt hierbij goed. Denk bij ieder onderzoek
of iedere dataset na over mogelijke invloeden die je resultaten verstoren. Heb
geen heilig vertrouwen in cijfers, kijk altijd naar het achterliggende verhaal.
Bepaal voor jezelf waar je grenzen liggen en geef die grenzen door aan de
lezer. Zie in opvallende resultaten eerder een denk- of werkfout dan nieuws.
Tot slot nog een ethische vraag: wat als er bij data privacygevoelige kwesties
spelen?
Het College Bescherming Persoonsgegevens (CBP) sneed zich hiermee in 2011 diep
in de vingers. Het CBP presenteerde toen een onderzoeksrapport over de manier
waarop Google de privacy schendt, maar publiceerde hierbij zelf ook privacyge-
voelige data. Het rapport toonde verschillende voorbeelden van de wijze waarop
met enkel een MAC-adres (een uniek identificatienummer van apparaten in een
netwerk zoals pc’s, routers en smartphones) de exacte locatie van de router en dus
ook de eigenaar daarvan is te achterhalen. In het rapport had het CBP weliswaar de
MAC-adressen gewist, maar niet de volledige resultaten uit de database, inclusief
huisadressen. Journalisten van Webwereld achterhaalden zo vrij eenvoudig de
mensen achter de data, waarna het CPB excuses aanbood en de data anonimi-
seerde.
Het VARA-programma Zembla ontdekte in 2012 dat door een lek in het medische
computerprogramma Humannet de gegevens van meer dan 300.000 werknemers
maandenlang op straat hebben gelegen. Doordat het programma niet beveiligd
was tegen SQL-aanvallen, konden de gegevens van diverse bedrijven eenvoudig
worden bekeken. Een journalist demonstreert tijdens de tv-uitzending hoe werk-
nemers en zelfs de voetballers van FC Twente makkelijk te vinden zijn dankzij het
lek in het programma.
Wat zou je zelf doen als dit soort data op je scherm verschijnen? Een verhaal maken
over de schendbaarheid van privacygegevens of toch even kijken of je de buurman
kunt vinden?

Oefening: Discutabele data
Reken mee
Ga naar www.guardian.co.uk/commentisfree/2011/oct/28/bad-science-diy-
data-analysis en lees hoe een ‘nerd’ in zijn eentje kanttekeningen plaatst bij
een onderzoek. Aan het eind van het artikel lees je hoe je zelf de berekening
kunt maken. Voer deze zelf uit.

Dagelijkse data 7
In dit hoofdstuk maken we kennis met acht mensen die de datajournalistiek

omarmen. Wat zijn hun tools? Wat zijn de valkuilen? Wat zijn hun successen?
7.1 Marije Rooze, @marijerr
Trackrecord: Marije Rooze (1986) is geen journalist, maar houdt zich bezig
met multimedia design. Ze kwam in aanraking met datajournalistiek via
haar studie communicatie en multimedia design aan de Avans Hogeschool in
Breda. ‘Maar na een paar jaar handwerk – het maken van flitsende ontwerpen
en interactieve designs – wilde ik mij graag verdiepen in de theoretische kant
van de zaak.’ Daarom begon ze in 2010 met de masteropleiding Nieuwe Media
aan de Universiteit van Amsterdam. Momenteel zit ze in de laatste fase van
haar studie. Naast haar opleiding werkt ze al freelance ontwerper. Zo rolde ze
langzaam in de datajournalistiek.
‘Bij mijn masteropleiding ging ik mij bezighouden met de theorie: wat het
betekent om een probleem op deze of juist die andere manier weer te geven, te
visualiseren.’
‘Als je data omzet in beeld – zichtbaar maakt in een animatie, een grafiek, of
een tabel – moet je altijd je probleem vereenvoudigen. Dat is heel moeilijk, en
vooral voor mij. Ik ben iemand die graag veel gegevens verzamelt en verwerkt.
Maar de kunst is om je probleemstelling zo smal mogelijk te houden, en ook
niet te veel gegevens te willen omzetten in een beeld. Want dat werkt niet. Je
moet een probleem dus simplificeren – maar wel in je achterhoofd houden dat
ook dat weer implicaties heeft.’
Het project waarop Marije Rooze afstudeert, is een analyse van de stand van
de datajournalistiek van The Guardian en The New York Times.

‘Dat zijn twee pioniers als het gaat om datajournalistiek. Zij hebben vele
mooie projecten gemaakt. Wat ik nu doe, is dat ik in kaart breng wat voor
soort projecten zij hebben opgezet. Wat zijn de thema’s die zij kozen? Wat voor
visualisatie gebruikten zij daarbij? Een tabel? Een grafiek? Een animatie?’
Haar materiaal vond ze ‘simpelweg door op internet de twee dagbladen door

te spitten. Ik heb eigenlijk meer materiaal verzameld dan ik nodig had voor
mijn project.’
Vervolgens heeft ze een Excel tabel gemaakt waarin ze allerlei kenmerken van
de projecten aangaf: welk thema, welke gegevens werden verzameld, op welke
manier de cijfers werden gevisualiseerd, en in welk jaar de productie werd
gepubliceerd.
‘Door mijn design-achtergrond kon ik vervolgens zelf een programmaatje

schrijven waarmee ik nu bijvoorbeeld in beeld kan brengen welke projecten
er bij The Guardian plaatsvonden in een bepaalde periode. Maar ik kan ook
opdracht geven om alle projecten te selecteren die iets te maken hebben met
demografie.’
Marije Rooze zou niet iedereen aanraden om zelf een programma te schrij-
ven waarmee je data in beeld kunt brengen. ‘Er zijn ook hele goede open
source programma’s op het internet die je kunt gebruiken. Denk aan Tableau,
ManyEyes en Google Fusion Charts. Je importeert dan je eigen gegevens in
zo’n programma en kiest je visualisatie. Het programma genereert die gege-
vens dan automatisch. Het nadeel van template design, zoals het heet, is
dat dit soort standaardontwerpen niet geschikt zijn voor elk type dataset.
En als je toch zo’n template gebruikt, kun je die maar moeilijk aanpassen
(customizen).’
7.2 Laura Norton Amico, @LauraNorton
Trackrecord: Laura Norton is redacteur van Homicide Watch, een online

platform waarop iedere moord in Columbia wordt weergegeven. Haar echt-
genoot Chris Amico, @eyeseast, is journalist en web developer in Washington
DC. Hij bouwt een platform voor lokale reporters van radiostation National
Public Radio (NPR), het State Impact-project. Daarnaast werkt hij mee aan
Homicide Watch.

Dagelijkse data
209
Laura werkt fulltime voor Homicide Watch, een platform over moord op basis
van databases. ‘Ik ben de redacteur en eerste verslaggever van onze centrale
website en ben daarnaast verantwoordelijk voor de zakelijke kant van het
“merk”. Homicide Watch is het beste wat ik gemaakt heb. Het gaat niet alleen
om de data en ook niet alleen om de journalistiek. We voorzien op een inno-
vatieve manier in een behoefte van de gemeenschap. Het idee ervoor kwam
voor het eerst in me op toen ik nog maar net in Washington DC woonde en
een paar rechtszaken wilde volgen. Het bleek bijna onmogelijk om nieuws-
bronnen te vinden. Ik ontdekte dat familie en vrienden van slachtoffers en
verdachten vaak informatie plaatsen op ongebruikelijke plekken – online
necrologieën en herinneringspagina’s over de overledene op Facebook. Toen
ging ik nadenken over manieren waarop een nieuwsproduct het nieuws
over moordzaken zou kunnen brengen én een plek zou kunnen zijn waar de
gemeenschap er contact over kan houden.’
‘De eerste beschrijving van de site luidde: ‘alles wat een verslaggever in zijn
notitieboek of op zijn bureau heeft wanneer hij een moordzaak volgt’. Dat is
nog steeds een van de uitgangspunten van de site, maar het houdt wel in dat
het organiseren van informatie superbelangrijk is. Zo is het publiceren van
zittingsdata bijvoorbeeld pas zinvol als je ze in een kalender zet.’
‘Een gemiddelde dag begint voor mij met verslaggeving. Ik bekijk het nieuws
en post soms wat korte artikelen over wat er die nacht gebeurd is. Daarna ga
ik meestal naar de rechtbank om hoorzittingen en rechtszaken bij te wonen,
documenten te verzamelen en verslag te doen. Meestal heb ik een lijstje met
wat ik die dag wil doen: zakelijke afspraken, freelancers inplannen, een plan-
ning maken voor lange-termijnprojecten, interviews geven over de website, et
cetera. Ik houd ook nog een persoonlijk blog bij over datajournalistiek. Mijn
werkdag is nooit echt voorbij. Tot ik ga slapen ben ik online.’
‘Homicide Watch DC was mijn eerste dataproject. Ik heb alles op dat vlak
geleerd door te werken aan de website. Homicide Watch begon als een spread-
sheet. De start-up kit die we hebben gemaakt voor newsrooms die ook willen
beginnen met een Homicide Watch-site, bevat nog steeds een spreadsheet die
ingevuld moet worden.’
‘Mijn datagereedschapskist bestaat uit de site zelf en de database die erbij

hoort, WordPress, WordPress Analytics, Google Analytics, Google Calendar,
Twitter, Facebook, Storify, Document Cloud, VINElink, en het archief van de
rechtbank waarin je rechtszaken kunt opzoeken.’

‘Door het werk aan Homicide Watch weet ik dat nieuws zoveel meer is dan
“verhalen”. In een gemiddeld nieuwsbericht over misdaad staat bijvoorbeeld
een heleboel informatie, in ieder geval wie-wat-waar-wanneer. Zodra dat
stukje gepubliceerd is, is alle informatie verdwenen. Werken met nieuws apps
maakt het mogelijk om die informatie vaker te gebruiken en opnieuw te ‘ver-
pakken’. We proberen alles uit onze verslaggeving te halen wat erin zit.’
7.3 Chrys Wu, @MacDiva
Trackrecord: Chrys Wu is datajournalist en specialist in user engagement in

New York. Ze geeft journalisten les in datajournalistiek bij Hacks and Hac-
kers, een netwerkorganisatie van journalisten en technologen.
‘Ik werk bij een bedrijf, Matchstrike, dat gespecialiseerd is in user engage-
ment-strategieën. User engagement is een combinatie van onderzoek naar
gebruikerservaringen, ontwerp en programmeerplanning. Bedrijven bena-
deren mij om uit te vinden hoe ze de aandacht van gebruikers kunnen vast-
houden, hoe ze een community kunnen creëren en hoe ze daar vervolgens
geld mee kunnen verdienen. Verder ben ik betrokken bij de organisatie van de
Hacks/Hackers-groep in New York, en bezig met het oprichten van verschil-
lende afdelingen van Hacks/Hackers over de hele wereld.’
‘Op de middelbare school had ik een geweldige leraar voor statistiek. Hij was
ook de basketbalcoach. Ik heb daar geleerd hoe belangrijk statistiek is. Data
kunnen organiseren en interpreteren, sceptisch over stellige beweringen
zijn … Bijvoorbeeld: als er gesteld wordt ‘Vier van de vijf tandartsen zijn het
erover eens dat …’, waar blijkt dat dan uit? Behalve door de lessen statistiek en
mijn opleiding journalistiek aan de universiteit heb ik veel geleerd door veel te
dóén, dingen te maken. Hoewel ik jarenlang in newsrooms heb gezeten, bij-
voorbeeld bij de Los Angeles Times en CBS Digital Media Group, heb ik vooral
veel ervaring opgedaan als freelancer. Een van mijn eerste klanten was gespe-
cialiseerd in fondsenwerving voor tehuizen in achterbuurten. Ik heb toen in
kaart gebracht hoeveel geld er nodig was. Daarvoor werkte ik nauw samen
met de gemeentelijke afdelingen volksgezondheid en jeugdwelzijn. Ik moest
een hoop data doorspitten. Toen ik dat eenmaal gedaan had, ging het erom de
data en het verhaal in evenwicht te brengen. Getallen en grafieken hebben veel
meer impact als ze in de context staan van een sterk verhaal.’

Dagelijkse data
211
‘Ik heb geen individuele mentoren, maar er is een actieve gemeenschap waar
men veel van elkaar leert. Daarom verzamel ik een heleboel op Delicious en
Pinboard. Ik probeer altijd verder te kijken dan de journalistiek om uit te vin-
den waar mensen zich mee bezighouden. Goede ideeën komen overal van-
daan. Er zijn zoveel slimme mensen die bereid zijn hun kennis te delen.’
‘Ik ben vooral trots op het werken met de community van Hacks/Hackers.
Sinds 2009 hebben we wereldwijd meer dan veertig groepen opgezet. In elke
groep worden journalisten, ontwerpers en ontwikkelaars samengebracht om
de mogelijkheden van nieuws beter te benutten.’
‘Amanda Cox, grafisch redacteur van The New York Times, heeft een visie op
het belang van datajournalistiek dat mij erg aanspreekt. Zij zegt: het is zinloos
om een stapel gegevens en getallen aan te bieden als je mensen niet helpt die
te begrijpen. Journalistiek gaat in de basis om feiten, je wilt ogen openen. Een
van de beste manieren om dat te doen is door een verhaal en kwantificeerbare
informatie met elkaar te verweven, vooral als het gaat om een onderwerp dat
veel mensen aangaat.’
7.4 Sarah Cohen en Anthony DeBarros, @sarahduke en

Anthony DeBarros @AnthonyDB
Trackrecord: Sarah Cohen en Anthony DeBarros geven les in het gebruik van
data om een verhaal te vertellen. Sarah Cohen doceert journalistieke praktijk
en publiek beleid aan Duke University, en was voorheen dataredacteur voor
dagblad The Washington Post. Anthony DeBarros is database-redacteur bij de
krant USA Today.
DeBarros: ‘In 2006 bouwde ik met een collega van USA Today een database
van 620 studenten die overleden op of rond de universitaire campus. Die data
minede ik om te laten zien dat eerstejaars opvallend kwetsbaar waren. Een
hartverscheurend, maar belangrijk verhaal. We wonnen er de Missouri Life-
style Journalism Award mee, en daarna hebben we nog een verhaal gemaakt
over studentensterfgevallen door brand.’
Duke: ‘Een mooi project van mij gaat over besmet water in DC. Het waterbe-
drijf weigerde de resultaten van een groot onderzoek bekend te maken, waar-
uit gebleken was dat het water op heel veel plaatsen vervuild was. Wij had-
den die informatie van een bron gekregen. Na heel veel onderzoek, parsing

en g eocoding lieten we een team van verslaggevers de verschillende buurten

intrekken om te zien of onze data klopte. We hadden uiteindelijk een verhaal
over burgers die geen idee hadden hoe beroerd de kwaliteit van hun water
was. Toen het waterbedrijf er lucht van kreeg dat we een heleboel adressen
waar het water slecht was online zouden publiceren, werd onze hoofdredac-
teur gebeld. Het waterbedrijf vond dat we de privacy van bewoners op het spel
zetten, ook al gingen we de namen van bewoners helemaal niet publiceren.
Die privacy vonden ze blijkbaar zo belangrijk dat ze een heleboel mensen
informatie over de slechte kwaliteit van het water ontzegden. De hoofdredac-
teur zei toen: “U heeft gelijk, we moeten dit niet zomaar op het web zetten.’
Hij zorgde ervoor dat we er, naast de online publicatie, ook nog een speciale
bijlage voor de krant over mochten maken.’
Cohen: ‘Alles wat ervoor kan zorgen dat minder mensen meer werk kunnen
leveren, is belangrijk in deze tijd. Er zijn immers steeds minder mensen die
fulltime bezig zijn de overheid in de gaten te houden. Nieuws apps helpen om
meer aandacht te vestigen op wat de overheid doet. Ik geloof ook dat nieuwsor-
ganisaties met nieuws apps geloofwaardiger overkomen: we laten beter zien wat
we doen. Newsrooms worden zo steeds transparanter. Nu ik in de jury zit van
een onderzoeksprijs, ben ik bijvoorbeeld wantrouwend over projecten die niet
alles laten zien van wat ze doen. Als ze bijvoorbeeld zeggen “Er waren 300 voor-
beelden waarin je hetzelfde patroon kan zien”, dan wil ik al die 300 voorbeelden
kunnen bekijken, om zelf te beslissen of ik het ermee eens ben.’
DeBarros: ‘Datajournalistiek is belangrijk omdat we leven in een data driven

cultuur. Een journalist die handig is met data, kan de Twitter API of een
spreadsheet gebruiken om snel nieuws te vinden, net zo snel als hij of zij
iemand kan opbellen. En dat niet alleen, we bedienen ook heel veel lezers die
gewend zijn elke dag met data te werken: accountants, docenten, onderzoe-
kers, marketingmensen. Om hun aandacht te kunnen vasthouden moeten
we de taal van data op een geloofwaardige manier kunnen spreken. En lezers
hebben het echt wel door wanneer we onze research niet goed hebben gedaan.
Nieuws apps zijn belangrijk omdat ze, mits goed uitgevoerd, grote hoeveel
heden data behapbaar en relevant maken voor iedereen die ze gebruikt.’
7.5 Paul Bradshaw, @paulbradshaw
Trackrecord: Paul Bradshaw heeft een achtergrond in het maken van tijd-
schriften en websites. Hij doceert online journalistiek aan de Birmingham

Dagelijkse data
213
City University en is daarnaast ook verbonden aan de City University in Lon-

den. Bradshaw geniet bekendheid als oprichter en mede-auteur van de Online
Journalism Blog, waarop praktische, maar ook meer theoretische bespiege-
lingen over datajournalistiek worden gepubliceerd. In 2009 zette hij de web-
site Helpmeinvestigate.com op, een platform voor onderzoeksjournalistieke
projecten waarbij het publiek wordt betrokken. Verder geeft Bradshaw trai-
ningen, assisteert en adviseert hij redacties bij datajournalistieke onderzoeks
projecten en houdt hij lezingen.
‘Er zit eigenlijk altijd wel een verhaal in data. Journalisten zijn er bedreven
in om interessante aspecten uit data te halen die veel andere mensen over
het hoofd zouden zien. Op een heel basaal niveau: de grootste en de kleinste
waarde, veranderingen in tijd, veranderingen in ruimte of locatie. Daarnaast
zijn er natuurlijk vragen en verhalen die dieper gaan. Bij online journalistiek
gaat het soms ook gewoon om het bieden van service, het hoeft niet altijd om
een verhaal te gaan. Het kan ook een kwestie zijn van informatie samenbren-
gen die op verschillende plekken staat zodat het publiek een beter overzicht
heeft. Die rol, gegevens verzamelen en toegankelijk maken, is volgens mij een
steeds belangrijkere rol die de journalistiek vervult.’
‘Als je na heel veel moeite eindelijk je dataset hebt gekregen, is het verleidelijk
om te denken: dit is de waarheid. Maar dat is gevaarlijk om te denken: de data
kunnen incompleet zijn of fouten bevatten. Het is belangrijk om de gegevens
die je hebt gevonden in een dataset te vergelijken met data van een andere
bron. Zo heeft het Bureau of Investigative Journalism een onderzoek gedaan
naar het aantal mensen dat overleden is in politieverzekering. Toen uiteinde-
lijk dankzij de Freedom of Information Act de cijfers beschikbaar kwamen,
zijn die vergeleken met de sterftecijfers uit andere bronnen, zoals interne
onderzoeken en lijkschouwingen. Wat bleek, was dat veel overlijdensgevallen
niet in de officiële statistieken terechtkwamen, omdat de politie een heel enge
definitie hanteerde. Dit soort vergelijkingen kan grote verhalen opleveren,
omdat ze iets kunnen zeggen over politieke keuzes die gemaakt zijn.’
‘Het is van belang dat je inzicht hebt in de werkwijze en methodiek die is

gebruikt voor het verzamelen van de data. De omvang van een onderzoeks
populatie kan van invloed zijn op de resultaten. In hoeverre zijn de
uitkomsten representatief? Hoe groot is de foutmarge? Ik herinner me een
bericht dat de werkloosheid was gestegen, maar die stijging bleek binnen de
foutmarges van het onderzoek te liggen. Belangrijk is ook het verschil tus-
sen correlatie en causaliteit: je kunt niet zomaar zeggen dat er een oorzaak-

gevolgrelatie bestaat tussen twee cijfers. Stel dat er boetes worden uitgedeeld
bij een weg waarop het aantal snelheidsovertredingen drastisch is geste-
gen en dat daarna het aantal snelheidsovertredingen afneemt. Dan is er nog
geen causaal verband bewezen; die daling kan ook worden veroorzaakt door
andere factoren. Onbetrouwbare statistieken kunnen op zichzelf trouwens
ook een interessant verhaal opleveren.’
7.6 Geoff McGhee, @mcgeoff
Trackrecord: Geoff McGhee geldt als een autoriteit op het gebied van data-
visualisatie en multimedia storytelling. Hij ontwikkelt visualisaties en info-
grahics bij The Bill Lane Center for the American West van de Stanford
University. Van 2009 tot 2010 onderzocht hij journalistieke datavisualisaties
in het kader van een Knight Journalism Fellowship aan de Stanford Univer-
sity. Daarvoor werkte hij onder andere voor Le Monde Interactif als multime-
dia-redacteur, tussen 2000 en 2008 bij The New York Times en van 1999 tot
2000 bij ABCNews.com. In 1999 behaalde hij zijn master journalistiek aan de
Columbia Journalism School van de Columbia Universiteit.
‘Ik pleit ervoor om datavisualisaties betere metadata mee te geven voor het
delen via sociale media. Visualisaties hadden het moeilijk op grote nieuws-
websites. Redacteuren hadden eigenlijk geen idee waar ze deze kwijt moes-
ten. Maar dankzij sociale media worden die bijzondere visualisaties gedeeld,
zodat mensen ze eindelijk kunnen vinden. Probleem is alleen wel dat die
graphics vaak ontdaan zijn van context: je weet niet wie ze heeft gemaakt,
waarom, waar de data vandaan komen, wat voor soort data het visualiseert.
Is de inhoud grensverleggend nieuw en verdienen eigenlijk de data zelf alle
eer, in plaats van de visualisatie? Soms zie je een visualisatie van iets wat we op
zich wel wisten, maar nog nooit zo in beeld gebracht hebben gezien. Zo’n visu-
alisatie opent je ogen. Of je hebt een visualisatie die je op een andere manier,
met een nieuw perspectief, naar al bekende informatie laat kijken. Neem de
plattegrond van het Londense metrostelsel. Je ziet nu allerlei voorbeelden van
andere gegevens die op zo’n manier worden gevisualiseerd.
‘De opvatting dat het beeld aantrekkelijk moet zijn voor het oog, dat is data-
visualisatie in een notendop. Het idee dat we geen genoegen nemen met tra-
ditionele staaf- en taartdiagrammen omdat ze lezers minder aanspreken,
dat is een manier om er tegenaan te kijken. Ik zie het als een continuüm. Hoe

Dagelijkse data
215
belangrijker de data zelf zijn, hoe minder belangrijk de visualisatie is. Hoe
obligater of algemeen bekend de gegevens zijn, hoe meer de visualisatie telt.
Zoals je door een nieuwe bril naar iets bekends kijkt en daardoor een ander
perspectief krijgt. Sommige visualisaties zijn daar erg in geslaagd en die wor-
den vaak ook bejubeld.’
‘Op grote redacties zoals bij The New York Times bestaat veel minder het klas-
sieke beeld van een verslaggever die alleen verhalen schrijft. Het idee dat data-
visualisaties het domein zouden zijn van vormgevers of de graphics-afdeling
op een redactie, is problematisch. Bij de papieren uitgave valt dat wel mee,
omdat de lay-out van de krantenpagina en de vormgeving van de informatie
zo sterk in elkaars verlengde liggen. Maar voor websites en interactieve grap-
hics ligt dat anders. Daarbij ben je op zo’n intieme manier bezig met de ver-
werking van de data, dat je daarvoor die data moet kunnen doorgronden. Ik
denk dat je zeker bij online media vaker de functietitel ‘datajournalist’ zult
tegenkomen. Iemand die computertechnieken gebruikt voor het maken van
analyses en onderzoeksprojecten, iets wat voorheen computer assisted repor-
ter heette. Nu zal dat iemand zijn, een database wrangler, iemand die bekend
is met het in beeld brengen van gegevens, en die bijvoorbeeld ook sjablonen
bedenkt die worden gebruikt voor het visualiseren van data.’
7.7 Frédérik Ruys, @fruys
Track record: onder andere de Misdaadmeter (Algemeen Dagblad), de

Kredietcrisis (Het Financieele Dagblad), Nederland van Boven (VPRO), won
de Infographics Jaarprijs 2010, Malofiej, European Design Award. Mede-
oprichter Infographics Congres, samensteller boek Infographics in Nederland.
Frédérik Ruys noemt zichzelf information designer en houdt zich als data-
journalist bezig met het ordenen van informatie en het op een toeganke-
lijke manier visualiseren daarvan. Hij werkte als datajournalist mee aan de
crossmediale productie Nederland van Boven van de VPRO, die in 2011 op
tv en internet werd gepresenteerd. Na de opleiding redactionele vormgeving
aan de Utrechtse School voor Journalistiek werkte Ruys onder andere voor
het Algemeen Dagblad en Het Financieele Dagblad. Voor het FD maakte hij
datavisualisaties over de financiële crisis. Eén daarvan, ‘Hoe de kredietcrisis
de beurs besmette’, werd bekroond met de Infographics Jaarprijs. Na twee jaar
vertrok Ruys bij het FD om zich volledig te richten op zijn bedrijf Vizualism
en het verzorgen van trainingen en workshops in binnen- en buitenland.

‘Er zijn een heleboel organisaties en bedrijven die niet goed beseffen wat ze
allemaal met hun datasets kunnen doen. Dat is omdat ze die data voor eigen
gebruik hebben, zonder dat ze hebben bedacht dat je daar ook heel andere
informatie uit kunt halen. Dat is onwetendheid, maar ze zien er ook niet een
prioriteit in. Als je met dat soort bedrijven gaat praten, kun je dat als argu-
ment gebruiken. Partijen zeggen later altijd: wat je hebt gemaakt, ziet er ont-
zettend leuk uit en dat is gedaan met ónze data. Denk aan de animatie van de
politievoertuigen in Nederland van Boven: de meldkamer weet precies waar
die voertuigen zich bevinden, de dataset is gebouwd op wat ze willen weten.
Dat je daar vervolgens ook andere analyses op kunt toepassen, daar wordt het
niet voor gebruikt. Je moet ook weten hoe je de data bewerkt om die andere
analyses erop toe te passen. Die nieuwsgierigheid naar de eigen data is voor
veel partijen reden geweest om deel te nemen aan een project.’
‘Open data zijn aan een onstuitbare opmars begonnen. Een erg interessante
ontwikkeling, maar vaak beschouw ik het resultaat van deze goed bedoelde
initiatieven als “data diarree”. Meta-gegevens zijn onvolledig: de aggregatie-
methode is onbekend of de toelichting van bronhouders ontbreekt. Als data-
journalist hecht ik meer waarde aan het boven water halen van informatie
dan het rondpluizen in beschikbare open datasets. Hoewel in die laatste best
juweeltjes te vinden zijn, bieden partijen vaak alleen data aan die ze durven te
delen. Terwijl achter gesloten deuren vaak de meest interessante onderwerpen
te vinden zijn. En twee afzonderlijke datasets kunnen op het eerste gezicht
heel onschuldig zijn, op het moment dat je ze met elkaar combineert, ontstaat
er explosief materiaal.
‘Een goeie visualisatie ziet er simpel uit. Als er iemand bij je scherm komt
staan die denkt jou te complimenteren met ‘Zo, dat ziet er ingewikkeld uit’,
dan weet je dat je gefaald hebt. Ik probeer bij alles wat ik maak het juist een-
voudig te laten lijken. Sommige opdrachtgevers zijn dan best teleurgesteld.
Die denken: ben je daar nou zo lang mee bezig geweest?’
7.8 Andrew Lehren
Track record: Onderzocht voor The New York Times de Wikileaks cables.
Droeg bij aan de Pulitzer-prijs winnende serie over foute Chinese chemicaliën
in westerse medicijnen. Schreef onderzoeksverhalen over bedrog bij de New
Yorkse marathon.

Dagelijkse data
217
Andrew Lehren is verslaggever bij The New York Times. Daarnaast is hij als
docent onderzoeksjournalistiek verbonden aan de Graduate School of Jour-
nalism van de City University in New York (CUNY). Naast de Pulitzer-prijs
voor zijn serie over Chinese chemicaliën won Lehren nog diverse prijzen,
waaronder drie Investigative Reporters & Editors Awards en een Daniel
Pearl-prijs voor onderzoeksjournalistiek. Hij werkte eerder voor NBC News,
waar hij onder meer documentaires maakte over discriminatie door de poli-
tie.
Datajournalistiek
Social media zijn voor Lehren vaak een nuttige bron. In 2008 schreef hij een
verhaal over sneuvelende soldaten in Irak, waarvoor de Myspace-pagina’s van
soldaten erg bruikbaar bleken. ‘Ik vond geweldige verslagen van hun levens
in de oorlog, soms nog geschreven vlak voor hun dood. In feite waren we via
de verslagen in staat mensen te interviewen die niet meer geïnterviewd kon-
den worden.’ Bij de verhalen die Lehren maakte naar aanleiding van de Wiki-
leaks cables, maakte hij gebruik van netwerksite LinkedIn. Via die site vond
hij voormalige huurlingen die in Irak gewerkt hadden, waarover hij vervol-
gens een database maakte, die heel nuttig bleek bij het interpreteren van de
Wikileaks war logs uit Irak. Die waren op zichzelf namelijk erg ingewikkeld.
Uit het onderzoek van Lehren en zijn collega bleek dat er in Irak veel meer
aanvallen door huurlingen waren gedaan dan voorheen bekend was – niet
alleen schoten ze veelvuldig op Iraakse veiligheidstroepen, maar ook op Ame-
rikaanse troepen en ongewapende Iraakse burgers.
Lehren pleit voor voorzichtigheid bij het trekken van conclusies uit data: ‘Je
wilt altijd voorzichtig zijn bij het presenteren van absolute waarheden. Je bent
een journalist die licht op een onderwerp schijnt: kijk, dit zijn de tientallen
valsspelers bij de marathon die ik vond, dit zijn de bedrijven die volgens mijn
gegevens ongereguleerde chemicaliën verkopen. Je beschrijft een wereld,
maar die wereld is misschien niet de volledige wereld. Je moet altijd zorgen
dat de lezer dat weet.’
Datajournalistiek kost tijd en geld, weet Lehren. Maar laat niemand zich daar-
door weerhouden: er zijn ook een heleboel verhalen waar je niet veel tijd voor
nodig hebt en die zich goed lenen voor verloren momenten tussendoor. ‘Als je
een paar vrije halfuurtjes hebt, bekijk je eens wat overheidsgegevens, je vraagt
een database van subsidiegegevens aan. Natuurlijk, er ligt veel druk op ons,
journalisten. We moeten stukken maken to feed the beast, we moeten publi-

ceren. Maar je hebt genoeg momenten waarop je toch al nadenkt over nieuwe
verhalen, die kun je goed gebruiken om iets uit te zoeken.’
Journalistieke houding
Lehren begon als journalist bij kleine regionale kranten. ‘Ik zie mezelf nog
steeds als een verslaggever die vecht om de verhalen te vinden die niet ver-
teld worden. Vasthoudendheid en graven leer je bij een kleine krant.’ Wat niet
betekent dat hij bij The New York Times niet meer hoeft te graven, benadrukt
hij. ‘Mensen hebben soms het idee dat we bij de Times alle goede verhalen toe-
gespeeld krijgen. Dat is niet waar.’
Over de Wikileaks cables: ‘Toen we het materiaal bekeken, werd ons duidelijk
dat het van belang was voor het Amerikaanse volk. Onze taak was uit te vin-
den wat mensen echt moesten weten.’
Naar eigen zeggen loopt hij doorlopend op tegen wettelijke en ethische vraag-
stukken. Heiligt het doel de middelen? ‘Ik stel mezelf steeds weer bepaalde
vragen. Wat is het publieke belang van dit verhaal, en: biedt deze manier van
werken me de mogelijkheid aandacht te besteden aan iets wat anders nooit
door het publiek begrepen zou kunnen worden?’

Over de auteurs
Onderzoeksjournalist Henk van Ess (henk@vaness.nl of @henkvaness) is
internationaal actief als spreker, docent en internetstrateeg. Van Ess is gespe-
cialiseerd in de organisatie en uitvoering van interne bedrijfstrainingen en
medialabs , zoals professioneel en creatief gebruik van sociale media, zoeken
en vinden op internet, storytelling op het web, crowdsourcing en datajourna-
listiek. De voorzitter van de Vereniging van Onderzoeksjournalisten is daar-
naast actief als docent voor de Hamburg Media Schule, de FH in Wenen, de
Universiteit van Amsterdam en de Erasmusuniversiteit. Zijn boeken werden
vertaald naar het Engels, Frans en Duits. Meer informatie: nl.linkedin.com/
in/searchbistro
Hille van der Kaa (@hillevanderkaa) is als docent en onderzoeker verbon-

den aan de masteropleiding Datajournalism van de Universiteit van Tilburg.
Daarnaast doceert zij in dezelfde plaats aan de Fontys Hogeschool Journalis-
tiek. Van der Kaa ontwikkelt met haar bedrijf De Uitgeeffabriek transmedi-
ale productizzes en datajournalistieke tools (waaronder trendalyse.nl). Ook
traint zij redacties.
Van der Kaa studeerde communicatiewetenschappen en begon als journalist
bij Wegener. Hier groeide ze door tot manager digitale media, waarna ze de
overstap maakte naar VNU Media. Na het volgen van de Executive Master
of Business Administration in Nyenrode begon ze haar eigen bedrijf. Haar
grote liefde? De combinatie van data, journalistiek, transmediale storytelling,
online media en onderzoek. Hierover spreekt en schrijft ze regelmatig.


Handboekdatajournalistiek Nieuw-2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Handboekdatajournalistiek Nieuw-2

Uploaded by

Copyright:

Available Formats

Handboek datajournalistiek

Handboekdatajournalistiek.indd 1 11-7-2012 9:54:48

Henk van Ess

Boom Lemma uitgevers

Handboekdatajournalistiek.indd 3 11-7-2012 9:54:48

Handboekdatajournalistiek.indd 4 11-7-2012 9:54:48

Toen ik bij de krant begon, was onderzoeksjournalistiek zelf onder-

Handboekdatajournalistiek.indd 5 11-7-2012 9:54:48

Een voorbeeld uit mijn verslaggeversdagen in Washington: Jimmy Car-

In mijn recente memoires Paper Route: Finding My Way to Precision Journa-

Handboekdatajournalistiek.indd 6 11-7-2012 9:54:48

Over dit boek 9

2 Vinden van data 27

3 Verwerken van data 103

4 Presenteren van data 125

Handboekdatajournalistiek.indd 7 11-7-2012 9:54:48

4.3 De narrativiteit van data 130

5 Rokende pistolen 155

6 Discutabele data 183

7 Dagelijkse data 207

Over de auteurs 219

Handboekdatajournalistiek.indd 8 11-7-2012 9:54:48

Pulitzer-prijswinnaars Andrew Lehren (New York Times) en Sarah Cohen

De Moeder van Alle Datajournalistiek is een database. Na hoofdstuk 1:

Handboekdatajournalistiek.indd 9 11-7-2012 9:54:48

In hoofdstuk 5: Rokende pistolen krijg je een handleiding voor wat je moet

Dit boek is financieel mogelijk gemaakt door het Stimuleringsfonds voor

Op de bijbehorende website medialab.forreporters.com tref je de datasets aan

Henk van Ess, www.searchbistro.com, @henkvaness, henk@vaness.nl

Handboekdatajournalistiek.indd 10 11-7-2012 9:54:49

‘What I did was fairly straightforward.’

Datajournalistiek is journalistiek waarbij grote hoeveelheden documenten

1.1 Grote hoeveelheden documenten

Sinds het bestaan van de mensheid worden data geproduceerd. De grot­

Handboekdatajournalistiek.indd 11 11-7-2012 9:54:49

Nieuw is dat de hoeveelheid data in korte tijd explosief is gestegen door de

Bij Wikileaks en ander databases vallen journalisten steeds vaker terug op

Handboekdatajournalistiek.indd 12 11-7-2012 9:54:49

Figuur 1.2 De Wikileaks-zoekmachine van de VVOJ, http://forreporters.

De Volkskrant ontving duizenden pdf-bestanden met daarin belangwek-

Figuur 1.3 Duizenden pdf-bestanden komen binnen bij de Volkskrant in een

Handboekdatajournalistiek.indd 13 11-7-2012 9:54:49

Figuur 1.4 De vragenlijsten van verpleeghuizen nu niet meer in pdf, maar

Figuur 1.5 Het uiteindelijke resultaat is te vinden op http://forreporters.com/

Handboekdatajournalistiek.indd 14 11-7-2012 9:54:50

Dankzij de conversie door programmeurs konden journalisten opeens sorte-

1.2 Grote hoeveelheden cijfers

De oorsprong van datajournalistiek is precisiejournalistiek: met hulp van

Media proberen steeds vaker zelf databases te genereren. De Amerikaanse

Handboekdatajournalistiek.indd 15 11-7-2012 9:54:50

Makelaars manipuleren woningaanbod

ROTTERDAM, 3 JAN. NVM-makelaars en huizenverkopers manipuleren met te koop

Figuur 1.7 Een Braziliaanse krant openbaarde de belastinggegevens van

Handboekdatajournalistiek.indd 16 11-7-2012 9:54:50

1.3 Toegankelijk maken van data

Datajournalistiek vereist meestal hulpmiddelen om de grote hoeveelheden

NRC Handelsblad onderzocht presentielijsten van Europarlementariërs,

Figuur 1.8 Verkeerde namen

Volgende lijst vormde de basis voor een interessante constatering: Nederland

Handboekdatajournalistiek.indd 17 11-7-2012 9:54:50

Veel datajournalisten stellen zich daarom de ‘Nou en?’-vraag: is wat ik heb

Voorbeelden van relevante datajournalistiek staan op http://forreporters.

1.5 Het verhaal

Over dit boek 9

2 Vinden van data 27

3 Verwerken van data 103

4 Presenteren van data 125

4.3 De narrativiteit van data 130

5 Rokende pistolen 155

6 Discutabele data 183

7 Dagelijkse data 207

Over de auteurs 219

Sinds het bestaan van de mensheid worden data geproduceerd. De grot