2010-2011 Statistiek

20102011
Eerste Bachelor Criminologie Cindy Stevens
[STATISTIEK IN DE CRIMINOLOGISCHE WETENSCHAP]
DEEL 1: GESCHIEDENIS VAN DE (CRIMINELE) STATISTIEK DEEL 2: INLEIDENDE BEGRIPPEN
INLEIDING
Objecten/onderzoekseenheden = de personen of zaken waarover je iets zegt; over wie/wat je obv het onderzoek een uitspraak doet. Variabelen = kenmerken zoals leeftijd, geslacht, studiekeuze Onderzoekspopulatie = de verzameling van individuen waarover we een uitspraak willen doen Steekproef = een staal uit de onderzoekspopulatie (we kunnen niet alle Belgen tussen 15 en 90 jaar ondervragen) Respondenten = de personen die we uiteindelijk bevraagd hebben; deelverzameling van de onderzoekspopulatie Representativiteit = een kenmerk in de steekproef komt evenveel voor als in de onderzoekspopulatie
BESCHRIJVEN, SCHATTEN EN
VERALGEMENEN ALS STATISTISCHE BEDRIJVIGHEID
Statistiek = het geheel van regels en procedures om gemeten kenmerken te verwerken Beschrijvende statistiek = het op een overzichtelijke en samenvattende/synthetische manier weergeven van kenmerken die voorkomen in een onderzoekspopulatie of steekproef, wanneer we niet alle eenheden kunnen bevragen - Laat toe gegevens te beschrijven voor een groep personen of andere eenheden die onderzocht werden. De resultaten kunnen niet veralgemeend worden naar andere personen of eenheden, tijden. - Biedt momentopname die uitsluitend geldig is voor de onderzochte groep - Laat niet toe causaliteit vast te stellen Inductieve/inferentile statistiek = het veralgemenen van de gegevens verzameld voor een steekproef naar de onderzoekspopulatie waaruit ze getrokken werden Hypothesen = veronderstellingen; specifieke stellingen betreffende de causale relatie tussen 2 of 2+ concepten, die afgeleid zijn uit de theorie Toetsbare stellingen = criminologen kunnen bepaalde veronderstellingen hebben, vb over het voorkomen van een kenmerk in de onderzoekspopulatie of over de samenhang tussen een aantal kenmerken. Onderzoekshypothese = formuleert de betrokken stelling in een positieve zin, dwz in de richting van de verwachtingen van de onderzoeker
Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie
Nulhypothese = de omkering van de onderzoekshypothese; de hypothese dat er geen verband bestaat tussen de kenmerken die men onderzoekt Alternatieve hypothese = indien we vaststellen dat de nulhypothese mag verworpen worden, concluderen we (voorlopig) dat onze onderzoekshypothese (nu alternatieve hypothese) opgaat STATISTIEK EN DE BEANTWOORDING
VAN BESCHRIJVENDE EN VERKLARENDE ONDERZOEKSVRAGEN
Beschrijvende onderzoeksvraag = betreft de kwantitatieve beschrijving van een fenomeen onder studie Verkennend onderzoek = gaat verder dan enkel beschrijven; ze heeft betrekking op het aftasten van (nieuwe) veronderstellingen Verklarende onderzoeksvraag = op gericht geobserveerde verschillen of veranderingen in uitkomstvariabelen te gaan verklaren vanuit kenmerken die eigen zijn aan een theoretisch paradigma Verklarend onderzoek wil een statistische verklaring bieden voor de geobserveerde verschillen tussen eenheden obv n of meerdere kenmerken van die eenheden.
STATISTISCHE
EENHEDEN
Statistische eenheden = de onderzoekseenheden waar men een uitspraak over wil doen Deze eenheden kan men beschrijven adhv een aantal kenmerken, waarin de onderzoeker genteresseerd is. Variabelen = de kenmerken van statistische eenheden die variren en die verschillende scores hebben op een bepaald kenmerk Variabiliteit/spreiding = er is vb spreiding in crimineel gedrag wanneer de verschillende onderzoekseenheden met een verschillende frequentie crimineel gedrag vertonen Voldoende spreiding = dat er per kenmerk tenminste twee verschillende waarden zijn en dat de eenheden verspreid zijn over deze categorien of waarden van die kenmerken Indien de spreiding onvoldoende is over de verschillende categorien van variabelen kan men soms beslissen het kenmerk uit het onderzoek te schrappen, het aantal eenheden in de steekproef op te drijven of de probleemstelling te herzien
UNIVARIATE, BIVARIATE
EN
MULTIVARIATE BESCHRIJVENDE ANALYSE
Univariate analyse = een analyse van n kenmerk dat varieert. Het komt erop neer de verdeling van een kenmerk accuraat te beschrijven Bivariate analyse = wanneer 2 variabelen (x en y) met elkaar in verband gebracht worden Multivariate analyse = wanneer je 2+ variabelen gebruikt (komt niet aan bod in deze syllabus) Onderzoeksvragen in de kwantitatieve criminologie worden behandeld adhv univariate, bivariate en multivariate analyses MEETNIVEAU VAN VARIABELEN Het nominale en ordinale meetniveau vormen samen het categorische meetniveau, terwijl het interval en ratio meetniveau samen het metrische meetniveau vormen. Nominale meetniveau = op basis van een bepaald kenmerk sorteren en beslissingen nemen over wie hetzelfde kenmerk heeft en wie hiervan verschilt Er is geen sprake van een rangorde, ookal worden de categorien voorgesteld door een getal Nationaliteit en geslacht bijvoorbeeld zijn altijd nominaal Exclusiviteit = de categorien mogen elkaar niet overlappen; het classificatiesysteem verliest zijn bruikbaarheid als de te classificeren data kunnen worden ondergebracht in meer dan 1 categorie Exhaustiviteit = het classificatiesysteem dient alle bestudeerde data te omvatten; maw elk geval moet in een categorie kunnen worden gebracht Ordinale meetniveau = kenmerkt zich door het principe van de ordenbaarheid van de categorien We zijn ook in staat (los van te classificeren) de categorien onderling te rangschikken Dichotomie = een variabele die slechts 2 waarden kan aannemen Polytomie = een variabele die meer dan 2 waarden kan aannemen Intervalniveau = niet enkel sprake van rangordening, maar de intervallen tussen de verschillende waarden die een variabele kan aannemen, hebben ook een betekenis. Vb temperatuur Rationiveau = het niveau waarbij sprake is van rangordening en waarbij de intervallen betekenis hebben en er een natuurlijk nulpunt aanwezig is. Op dit niveau is nul ook werkelijk een absoluut, niet-arbitrair nulpunt. Vb lengte, gemeten in cm DISCRETE EN CONTINUE
VARIABELEN
Continue meetschalen = hierbij kunnen alle mogelijke waarden die uitkomst zijn van de meetprocedure: niet enkel de waarde 1 en 2, maar ook 1,2 en 1,75
Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie 4
Discrete meetschaal = beperkt tot een telbaar aantal waarden Een continu verschijnsel wordt vaak toch met een discrete meetschaal gemeten, maar dan hebben tussenliggende waarden wel een betekenis (enkel ronde getallen) DE DATAMATRIX ALS INPUT
VOOR STATISTISCHE ANALYSE
Datamatrix/gegevensmatrix = bevat de info van elke statistische eenheid waarvoor men info heeft verzameld Codeboek = een lijst waarin uitgelegd staat welke inhoudelijke betekenis wordt gegeven aan de numerieke code AFRONDINGSREGEL VOOR
STATISTISCHE GEGEVENS
Men rondt naar beneden af van 1 tot 5 Men rondt af naar boven van 6 tot 9 NOTATIESYSTEEM IN STATISTIEK
EN ALGEMENE AFSPRAKEN
Aggregatie = het sommeren of optellen van de waarden in de rijen binnen de kolommen. Deze wordt aangegeven met het sigmateken: AFSPRAKEN BIJ PRESENTEREN
TABELLEN
We onderscheiden 2 tabellen: - Frequentietabellen = tellingen van hoe vaak iedere waarde van een variabele voorkomt - Kruistabellen = tellingen van hoe vaak waarden van 2 variabelen in combinatie met elkaar voorkomen
Een tabel heeft altijd: - een titel - een bronvermelding onderaan de gegevens - een vermelding van de waarnemingseenheid - een vermelding van de variabelen - een vermelding van de meeteenheid - een logische en overzichtelijke indeling
DEEL 3: DE
UNIVARIATE BESCHRIJVENDE STATISTIEK
INLEIDING Datamatrix voor statistische analyse = bestaat uit n of meerdere metingen, scores of waarden voor verschillende individuen, objecten, gebieden of criminele gebeurtenissen. Beschrijvende statistiek = de methodologie voor het organiseren en samenvatten/beschrijven van de gegevens voor een steekproef of de gehele populatie Toegepaste technieken: - de onderzoeksvraag - het meetniveau van de kenmerken van de respondenten Frequentieverdelingen en grafieken maken gegevens visualiseren en samenvatten = centrale tendensen worden duidelijk = bijzondere observaties (weinig voorkomende observaties) worden duidelijk Algemene regel: de mogelijkheid die we hebben bij het laagste meetniveau mogen ook gebruikt worden voor de hogere meetniveaus. Omgekeerd niet! DE VERDELING VAN N KENMERK:
ABSOLUTE EN RELATIEVE FREQUENTIE
Frequentietabel = een variabel (kenmerk) met de daarbij bijhorende waarden kun he op een overzichtelijke manier hier presenteren Tellen van streepjes brengt je op de absolute frequentie Men dient op basis van absolute frequenties de relatieve frequenties, de percentages, cumulatieve frequenties en de cumulatieve percentages kunnen berekenen. De absolute frequentie van een waarde = het aantal elementen met een bepaalde waarde van die variabele Geldige percentages = percentages berekend op diegenen die een geldig antwoord hebben op de vraag Cumulatieve percentages = de percentages van elke volgende waarde wordt bij de voorgaande opgeteld (k) Cumulatieve frequenties = K Som van alle frequenties = n Proporties = elke absolute frequentie delen door het aantal waarnemingen Percentages = proporties x100
Het voordeel van het gebruik van relatieve frequenties en percentages is dat de frequentieverdelingen voor verschillende, niet even grote groepen personen beter vergelijkbaar worden. Wanneer minstens op een ordinaal niveau werd gemeten, heeft het verder ook geen zin om de cumulatieve percentages weer te geven. !!! Bevat de totale steekproef minder dan 30 eenheden, dan werkt men beter met absolute aantallen. Incidentie = het aantal nieuwe gevallen van een bepaalde conditie dat voorkomt in een populatie gedurende een bepaalde periode Prevalentie = het totaal aantal personen in een bepaalde conditie in een populatie op een bepaald moment INDELING IN KLASSEN VAN
KENMERKEN
Bij het samenvoegen van categorien moeten we rekening houden met het meetniveau van de variabelen. Hercoderen = diverse groepen samenbrengen dmv statistische verwerkingspaketten We zouden categorien akkoord en helemaal akkoord kunnen samenvoegen als blijkt dat er n categorie is waar slechts weinig respondenten hebben op geantwoord. Ordinale variabelen worden niet benvloed door de cijfers die we toekennen aan klassen Indeling van klassen van metrische variabelen: - indeling obv gelijke klasselengtes - indeling obv kwartielen - inhoudelijk relevante indeling De eerste 2 zijn statistische indelingen, en steeds correct. Niet in alle gevallen aan te bevelen! Indeling obv klasselengtes Klassegrenzen = de grenzen van de intervallen Klassebreedte = de lengte van elk interval Klassemidden = vertegenwoordigd de gehele klasse Om het klassemidden te bepalen, moeten eerst klassegrenzen bepaald worden Indeling obv kwartielen Bij een indeling obv kwartielen wordt ervoor gezorgd dat er in elke klasse een zelfde proportie van het totale aantal respondenten zit Inhoudelijke indeling Wanneer we genteresseerd zijn in slachtofferschap van minder- en meerderjarigen, dan is de leeftijd slechts een indicator voor de minderjarigheid dan wel meerderjarigheid. In dat geval kan men kiezen voor een inhoudelijke indeling.
GRAFISCHE VOORSTELLINGEN Grafische voorstelling = streeft naar het overbrengen van de informatie van complexe gegevens via beelden (tekeningen). Hierbij is het belangrijk dat het geconstrueerde beeld in overeenstemming is met de rele informatie in de gegevens Taartdiagram/cirkelgrafiek/pie chart = obv verschillende frequenties/percentages wordt een cirkelschijf verdeeld in sectoren Populair bij kenmerken op ordinaal en nominaal niveau. met beperkt aantal categorien (verwarring voorkomen) Nominale variabelen willekeurige volgorde Ordinale en metrische variabelen ordeningscriterium volgen
Staafdiagram = de gegevens worden op 2 assen voorgesteld We plaatsen de staafjes los van elkaar wanneer de variabele nominaal of ordinaal is. Metrische variabele staafjes aaneensluiten (histogram)
Cumulatief frequentiediagram = absolute of relatieve frequenties kunnen worden voorgesteld in een cumulatief frequentiediagram, vanaf het ordinale niveau.
Wanneer de waarden in klassen zijn ingedeeld, zal het er anders uitzien. Bij indeling in klassen gaan we immers uit van de hypothese dat de waarnemingen gelijkmatig verdeeld zijn over de verschillende klassen. Gevolg diagram geen trapfunctie maar gebroken lijn
Histogram = een veelgebruikte visuele voorstelling voor metrische kenmerken Slechts n verschil met staafdiagram blokjes aan elkaar omdat de waarden van X elkaar opvolgen. Door deze voorstelling wordt duidelijk gemaakt dat de categorien op een continum liggen
Lijndiagram = de in niet klassen gegroepeerde gegevens worden visueel voorgesteld door hun frequentie op een as aan te duiden en de punten vervolgens dmv een lijn met elkaar te verbinden.
Frequentiepolygoon = een lijndiagram voor in klassen gegroepeerde gegevens. De categorien worden voorgesteld door hun klassemiddens en punten gevormd door het aanduiden van de hoogte van de frequentie; met elkaar verbonden
OPGELET MET GRAFISCHE

VOORSTELLINGEN
De wijze waarop men de x-as en y-as ijkt, is bepalend voor de mate waarin met detaillering ziet in het verloop van de cijfers en dus ook voor de wijze waarop het beeld zal overkomen bij de lezer PARAMETERS VAN CENTRALITEIT
Parameters van centraliteit = geven een antwoord op beschrijvende onderzoeksvragen Centrale tendensen = vinden we door te kijken naar centrale waarden Centrummaten = hanteren we wanneer we de frequentieverdeling willen kenmerken adhv een centraal gelegen waarde. Deze waarde wordt dan als een representatieve maat beschouwd die de volledige verdeling van de waarnemingen zo goed mogelijk karakteriseert
Modus Categorie van de variabele met de frequentie die het vaakst voorkomt. Aangezien de modus enkel verwijst naar de waarde met de hoogste frequentie is er geen enkel probleem om de modus te bepalen bij nominale variabelen, ordinale en metrische variabelen.
Modus = meest voorkomende waarde
Berekenen
Mediaan Het midden van de verdeling Je moet minstens het ordinaal meetniveau hebben om de mediaan te mogen gebruiken. Strikt genomen enkel van toepassing als n oneven is.
Mediaan = (n+1)/2
Berekenen
Kwantielen Interpreteren, niet berekenen Zie p. 56onderaan Rekenkundig gemiddelde Gebruikt bij variabelen gemeten op het metrisch niveau (bij interval en ratio) Wordt verkregen door alle voorkomende waarden bij elkaar op te tellen en vervolgens het totaal te delen door het aantal respondenten
Rekenkundig gemiddelde = x =
x +x
1
+ ... + xn n
Berekenen
Enkele belangrijke kenmerken: - enkel voor metrische variabelen - evenwichtspunt van de verdeling - geen robuuste maat (dus gevoelig voor uitschieters) - de som van alle afwijkingen tegenover het rek.gem is 0 Deviatiescores = de afwijkingen tegenover het gemiddelde Berekenen Verantwoord kiezen tussen centrummaten Belangrijk is te weten dat bij de berekening van het rekenkundig gemiddelde alle waarnemingen worden betrokken. Nadeel: extreme waarden benvloeden resultaten van het gemiddelde PARAMETERS VAN SPREIDING Parameters van spreiding = bieden een antwoord op beschrijvende onderzoeksvragen die de ongelijke spreiding van criminologisch relevante fenomenen willen bestuderen Variatieratio (VR) De proportie waarnemingen die niet tot de modale categorie behoren. Ze neemt de waarde van nul aan indien alle waarnemingen tot de modale categorie behoren. Een minder aangename eigenschap: er is geen maximumwaarde. Slachtofferschap afgelopen vijf jaar Niet Minstens n maal de afgelopen vijf jaar modus (p) Index van diversiteit
Percentage 75 25 Berekenen De variatieratio is hier 100% -75% oftewel 25% VR= 100%-modus (in %) of 1
11
Spreidingsmaat gebaseerd op de relatieve frequenties van de categorien, maar het enige verschil is nu dat rekening wordt gehouden met de proportie van waarnemingen binnen iedere categorie of equivalentieklasse
ID = 1 (f1*f1 + f2*f2 +f3*f3 +fn*fn)
Berekenen
Spreidingsmaat d Drukt uit in hoeverre de modus afwijkt van de situatie waarbij alle eenheden zich in de modale klasse zouden bevinden M = het aantal categorien van een kenmerk Pmo = relatieve frequentie van de modusklasse Berekenen
Variatiebreedte Het verschil tussen de grootste en de kleinste waargenomen waarde
V= max x min x
Berekenen
De variatiebreedte is een zeer rudimentaire parameter van spreiding. Ze geeft immers enkel aan over welke afstand de waarnemingen verspreid zijn Interkwartielafstand (K3-K1) Het verschil tussen het derde en het eerste kwartiel Berekenen Interdeciel-afstand = het verschil tussen het negende en het eerste deciel Spreidingsmaten op metrisch niveau Zelfde principe bij metrische spreidingsmaten. Men bepaalt eerst het rekenkundig gemiddelde en gaat dan voor elke waarneming en hun frequenties nu, hoever ze van het rekenkundig gemiddelde verwijderd liggen. De spreidingsmaten zijn niet zo robuust. De gemiddelde absolute afwijking De som van de absolute waarden van de afwijkingen van elke waarde ten aanzien van het rekenkundig gemiddelde, gedeeld door het aantal waarnemingen. Niet berekenen Variatie (sum of squares/var) De optelsom van de kwadraatafwijking geeft een indicatie van spreading: hoe groter de maat, hoe groter de verschillen tussen de statistische eenheden
12
Berekenen
Steekproefvariantie De variatie gedeeld door het aantal onderzoekseenheden wanneer we over populatiegegevens beschikken en gedeeld door het aantal steekproefeenheden minus 1
( x i x)
i =1
n 1
Berekenen
Steekproefstandaardafwijking De vierkantswortel van de steekproefvariantie
( x i x)
i =1
n 1
Berekenen
Variatiecofficint Laat toe de spreiding van verdelingen die worden uitgedrukt in verschillende meeteenheden, te vergelijken. Wordt berekend door de standaardafwijking te delen door het rekenkundig gemiddelde
V= s/X
Berekenen ZELF UITREKENEN VAN GEMIDDELDE, VARIANTIE EN STANDAARDAFWIJKING
zie p. 69 (!) PARAMETERS VAN VORM Wanneer we vergelijking inzake vorm, kunnen we vaststellen dat verdelingen verschillen in de mate waarin zij afwijken van een symmetrische verdeling Symmetrie kan enkel bestudeerd worden voor metrische meetschalen. Symmetrie = als het rek.gem en de mediaan aan elkaar gelijk zijn Positief asymmetrisch = als de verdeling een langere staart naar rechts heeft (rek.gem > mediaan) cofficint positieve waarde
13
Negatief asymmetrisch = langere staart naar links (rek.gem < mediaan) cofficint negatieve waarde Empirisch cofficint van Pearson: - bereken het verschil tussen het gemiddelde en de mediaan - deel deze waarde door de standaardafwijking Kurtosis/afplatting = de mate van afplatting van de gegevens rondom het rek.gem. de kurtosis wordt steeds met de standaardnormale of Gauss-verdeling als standaard vergeleken DE BOX-PLOT Box-plot = een overzichtelijke manier om gegevens vanaf ordinaal meetniveau visueel voor te stellen; visuele weergave van de positie, spreiding en symmetrie van de verdeling. Vorm kan worden afgeleid uit de waarde van de mediaan, eerste en derde kwartiel. Symmetrie afleiden uit verdeling van waarden rond de mediaan: liggen de waarnemingen gelijk verspreid rond de mediaan, dan is de verdeling symmetrisch Een box-plot laat toe de extreme waarden (uitbijters/outliniers) te detecteren Samenstelling zie p. 72-73
14
DEEL 4: DOELSTELLING VAN DE BIVARIATE BESCHRIJVENDE STATISTIEK DOELSTELLING VAN DE BIVARIATE

BESCHRIJVENDE STATISTIEK
Bivariate beschrijvende statistiek = gebruiken we indien we de relatie tussen twee kenmerken willen beschrijven Doelstelling de belangrijkste aspecten van een relatie tussen twee veriabelen samen te vatten op een eenduidige en economische manier Keuze hangt af van het meetniveau van de twee variabelen. Een criminoloog kan twee soorten onderzoeksvragen stellen die kunnen beantwoord worden adhv bivariate beschrijvende statistiek: - oorzakelijke (etiologische) onderzoeksvragen - vragen naar samenhang, zonder uitspraken te doen over causale relaties BIVARIATE FREQUENTIEVERDELING
Bivariate frequentieverdeling = de frequentieverdeling van twee kenmerken; zo kunnen we nagaan of de frequentieverdeling van n variabele samenloopt met de frequentieverdeling van een ander kenmerk. Ze worden vooropgesteld adhv een kruistabel. Kruistabel (contingentietabel) = een tabel waarin de categorien van twee variabelen tegenover elkaar worden uitgezet en waarin de waargenomen frequentie van elke combinatie van categorien vermeld staat. Celfrequenties = geven aan hoeveel keer een bepaalde combinatie van categorien van variabelen voorkomen Rijtotalen en kolomtotalen worden ook wel de marginalen genoemd Marginalen = geven de univariate frequentieverdeling van de respectievelijke variabelen weer Steekproefomvang = de som van alle celfrequenties Voor metrische variabelen ligt het iets moeilijker om te werken met een contingentietabel. Bij metrische variabelen komen meestal heel veel verschillende waarden voor. Puntenwolk/scatterplot = grafische voorstelling van de frequentieverdeling van twee variabelen die gemeten zijn op metrisch niveau. In een puntenwolk worden twee variabelen tegen elkaar uitgezet door de waarden van de variabele X op de abscis te plaatsen, en de waarden van de variabele Y op de ordinaat te zetten. SYMMETRISCHE EN ASYMMETRISCHE
RELATIES TUSSEN VARIABELEN
15
Basisformat = de visuele vertaling van de onderzoeksvraag in de formele symbolische taal die in de statistiek gebruikt wordt. Daartoe wordt een bepaald notitiesysteem gehanteerd. Asymmetrische relatie = wordt veroorzaakt doordat de ene variabele een causale invloed uitoefent op de andere. X is een oorzaak van Y Er is steeds een afhankelijke en een onafhankelijke variabele De afhankelijke variabele wordt steeds voorgesteld met de hoofdletter Y en de onafhankelijke variabele steeds met hoofdletter X Rechtstreeks effect = betekent dat een onafhankelijke variabele een rechtstreekse invloed heeft op de afhankelijke variabele Symmetrische relatie = hierbij kan men op theoretische gronden geen onderscheid maken tussen de beide variabelen. Het enige wat we kunnen zeggen is dat de beide kenmerken samenhangen. Er bestaat een verband, maar we kunnen niet zeggen hoe de invloed verloopt ten eerste kan er sprake zijn van een wederzijdse (reciproke) invloed tussen beide variabelen - ten tweede kan er sprake zijn van een schijnverband. Dan is er sprake van een gemeenschappelijke oorzaak - ten derde kan er een samenhang bestaan tussen twee variabelen omdat deze indicatoren van hetzelfde begrip zijn In dat geval vertonen beide metingen meetfouten en is de doorsnee het gevolg van het gemeenschappelijke achterliggende theoretische kenmerk dat beide indicatoren delen. HET VOORSTELLEN VAN
STATISTISCHE RELATIES VIA EEN BASISFORMAT
Om de statistische analyse overzichtelijk te houden is het verstandig het basisformat van een onderzoeksvraag te zoeken en schematisch voor te stellen. Hiervoor bestaat een notitiesysteem dat door sociale wetenschappers standaard gehanteerd wordt bij het visualiseren van onderzoeksvragen. Dit notitiesysteem is een taal die door onderzoekers overal ter wereld wordt begrepen. Het is dus van belang deze taal te kennen. Stochastische afhankelijkheid = kennis van n variabele is nooit voldoende om de waarde te kennen van een andere variabele Statistische onafhankelijkheid = er bestaat geen enkele vorm van samenhang tussen twee kenmerken. Analytische afhankelijkheid = een perfecte statistische relatie. In dit geval is er sprake van een deterministisch verband De ovale vorm = staat voor een latente variabele of een niet rechtstreeks gemeten kenmerk Het vierkant = wordt gebruikt om een kenmerk van het metrisch niveau voor te stellen. Manifeste variabelen of een kenmerk rechtstreeks gemeten bij de onderzoekseenheid
Blokken = worden gebruikt om variabelen van ordinaal of nominaal niveau voor te stellen De dubbele gebogen pijl = staat voor een symmetrisch statistisch verband; er is een symmetrie tussen de varabelen, geen interdependentie De gerichte pijl = een oorzaak-gevolgrelatie (X onafh.variabele; Y afh.variabele) De gevorkte pijl = wordt gehanteerd voor het weergeven van een interactie-effect Om ineractie op te sporen, treedt er steeds een derde variabele in het spel, en daarom wordt het fenomeen van de interactie pas later uiteengezet CAUSALE RELATIES VS
STATISTISCHE RELATIES
We kunnen met statistiek NOOIT het bestaan van causale relaties bevestigen. Het enige wat we kunnen doen, is de kenmerken (sterkte, richting en vorm) van een verband nagaan. VERANTWOORD KIEZEN TUSSEN EEN REEKS VAN ASSOCIATIEMATEN
Associatiematen zijn voor de kwantitatieve criminoloog-onderzoeker the tools of the trade zoals scalpels en andere operatiegereedschappen tot de gereedschapskist van de chirurg behoren. Bij de keuze voor een best passebde associatiemaat houdt men rekening met twee criteria: - ten eerste is er het meetniveau van de (on)afhankelijke variabele. Als beiden verschillend zijn meetniveau op laagste niveau gemeten - ten tweede is er de verwachte theoretische richting van de associatie: symmetrische of asymmetrische analysetechnieken worden dan gekozen in functie van de verwachte theoretische associatie. Asymmetrische analyse = wanneer we uitspraken willen doen in de trant van X leidt tot Y of als X dan Y
ASSOCIATIEMATEN VOOR
KENMERKEN OP NOMINAAL NIVEAU
Het percentageverschil Berekenen Kruistabellen worden gebruikt wanneer we de relatie tussen twee nominale kenmerken willen bestuderen. De verschillen in de afhankelijke variabele worden vergeleken over de verschillende categorien van de onafhankelijke variabele. We gebruiken hiervoor vaak het percentageverschil en de odds ratio. Statistisch dienen we bij het maken van een bivariate kruistabel het onderscheid te maken tussen een onafhankelijke en een afhankelijke variabele. Een afhankelijke
variabele is een kenmerk dat benvloedt wordt door n of meerdere kenmerken. Een onafhankelijke variabele is een kenmerk dat invloed uitoefent op een ander kenmerk. !!! Geslacht kan nooit een afhankelijke variabele zijn
Als een theorie stelt dat n variabele een andere veroorzaakt, dan zetten
we vaak de oorzakelijke of onafhankelijke variabele in de kolom,
Terwijl we de afhankelijke variabele in de rij plaatsen.

Verschillen op n categorie van de afhankelijke variabele bestuderen voor de verschillende categorien van de onafhankelijke variabele Verschil= percentagepunten!!! Zie p. 87-88 vb Richtlijnen bij het percenteren van de tabellen; regels: vermeld altijd het totale aantal waarnemingen indien enkel de percentages of proporties in een tabel werden opgenomen bereken nooit een percentage wanneer het aantal gevallen kleiner is dan 30 (met 1 eenheid verminderen verlaging van 3% geen significantie meer!) De odds ratio Odds ratio = om 2 nominale kenmerken te bestuderen. Het is een maat om de verhouding tussen het voorkomen van een gebeurtenis en het niet voorkomen van een gebeurtenis uit te drukken (symmetrische associatiemaat) Berekenen Kruisproduct ratio = de verhouding tussen twee odds De odds is tevens de basis voor de logistische regressie-analyse. De interpretatie van de odds ratio is relatief eenvoudig. De odds ratio neemt de waarde aan van 1 bij afwezigheid van een verband en wijkt af van 1 naarmate dat het sterker wordt. De afwijking gebeurt naar 0 of naar + Chi-kwadraat (X) Berekenen X = wordt gebruikt om na te gaan of waargenomen celfrequenties systhematisch afwijken van verwachte celfrequenties indien geen associatie zou bestaan tussen de twee kenmerken. Vooral om kruistabellen te analyseren. Kan beschouwd worden als een maat voor de sterkte van een relatie tussen twee variabelen gemeten op nominaal niveau, of tussen de nominale en ordinale variabele.. De waarde van X neemt toe naarmate de associatie tussen de variabelen sterker is. Moeilijk te interpreteren. Erg gevoelig voor het aantal meeteenheden in onze tabel. Voorwaarden: - de data in de frequentietabel dienen ruwe frequenties te zijn, geen scores/percentages
18
de onderzochte variabelen dienen categorisch te zijn, en de meetwaarden dienen elkaar uit te sluiten. Elke observatie mag slechts in n cel thuishoren de X waarde mag maar genterpreteerd worden indien aan een aantal voorwaarden is voldaan max 20% van de cellen bevat een frequentie van <5 en geen enkele van 0
Phi Interpreteren, niet berekenen Phi = een associatiemaat die gebaseerd is op X en neemt de waarde 0 aan bij geen associatie; 1 bij perfecte associatie. Phi wordt gebruikt bij de berekening van de associatie tussen kenmerken in een 2*2 tabel Cramers V Interpreteren, niet berekenen Cramers V = de meest aangewezen cofficint van die associatiematen die steunen op X. V is belangrijk want deze associatiemaat corrigeert voor de gevoeligheid van X voor de steekproefgrootte en het aantal rijen en kolommen van variabelen. V varieert van 0 tot 1 en wordt gebruikt bij associaties tussen kenmerken in een r*k tabel. ASSOCIATIEMATEN VOOR
KENMERKEN OP ORDINAAL NIVEAU
Gamma Interpreteren, niet berekenen Gamma = voor de samenhang tussen variabelen van het ordinale niveau te berekenen. Waarde: -1 tot +1 Gebaseerd op de verhouding tussen consistente paren en inconsistente paren. -1 perfect negatief verband +1 perfect positief verband 0 afwezigheid van een verband Hoe verder van 0, hoe sterker de associatie Negatieve relatie = waarde <0 hoge waarden op de variabele gaan samen met lage waarden op de andere variabele Positieve relatie = waarde >0 hoge waarden op de variabele gaan samen met hoge waarden op de andere variabele Consistente paren = ieder paar van de elementen waarbij de waarde van het ene element op beide variabelen hoger is dan van het andere element. Inconsistente paren = ieder paar van elementen waarbij de waarde van het ene element op de ene variabele hoger is en op de andere variabele lager is dan het andere element Gamma kan ook berekend worden voor metrische variabelen die men ordinaal maakt door deze variabelen in categorien te brengen. Echter, het is mogelijk dat
19
de associatie hierdoor verschilt omdat de categorisering arbitrair is gebeurt. Als dat gebeurt, kan dat zijn dat de associatie niet rechtlijnig is. De rangcorrelatiecofficint van Spearman en Kendalls Tau-b Interpreteren, niet berekenen Rangcorrelatiecofficint = in dit geval toetsen we de nulhypothese dat beide rangordeningen niet van elkaar verschillen Rangcorelatiecofficint van Spearman = afgeleid van de product-moment correlatiecofficint van Pearson. Deze varieert van -1 tot +1. Om Rho te berekenen bepalen we per eenheid het verschil tussen de beide rangordeningen. Kendalls Tau-b = symmetrische associatiemaat die varieert tussen -1 en +1. Bij perfecte statistische associatie worden -1 of +1 slechts bereikt onder conditie van het aantal rijen even groot is als het aantal kolommen. SYMMETRISCHE ASSOCIATIEMATEN VOOR KENMERKEN OP METRISCH NIVEAU
Als blijkt dat hoge criminaliteitsgraden in buurten samenhangen met hoge werkloosheidspercentages, dan is er sprake van een positieve samenhang. Hoge criminaliteitsgraden, lage werkloosheidspercentages: negatieve samenhang. Geen samenhang covariantie, covariatie en correlatie = 0 Sterkte = duidt op de mate waarin beide variabelen al dan niet samenhangen Als in een puntenwolk de punten een lineair patroon vormen, is er sprake van een zekere lineaire samenhang tussen de variabelen. Covariaties, covarianties en correlaties worden gebruikt om de samenhang tussen twee variabelen in te schatten en het gaat hierbij om symmetrische associatiematen. Geen sprake van (on)afhankelijke variabele.
Covariatie Stelt de mate voor waarin beide variabelen samen variren. Het is de som van de kruisproducten van de afwijkingen van X waarden tov hun gemiddelde enerzijds, en de afwijkingen van Y tov hun gemiddelde anderzijds.
SS(x,y) = { ( x1 - x )( y1 - y ) + ... + ( x n - x )( y n - y ) }
erekenen
20
De gesommeerde deviatiescores van de twee variabelen worden vermenigvuldigd. Covariantie Gezien de covariantie afhankelijk is van de meeteenheid waarin de variabelen zijn opgenomen kan de absolute waarde van de covariantie weinig informatie bieden over de sterkte van de samenhang. Een grotere waarde van de covariantie duidt niet op een sterkere samenhang maar is een rechtstreeks gevolg van het feit dat de numerieke waarde en de spreiding van inkomen groter is bij jaarlijks dan bij wekelijks inkomen (zie vb p103)
s xy =
( x x )( y y )
i =1 i i
n 1
Berekenen
Covariatie gedeeld door n-1. De product-moment correlatiecofficint van Pearson Is gelijk aan de covariantie tussen X en Y in gestandaardiseerde vorm
R= Cov / (Sx*Sy)
Berekenen
Standaardisatie maakt de interpretatie van de associatie tussen twee metrische variabelen eenvoudiger. Zeer sterke correlatie r>0.50 Matige tot sterke correlatie 0.2<r<0.50
EN CORRELATIE: EEN UITGEWERKT REKENVOORBEELD
COVARIATIE, COVARIANTIE
Stappen te volgen bij het uitrekenen van een correlatie: 1:Bereken het rekenkundig gemiddelde van de twee variabelen, zoals eerder werd uiteengezet. 2:Bereken de afwijkingen van elke eenheid ten opzichte van het rekenkundig gemiddelde voor de beide variabelen X en Y. 3:Kwadrateer de afwijkingen van elke eenheid met het rekenkundig gemiddelde. Op die manier leg je de basis voor de berekening van de variatie in X en Y en covariatie tussen X en Y. 4:Neem de som van de gekwadrateerde afwijkingen tegenover de gemiddelde waarde van X en neem de som van de gekwadrateerde afwijkingen tegenover de gemiddelde waarde van Y. 5:Bereken de variantie van X en de variantie van Y. Dit gebeurt door zowel variatie van X als de variatie van Y delen door N-1. 6: Bereken de vierkantswortel van de variantie in X en de vierkantswortel van de variantie in Y. Je hebt nu ook de standaardafwijking van X en van X. 7: Bereken de kruisproductensom en je hebt de covariatie. 8: Deel de kruisproductensom door n-1 en je hebt de covariantie tussen X en Y.
21
9: Vermenigvuldig de standaardafwijking van X met de standaardafwijking van Y 10: Deel de covariantie tussen X en Y door de vermenigvuldiging van de standaardafwijking van X met de standaardafwijking van Y. Dit resultaat is de correlatiecofficint.
REGRESSIE-ANALYSE ALS TECHNIEK
DE BIVARIATE LINEAIRE
ASYMMETRISCHE ANALYSE-
Het intercept in een bivariate lineaire regressieanalyse kunnen berekenen OLS = Ordinary Least Squares principe dat wordt gebruikt om de regressieanalyse mathematisch uit te voeren (regressie-analyse = asymmetrische associatiemaat) Enkelvoudige lineaire regressie-analyse = levert een statistische vergelijking op waarmee de afhenkelijke bariabele voorspeld kan worden obv de onafhankelijke variabele enkelvoudig bivariaat: 1 onafhankelijke variabele lineair Eenvoudige samenvatting van puntenwolk dmv rechte regressie Techniek om de positie van de rechte te bepalen
Y = B0 + B1X + e Of Y = a + b1X + e
Regressiecofficinten = de Bs zijn de populatieparameters die met een regressieanalyse geschat worden en worden daarom ook zo genoemd Zie p 108 verdere uitleg formule Regressiecofficinten bepalen = gebeurt via de gewone kleinste kwadratenoplossing Residuele variatie = de kwadratische afwijking van de punten tov de regressierechte is een kwaliteitsmaat voor de gevonden rechte Het mag duidelijk zijn dat we met het blote oog niet in staat zijn precieze uitspraken te doen. Daarom doen we beroep op een reeks cofficinten die de kwaliteit van de regressielijn helder uitdrukken. Enmaal de regressiecofficinten gekend zijn, dient nog bepaald te worden of en hoe goed men de waarden van de
22
afhankelijke variabele (Y) kan voorspellen obv de waarden van de onafhankelijke variabele (X) De afwijkingen van het gemiddelde van Y bestaan uit twee componenten: - toevallige afwijkingen (residual) - verklaarde afwijkingen (afwijkingen van rek.gem verklaard door de regressielijn) Totale variantie van Y: - Regression sum of squares = de variantie Y die vertegenwoordigd wordt door X - Residual sum of squares/foutenvariatie = de mate waarin de voorspelde waarden van Y afwijken van de geobserveerde waarden van Y Niet berekenen, wel betekenis kennen Determinatiecofficint R = de verhouding van de verklaarde variatie tov de totale variatie R is de proportionele reductie in de voorspellingsfout die intstaat door op de regressielijn te steunen boj de voorspelling van de afhankelijke variabele en is dus de proportie van de totale variatie in Y die door X wordt verklaard. Het is een symmetrische maat, maar het is wel mogelijk om een asymmetrische interpretatie aan R te geven. Berekenen Teller = bevat variatie die bestaat uit de variatie tussen de voorspelde waarde en de gemiddelde waarde. De gemiddelde waarde is immers onze beste voorspeller als we geen onafhankelijke variabele hebben Noemer = bevat de variatie in Y
ZELF UITREKENEN VAN

DE PARAMETERS VAN DE REGRESSIERECHTE
Zie p. 115-116!! Uitrekenen bivariate regressie (!)
VERONDERSTELLINGEN BIJ
HET UITVOEREN VAN EEN LINEAIRE REGRESSIE-ANALYSE
Ten eerste wordt wat betreft het meetniveau verondersteld dat zowel de afhankelijke als de onafhankelijke variabele gemeten zijn op interval- of ratio-meetniveau. Een tweede veronderstelling is dat er een lineair verband bestaat tussen de onafhankelijke en afhankelijke variabele
23
Zo wordt er verondersteld dat voor elke waarde van de onafhankelijke variabele de afhankelijke variabele een normale verdeling kent Heteroscedasticiteit = een regressieassumptie voor de lineaire regressie: het betekent dat de variatie van de afhankelijke variabele voor elke waarde van de onafhankelijke variabele gelijk dient te zijn Outliers/uitbijters = extreme waarden die de regressierechte benvloeden DE RAPPORTAGE VAN DE
BELANGRIJKSTE PARAMETERS VAN DE REGRESSIERECHTE IN EEN RAPPORT
Lees p 118 EN WAT ALS DE MEETNIVEAUS VAN 2 VARIABELEN VERSCHILLEND ZIJN? Is een onafhankelijke variabele opleidingsniveau gemeten op ordinaal niveau en een afhankelijke variabele slachtoffer of niet op een nominaal niveau, dan kiest men strikt genomen op een analysetechniek op nominaal niveau.
24
DEEL 5: DE
STANDAARDNORMALE VERDELING EN DIENS EIGENSCHAPPEN
INLEIDING Gauss-curve/normale verdeling = de verdeling bendadert een perfecte klokvorm. Deze (theoretische) verdeling is uitermate belangrijk omdat er een aantal eigenschappen aan verbonden zijn, die we nodig hebben wanneer we later gaan pogen om uitspraken obv steekproeven gaan veralgemenen naar de populatie. DE NORMALE EN STANDAARDNORMALE VERDELING
Buigpunten = zijn punten waar de vorm van de kromme overgaat van bol naar hol Zie vb p 123-124 VAN NORMALE VERDELING
NAAR STANDAARDNORMALE VERDELING
Standaardisering = om te vermijden dat men telkens de oppervlakte onder de curve moet berekenen obv de formule, hebben statictici gezocht naar dit. Hierdoor diende men de oppervlakte eenmalig te berekenen en vast te leggen in een tabel. Z-verdeling = a) het gemiddelde van de standaardnormale verdeling wordt op 0 gesteld door van iedere waarde het gemiddelde van de oorspronkelijke reeks af te trekken b) de standaardafwijki,g wordt op 1 gesteld door de absolute waarde van het bij (a) berekende verschil te delen door de standaardafwijking van de oorspronkelijke reeks Z-SCORES EN HET GEBRUIK
VAN DE TABEL VAN DE STANDAARDNORMALE VERDELING
Een Z-score wordt als volgt berekend:
x z=
zie vb p 128-130
Berekenen
25
DEEL 6: EEN INLEIDING IN KANSREKENEN WAAROM KANSREKENEN VOOR CRIMINOLOGEN? Toevalsmechanisme = elk element heeft een zelfde kans om getrokken te worden in de steekproef KANSDEFINITIES Kansexperimenten = experimenten waarvan wordt geist dat ze een onbeperkt aantal keren kunnen worden herhaald onder gelijkblijvende omstandigheden Kans = steeds tussen 0 en 1 Notatie P Kans om 6 te gooien met n dobbelsteen P(6) Kansdefinitie van Laplace = het aantal uitkomsten waarin je genteresseerd bent gedeeld door het aantal mogelijke uitkomsten van een kansexperiment A uitkomst kansexperiment waarin je genteresseerd bent N(A) aantal uitkomsten waarin je genteresseerd bent N aantal uitkomsten Berekenen
Formule Laplace: N(A)/N
Relatieve frequentie = te bepalen door het kansexperiment te herhalen en vervolgend te kijken hoe vaak de uitkomst die je interesseert zich voordoet tov het totaal aantal herhaalde kansexperimenten n(A) aantal uitkomsten waarin je genteresseerd bent bij herhaling van experiment n aantal herhalingen van het experiment Berekenen
P(A)=n(A)/n
De experimentele wet = naarmate het aantal herhalingen van een toevalsproces toeneemt, zullen de kansen van de elementen van S(steekproef) zich meer en meer stabiliseren. Criminologen zien steekproefgegevens als een uitkomst van een kansproces! Subjectieve kans = wanneer je mensen over straat hoort praten over hun eigen impressies; de eigen inschatting en is gebaseerd op de perceptie van het individu KANSREGELS Algemene somregel
P(AofB) = P(A) + P(B) P(AenB)
Zie vb p 134 Berekenen
26
De speciale somregel
P(AofB) = P(A) + P(B)
A en B hebben niets met elkaar gemeen!!
De algemene productregel Voorwaardelijke kans = de kans op een bepaalde uitkomst als je al gedeeltelijke info hebt over de uitkomst van een kansexperiment De kans op gebeurtenis A, onder conditie van gebeurtenis B. Dit is de kans op B gegeven A. als we deze regel toepassen en we willen weten wat de kans is op het gooien van een getal niet hoger dan 3 (kans op B), gegeven het feit dat het een even getal moet zijn (kans op A) dan bekomen we: P(AenB) = de probabiliteit dat een getal even is En hoogstens 3 is : 1/6 (enkel 2 is kleiner of gelijk aan drie en even) P(A) = de probabiliteit dat een getal even is : 3/6 De voorwaardelijke kans = 1/6 gedeeld door3/6 of 1/6 * 6/3 = 6/18
P(BA) = P (AenB) / P (A)
De speciale productregel
P(A) = 1-P (complement van A)

PERMUTATIES EN
COMBINATIES
Permutaties = het aantal manieren waarop je een aantal verschillende objecten tov elkaar kan plaatsen Berekenen Volgorde is van belang Wordt weergegeven als n! (faculteit) KANSVARIABELEN EN DE
BINOMIALE VERDELING
Kansvariabele = geeft aan in welk getal een kansexperiment resulteert. De notatie van een kansvariabele is bijvoorbeeld k of x. het streepje verwijst naar het feit dat we te maken hebben met een kansexperiment en dat niet bij voorbaat vast staat wat de uitkomst zal zijn Verdelingsfunctie = het overzicht van de uitkomsten van een kansvariabele met de hierbij behorende gecumuleerde kansen Verwachte waarde = de som ban de uitkomsten vermenigvuldigd met de kans op iedere uitkomst
27
BINOMIALE VERDELING Lees p 140-143 vbn BINOMIALE DERDELING GAAT

OVER IN EEN NORMALE VERDELING
zie p 144-148 oefn WAAROM IS DE BINOMIALE VERDELING

ZO BELANGRIJK IN KWANTITATIEF CRIMINOLOGISCH ONDERZOEK?
Vele kenmerken waarin de criminoloog genteresseerd is, volgen een binomiale verdeling. Het al dan niet plaatsvinden van criminele gebeurtenissen, zoals slachtofferschap, is zo een vb. Deze kenmerken zijn categorische variabelen, dichotomien.
28
DEEL 7: INFERENTILE STATISTIEK IN
DE PRAKTIJK
INFERENTILE STATISTIEK?
WAAROM GEBRUIKEN WE
We gebruiken steekproeven die een zo goed mogelijke afspiegeling zijn van de populatie en die, in theorie, een excellente basis vormen om conclusies voor de ganse populatie te trekken. Een steekproef is steeds een subgroep van de populatie die moet bestudeerd worden. Inferentile statistiek = kunnen we uitspraken dien over een breder geheel aan eenheden dan diegenen die we bevraagd hebben. Dit doen we via het gebruik van betrouwbaarheidsintervallen en significatietoetsen. DE REPRESENTATIVITEIT VAN
STEEKPROEVEN
Het doel van inductieve statistiek = het veralgemenen van de gegevens verzameld voor een steekproef naar de populatie waaruit ze getrokken werden Meetfout = door onprecieze metingen bepaalde onjuiste waarnemingen bekomen. Waarnemingen gedaan op een bepaald ogenblik in de tijd, kunnen later andere resultaten opleveren Statistische inferentie houdt zich met deze onzekerheden bezig door 2 functies te vervullen: - schatting gebruik van steekproefkenmerken om ze naar de populatie te veralgemenen - hypothesen testen of toetsen kan men met voldoende zekerheid een bepaalde onderzoekshypothese aannemen of moet men ze op basis van de gegevens verwerpen? STEEKPROEVEN EN
POPULATIE
Afbakenbare populaties Opgeslagen in computers of in een kaartenbakkensysteem leveren ons lijsten Hypothetische populaties Bestuderen van invloed van roken op longkanker, cijfers slachtofferschap geen duidelijke populatie Hypothetische populaties omdat we ze niet op lijsten terugvinden of kunnen identificeren
STEEKPROEVEN EN HET
PRINCIPE VAN TOEVAL
Goede afspiegeling = om die te verkrijgen moeten we een steekproef lukraak samenstellen (random sample)
29
Steekproeffout = wordt bepaald en onder controle gehouden door voldoende aandacht te besteden aan het steekproefkader, -ontwerp en de implementatie ervan. Steekproefkader = geeft weer wie (administratief) deel uitmaakt van de te onderzoeken doelpopulatie, en bijgevolg kans heeft of moet hebben om in de steekproef opgenomen te worden
DE THEORIE VAN
TOEVALSSTEEKPROEVEN
Aselecte steekproeven = steekproeven waarin elke elementaire eenheid uit de empirische populatie een berekenbare kans heeft om in de steekproef opgenomen te worden. Steekproefgrootheden = statistieken afkomstig uit steekproeven zoals gemiddelde, standaardafwijking, rico Populatieparameters = verwijzen naar het gemiddelde, standaardafwijking, rico..in de populatie Inferentile statistiek = hier doen we uitspraken over de populatie obv wat we vinden in een aselecte steekproef uit die populatie. We grbeuiken dus steekproefkenmerken om iets te zeggen over de populatiekenmerken. , en zijn de parameters van de populatie 2 hoofdactiviteiten binnen inferentile statistiek: - schatten Puntschatting = de schatting van een kenmerk in de populatie obv steekproefgegevens. Vb de schatting van het gemiddeld aantal delicten waarvan iemand slachtoffer wordt Intervalschatting = de marges waarbinnen we met een zekere graag van onzekerheid een puntschatting inschatten - toetsen Kansrekenen vormt de basis van de inferentile statistiek Werkelijke waarde = naarmate het aantal toevalssteekproeven van dezelfde omvang (in ons vb n=100) groter wordt, de concentratie van de uitkomsten rond de werkelijke waarde toeneemt. Het is de waarde in de populatie die we kennen via de studentenadministratie KENMERKEN VAN
STEEKPROEVENVERDELING
Een (theoretische) steekproevenverdeling is altijd een theoretische kansverdeling die de functionele relatie toont tussen de mogelijke waarden van een bepaalde statistiek, gebaseerd op een steekproef van n eenheden, en de kans (dichtheid)
30
verbonden met elke waarde, voor alle mogelijke steekproeven van identieke omvang n die uit een specifieke populatie getrokken worden. Lees p 155
GEBRUIK VAN DE NORMALE

VERDELING IN DE INFERENTILE STATISTIEK
Als we een reeks grote steekproeven trekken uit de populatie, dan weten we dat de steekproefgemiddelden normaal verdeeld zijn. Deze eigenschap van steekproefgemiddeldenverdeling is heel belangrijk in de inferentile statistiek. Deze verdeling is symmetrisch en ntoppig, gekenmerkt door de klokvorm en wordt volledig bepaald door de parameters (populatiegemiddelde) en (standaardafwijking) Z-scores het verschil van een warde en het gemiddelde en dit delen door de standaardafwijking
DE CENTRALE LIMIETSTELLING
68-95-99 regel zie p 157 Centrale limietstelling = adhv voorbeeld uitgelegd p 157 We kunnen steeds bepalen welke de kans id op een welbepaalde steekproefuitkomst indien we het populatiegemiddelde en de populatievariantie kennen. Betrouwbaarheidsinterval/-gordel = binnen welk interval rond de steekproefuitkomst het populatiegemiddelde valt PUNTSCHATTING EN
INTERVALSCHATTING
vb oef p 159-160 Schatter = een grootheid die berekend wordt adhv een bepaalde functie obv de informatie van de steekproef en wordt uitgedrukt in een formule. Een schatter is het resultaat van een schatting Zuivere schatter/onvertekende schatter = een statistische grootheid waarvan de verwachtingswaarde samenvalt met de te schatten populatieparameter.
31
Grote steekproeven leiden tot een kleinere variatie in de prevalentieschattingen. We krijgen dus een zekerder resultaat als de steekproefgrootte toeneemt. Betrouwbaarheidsinterval = wordt berekend uit de steekproefdata volgens een methode die een bepaalde kans heeft een interval op te leveren waarin de populatiewaarde ligt HET BEREKENEN VAN EEN
BETROUWBAARHEIDSINTERVAL ROND EEN PARAMETER
Zie p 162-164 Berekenen STATISTISCHE HYPOTHESETOETSING
Statistische hypothesetoetsing = hiermee kan men testen hoe aannemelijk een bepaalde uitspraak over de populatie, op grond van de steekproef in kwestie, werkelijk is Significantietoets = een procedure om gegevens zoals uitkomsten van een steekproef te vergelijken met een vooropgestelde hypothese, die we nulhypothese gaan noemen De uitkomst van zon toets wordt uitgedrukt in termen van een kans die aangeeft hoe goed data en hypothese met elkaar kunnen overeenkomen Overschrijdingskans (p) = de significantietoets meet de kans op het krijgen van een uitkomst die even extreem is of nog extremer dan de waargenomen uitkomst Parallel kan men stellen dat de nulhypothese veronderstelt dat een bepaalde uitkomst of een steekproefgrootheid uit onze steekproef, eigenlijk nul is. De alternatieve hypothese is dat de beklaagde wel schuldig is, de alternatieve hypothese is dat de steekproefgrootte verschilt van 0. Type I fout = dat men een correcte nulhypothese verwerpt Type II fout = dat men een foute nulhypothese aanvaardt P-waarde = kan worden gezien als een uitdrukking van de waarschijnlijkheid of het waarheidsgehalte van een nulhypothese
EENZIJDIG OF TWEEZIJDIG
TOETSEN VAN EEN NULHYPOTHESE?
Tweezijdige toets = houdt in dat we stellen via de alternatieve hypothese dat de populatieparameter significant verschilt van 0, zonder een uitspraak te doen over de richting. Eigenlijk spreken we beter van toetsen met tweezijdig alternatief Eenzijdig getoetst = als de formulering is dat de populatieparameter positief verschilt van 0
Rechtseenzijdig = als de waarde van de populatieparameter een positieve waarde heeft Linkseenzijdig = als de waarde van de populatieparameter een negatieve waarde heeft ANDERE BELANGRIJKE
VERDELINGEN
T-verdeling/ Students t = een verdeling die uiterlijk heel erg lijkt op de normale verdeling. De frequentieverdeling heeft dezelfde symmetrische klokvorm als die van de normale verdeling. Wordt gebruikt in de inf.stat waarbij we obv info uit n steekproef veralgemeningen willen bekomen naar de populatie toe. F-verdeling = is een quotint van twee chi-kwadraat verdeelde grootheden. Deze wordt oa gebruikt bij het quotint van twee steekproef varianties uit twee normaal verdeelde populaties. De F-verdeling is net als X asymmetrisch. Wordt gebruikt in situaties waar men wil weten of een determinatiecofficint die gevonden wordt in een steekproef statistisch significant verschilt van 0. Bernoullie-verdeling = Bernoullie experiment is een experiment met slecxhts twee mogelijke uitkomsten: succes en mislukking DE VARIANTIE-ANALYSE ALS TOETS
VOOR VERSCHILLEN TUSSEN GROEPEN INZAKE METRISCHE KENMERKEN
Variatie-analyse = is een toets voor de relatie tussen een nominale en een metrische variabele Onder de aanname dat de standaardafwijkingen in de populatie gelijk zijn, kun je obv de steekproeven de variantie op twee manieren inschatten: - het gewogen gemiddelde van de variantie binnen iedere groep gemeenten: de binnengroepsvariantie - de variantie van de gemiddelden van de drie groepen gemeenten rondom het algemeen gemiddelde: de tussengroepsvariantie Variantie-analyse beide schatters van de variantie in de populatie worden vergeleken door ze op elkaar te delen Hoe groter F, hoe kleiner de kans dat dit door toeval komt. Als de p-waarde kleiner is dan 0.05, is de kans dat de waarde aan het toeval te wijten is, kleiner dan 5% Berekenen
ZELF UITREKENEN VAN EEN VARIANTIE-ANALYSE zie F berekenen p 174-176 Berekenen

33
Eta-kwadraat = deze is de verhouding tussen de tussengroepsvariantie en de totale variantie in Y
34
DEEL 8: DE
GRENZEN VAN DE BIVARIATE STATISTIEK
Niets zelf berekenen INLEIDING Waarom is de multivariate analyse van statistische gegevens zo belangrijk in de sociale wetenschappen in het algemeen en de criminologie in het bijzonder? Hiervoor zijn verschillende redenen
de sociale werkelijkheid is multivariaat . Er zijn nu eenmaal meerdere

determinanten verbonden aan criminaliteitsgerelateerde fenomenen of uitkomstvariabelen ten tweede is het zo dat het in de criminologie moeilijk is om fenomenen gesoleerd te bestuderen Zowel de causale als de niet causale analyse van criminaliteitsfenomenen maakt daarom gebruik van het niet experimentele onderzoeksdesign als alternatief. Dit is het principe van de statistische controle Elke variabele die gecorreleerd is met de onafhankelijke variabele en die mede bepalend kan zijn voor de score op de afhankelijke variabele, is een storende variabele ten derde is het zo dat achter een bivariaat verband meer kan schuilgaan dan op het eerste zicht lijkt. DE MEERVOUWIGE LINEAIRE REGRESSIE-ANALYSE De meervoudige regressie-analyse = wordt gebruikt wanneer men genteresseerd is in het verklaren van de spreiding in een variabele van het metrisch niveau obv meerdere onafhankelijke variabelen die eveneens van het metrische niveau zijn DE PROEF OP DE SOM: 2 BIVARIATE VS 1 MEERVOUWIGE REGRESSIE Multicollineariteit = de samenhang tussen onafhankelijke variabelen DE PARTILE CORRELATIECOFFICINT
EN DE DETECTIE VAN SCHIJNVERBANDEN
Partile correlatie = de correlatie tussen 2 variabelen, onder statistische controle van n of meerdere storende variabelen waarvoor je wenst te controleren. Dit wordt gedaan wanneer men een schijnverband wil detecteren
STATISTISCHE INTERACTIE
35
Simpsons paradox = toont aan dat achter een bivariate analyse meer kan schuilgaan dan men op het eerste zicht zou vermoeden: Simpson presenteerde percentageverschillen voor de categorien van n onafhankelijke variabele Wanneer we interactie willen opsporen tussen n variabele gemeten op metrisch niveau en n op niet-metrisch niveau bij de studie van de invloed van twee kenmerken op een metrische afhankelijke variabele, kunnen we de regressiecofficint in subgroepen naar de categorische variabele bestuderen
36

2010-2011 Statistiek

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2010-2011 Statistiek

Uploaded by

Copyright:

Available Formats

20102011

Eerste Bachelor Criminologie Cindy Stevens

[STATISTIEK IN DE CRIMINOLOGISCHE WETENSCHAP]

DEEL 1: GESCHIEDENIS VAN DE (CRIMINELE) STATISTIEK DEEL 2: INLEIDENDE BEGRIPPEN

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

MULTIVARIATE BESCHRIJVENDE ANALYSE

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

UNIVARIATE BESCHRIJVENDE STATISTIEK

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

OPGELET MET GRAFISCHE

Modus = meest voorkomende waarde

ID = 1 (f1*f1 + f2*f2 +f3*f3 +fn*fn)

Variatiebreedte Het verschil tussen de grootste en de kleinste waargenomen waarde

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Steekproefstandaardafwijking De vierkantswortel van de steekproefvariantie

Berekenen ZELF UITREKENEN VAN GEMIDDELDE, VARIANTIE EN STANDAARDAFWIJKING

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

DEEL 4: DOELSTELLING VAN DE BIVARIATE BESCHRIJVENDE STATISTIEK DOELSTELLING VAN DE BIVARIATE

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Terwijl we de afhankelijke variabele in de rij plaatsen.

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

ZELF UITREKENEN VAN

Zie p. 115-116!! Uitrekenen bivariate regressie (!)

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

STANDAARDNORMALE VERDELING EN DIENS EIGENSCHAPPEN

Een Z-score wordt als volgt berekend:

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Formule Laplace: N(A)/N

P(AofB) = P(A) + P(B) P(AenB)

Zie vb p 134 Berekenen

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

P(AofB) = P(A) + P(B)

A en B hebben niets met elkaar gemeen!!

P(BA) = P (AenB) / P (A)

P(A) = 1-P (complement van A)

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

BINOMIALE VERDELING Lees p 140-143 vbn BINOMIALE DERDELING GAAT

zie p 144-148 oefn WAAROM IS DE BINOMIALE VERDELING

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

DEEL 7: INFERENTILE STATISTIEK IN

GEBRUIK VAN DE NORMALE

Zie p 162-164 Berekenen STATISTISCHE HYPOTHESETOETSING

ZELF UITREKENEN VAN EEN VARIANTIE-ANALYSE zie F berekenen p 174-176 Berekenen

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Eta-kwadraat = deze is de verhouding tussen de tussengroepsvariantie en de totale variantie in Y

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

GRENZEN VAN DE BIVARIATE STATISTIEK

de sociale werkelijkheid is multivariaat . Er zijn nu eenmaal meerdere

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

Statistiek in de criminologische wetenschappen Cindy Stevens Eerste Bachelor Criminologie

You might also like

ID = 1 (f1f1 + f2f2 +f3f3 +fnfn)