Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 7

COLLEGE 4

ONEWAY ANOVA & MULTIPELE VERGELIJKINGEN

LITERATUUR

§12.1 INFERENCE OF ONE-WAY ANALYSIS OF VARIANCE

Eenzijdige variantieanalyse (ANOVA) wordt gebruikt om verschillende populatiegemiddelden te vergelijken op


basis van onafhankelijke SRS's van elke populatie. Er wordt aangenomen dat de populaties normaal zijn, met
mogelijk verschillende gemiddelden en dezelfde standaarddeviatie.

Om een variantieanalyse uit te voeren, onderzoek je eerst de gegevens. Er hoeft slechts bij benadering aan de
modelvoorwaarden te worden voldaan om geldige resultaten te verkrijgen. Boxplots naast elkaar geven een
overzicht van de gegevens. Met normale kwantielplots en histogrammen (voor elke groep afzonderlijk of voor
de residuen) kun je uitschieters of extreme afwijkingen van de normaliteit detecteren.

Naast Normaliteit gaat het ANOVA-model uit van gelijke populatiestandaarddeviaties. Bereken de verhouding
tussen de grootste en de kleinste standaarddeviatie van de steekproef. Als deze verhouding kleiner is dan 2 en
de normaliteitsvoorwaarde redelijk is, kan ANOVA worden uitgevoerd.

Als de gegevens geen gelijke standaardafwijkingen ondersteunen, kun je overwegen de responsvariabele te


transformeren. Dit zorgt er vaak voor dat de standaardafwijkingen van de groep bijna gelijk zijn en dat de
groepsverdelingen normaler worden. Als de standaarddeviaties niet vergelijkbaar kunnen worden gemaakt
door een transformatie, zijn voor de gevolgtrekking andere methoden nodig, zoals nietparametrische
methoden of de bootstrap.

ANOVA is gebaseerd op het opsplitsen van de totale variatie die in de gegevens wordt waargenomen in twee
delen  variatie tussen groepen en variatie binnen groepen. Als de variatie tussen groepen groot is in
verhouding tot de variatie binnen groepen, hebben we bewijs tegen de nulhypothese.

De eenrichtings-ANOVA-tabel organiseert de ANOVA-berekeningen. Vrijheidsgraden, kwadratensommen en


gemiddelde kwadraten verschijnen in de tabel. De F-statistiek en zijn P-waarde worden gebruikt om de
nulhypothese te testen.

De determinatiecoëfficiënt is het aandeel van de variatie dat wordt verklaard door de


groepsgemiddelden.

De nulhypothese van de eenrichtings-ANOVA F-test is dat de groepsgemiddelden allemaal gelijk zijn. De


alternatieve hypothese is waar als er verschillen zijn tussen de groepsgemiddelden.

De ANOVA F-test deelt de robuustheid van de t-test met twee steekproeven. Het is relatief ongevoelig voor
matige niet-normaliteit en ongelijke varianties, vooral als de steekproefomvang vergelijkbaar is.

1
§12.2 COMPARING THE MEANS

De ANOVA F-test zegt niet welke groepsgemiddelden verschillen. Het is daarom gebruikelijk om vergelijkingen
tussen de middelen toe te voegen aan eenrichtings-ANOVA.

Specifieke vragen die vóór het onderzoek van de gegevens zijn geformuleerd, kunnen als contrasten worden
uitgedrukt. Tests en betrouwbaarheidsintervallen voor contrasten geven antwoord op deze vragen.

Als er geen specifieke vragen worden geformuleerd voordat de gegevens worden onderzocht en de
nulhypothese van gelijkheid van populatiegemiddelden wordt verworpen, worden meervoudige
vergelijkingsprocedures gebruikt om de statistische significantie van de verschillen tussen paren gemiddelden
te beoordelen.

De minst significante verschillen (lsd)-methode controleert de waarschijnlijkheid van een valse afwijzing voor
elke vergelijking. De Bonferroni-methode controleert de algehele waarschijnlijkheid van enkele valse
afwijzingen bij alle vergelijkingen.

De kracht van de eenrichtings-ANOVA F-test hangt af van het significantieniveau, de groepssteekproefgroottes,


de gemeenschappelijke standaarddeviatie van de populatie en de keuze van het alternatief. Software kan de
vermogensberekeningen uitvoeren als deze studie specifieke factoren aanwezig zijn.

COLLEGE

INHOUD COLLEGE

 Het concept;
 Het ANOVA-model;
 Toetsingsschema;
 Multipele vergelijkingen.

VORIGE COLLEGES

 De t-toets 
o Wanneer?
o Welke?
o Hoe?

VISUALISATIE

1. Plot de gemiddelden;
2. Plot een benadering van de ruwe scores.

ANOVA-MODEL

INTRODUCTIE

 ANOVA wordt gebruikt als je wilt weten of de gemiddelden van verschillende


groepen in de populatie gelijk zijn aan elkaar of niet;
o Eén categorische variabele;
o Eén numerieke variabele;

2
 Analysis Of Variance, variantieanalyse.

EEN ANDERE VISUALISATIE

 De variantie is de maat die we voor de spreiding gebruiken 


o Dit zijn 3 gemiddeldes en die gemiddeldes variëren om
hun eigen gemiddelde heen;
o Het verschil tussen die groepsgemiddeldes & verschil
tussen de proefpersonen.

BASISIDEE VAN HET TOETSEN

 Als er géén verschil is tussen de populatiegemiddelden, dan is de variantie TUSSEN de groepen


vergelijkbaar aan de variantie bínnen de groepen (H0 is wat het is);
 De verschillen tussen de groepsgemiddelden zullen door hetzelfde toeval worden veroorzaakt als
verschillen tussen individuen;
 Als er een significant verschil is tussen de groepen dan is de variantie TUSSEN de groepen groter dan de
variantie bínnen de groepen  de groepsgemiddelde worden uit elkaar getrokken ten opzichte van de
binnengeroepen variatie, en het contrast wordt sterker.

DE F-VERDELING

 F-waarde = verhouding tussen de variantie TUSSEN de groepen en de


variantie bínnen de groepen;
o Breuk  F = MSG(Mean sum of square Group)/MSE (Mean sum of
square error);
 De variantie TUSSEN de groepen = teller;
 De variantie bínnen de groepen = noemer.

Als de populatiegemiddelden gelijk zijn, hoe groot zal F dan ongeveer zijn?

 Als de variatie binnen en tussen de groepen wordt veroorzaakt door vergelijkbare dingen dan zal het aan
elkaar gelijk zijn, en je deelt dat door elkaar, kom je uit op 1. Daar hoort een grote p-waarde bij, niet
significant;
 De F-verdeling is afhankelijk van twee vrijheidsgraden en wordt altijd eenzijdig getoetst.

HET ANOVA MODEL IN WOORDEN

DATA = FIT (variantie tussen de groepen) + RESIDUALS (variantie binnen de groepen)  SST(sum of square of
total, de gekwadrateerde afstand totaal, alle variantie) = SSG (variantie tussen de groepen) + SSE (de variantie
binnen de groepen)

 SSG = de som van de verschillen2 tussen de groepsgemiddelden en het overall gemiddelde voor alle scores;
 SSE = de som van de verschillen2 tussen score en de respectievelijke groepsgemiddelden voor alle scores
(ook wel Residuals, de som van alle gekwadrateerde verschillen);
 SST = de som van de verschillen2 van de scores t.o.v. van het overall gemiddelde voor alle scores (ook wel
Data, variantie van de drie groepsgemiddelde en de overal groepsgemiddelde);

3
o R2 = SSG/SST (coëfficiënt of determination = verklaarde
variantie, welk deel van de variantie wordt verklaard door
jouw model en welk deel niet);
 Hoeveel variantie kan ik verklaren? Je krijgt
door deze formule een percentage, van
hoeveel procent variantie wordt verklaard
door jouw ANOVA-model;
 Als je drie groepen hebt, tel je telkens drie
dingen bij elkaar op. Je telt op: het aantal
personen (Ni);
 De bovenste is between en de onderste is within.

HET ANOVA MODEL IN FORMULES

 Sommatie over groepen 


o MSG = SSG/DFG;
o MSE = SSE/DFE.

TOETSINGSSCHEMA: VOORBEELD

HET TOETSINGSSCHEMA

1. Onderzoeksvraag (+ situatieschets);
2. Hypothesen (één- of tweezijdig);
3. Toetskeuze (assumpties?) + significantieniveau α;
4. Berekening toetsstatistiek;
5. Aflezen p-waarde (tabel);
6. Beslissing (vergelijk p met α);
7. Inhoudelijke conclusie.

HET ONDERZOEK

Je hebt drie verschillende soorten groepen. De gemiddeldes van de


Welpen en de Explorers liggen op één lijn vergeleken met de rakkers.

DE ONDERZOEKSVRAAG

Zijn er verschillen in de gemiddelde sociale vaardigheid van kinderen uit de


groepen de rakkers, de welpen en de explorers?

HYPOTHESEN

 H0 = de gemiddelden op sociale vaardigheid van alle groepen kinderen (rakkers, welpen en explorers) in de
populatie zijn gelijk: μr= μw= μe

4
 Ha = Niet alle gemiddelden op sociale vaardigheid van de groepen kinderen (rakkers, welpen en explorers)
in de populatie zijn gelijk (je geeft niet aan om welke groep het specifiek gaat, en daarom kan je hem ook
niet in een formele mutatie zetten);
o De vraag is meerzijdig, maar je toets is eenzijdig (dus nooit je p met twee vermenigvuldigen).

TOETSKEUZE

 Voor nu  we vergelijken meer dan twee gemiddelden op een numerieke variabele = ANOVA;
o Assumpties en alternatieve toets komen in college 6;
o Alpha 5%.

BEREKENING TOETSSTATISTIEK

 Het totaalgemiddelde is 4. Het gemiddelde van de eerste groep is 2. 3 x 4 = 12


 SSG = 3 x 4 = 12
 DFG =
 MSG =
 SSE =
 DFE =
 MSE =
 F = (2,6) zijn de vrijheidsgraden.

In je tabel boven aan de teller en aan de linkerkant de noemer.

AFLEZEN P-WAARDE IN SPSS

5
 Volgens tabel  p-waarde ligt tussen de 0.010 en 0.025 in. R2? Dit is significant. Want dit is kleiner dan
0.05.

CONCLUSIE

 F (2.6) = 9.00, p < .016;


 De gemiddelden op sociale vaardigheid van de kinderen in de verschillende groepen (de rakkers, de
welpen en de explorers) zijn niet allemaal gelijk;
 Dat is interessant, maar nu?

MULTIPELE VERGELIJKINGEN

HET BASISIDEE

 Het ANOVA-model zegt niets over welke gemiddelden verschillen.


 Multipele vergelijkingen = welke gemiddelden verschillen? Post hoc, na de ANOVA test! Nadat H0 is
verworpen;
 Toetsingsgrootheid die steeds paarsgewijs gemiddelden vergelijkt of het significant is of niet.

BEREKENING T

 Toetsingsgrootheid voor het toetsen van het gemiddelde verschil tussen groepen 1 en 2 

 Let op  Hier is Sp niet de samengestelde standaarddeviatie van groepen 1 en 2, maar


van groepen 1, 2 en 3! De variantie van alle drie de groepen.
 Algemene formule 

DE LSD-PROCEDURE

 Wanneer is een post-hoc vergelijking significant?


 ‘Gewoon’ als de t-waarde een tweezijdige p-waarde oplevert die kleiner is dan .05?
o Lsd-procedure;
o N.B. kritische waarde.

6
BONFERRONI PROCEDURE

 Nadeel lsd-procedure 
o Vergroot de kans op significante effecten die door toeval veroorzaakt worden. Er was geen
verschil, maar jouw lsd-procedure geeft aan van wel.
 ‘Oplossing’ 
o Bonferroni methode = Houdt de overall kans op een foute
verwerping onder alle vergelijkingen gelijk aan 5%;
o N.B. Alpha delen door het aantal toetsen wat je doet, of p-
waarde vermenigvuldigen met 3. De kans kan niet hoger zijn
dan 1.

KRITIEK OP VOORBEELD

 Hoe realistisch is het voorbeeld? NEE.


 Hebben we wel aan assumpties voldaan? NEE.
 Hoe ‘groot’ is de steekproef?
 Wordt vervolgd 
o Assumpties ANOVA;
o Alternatief voor ANOVA;
o ANOVA met twee factoren;
o Et cetera.

You might also like