Statnoter

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 35

Afsnit 2.1-2.7 .......................................................................................................................................

5
Hvad er statistik? .............................................................................................................................. 5
Ngletal ............................................................................................................................................ 5

Median ................................................................................................................................. 5

Varians ................................................................................................................................. 5

Fraktiler ................................................................................................................................ 6
Figurer .............................................................................................................................................. 6

Pareto diagram ..................................................................................................................... 6

Dot diagram.......................................................................................................................... 6

Frequency distribution ......................................................................................................... 6

Histogram ............................................................................................................................. 6

Boxplot ................................................................................................................................. 6
Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6
En grundregel ................................................................................................................................... 6
Den klassiske sandsynlighedskoncept ......................................................................................... 6
Binomialkoefficienten ...................................................................................................................... 6
Hvad er Stokastisk variable.............................................................................................................. 6
Tthedsfunktion for diskret variabel ............................................................................................... 6
Fordelingsfunktion for diskret variabel............................................................................................ 6
Diskrete fordelinger ......................................................................................................................... 7
Binomial fordeling ....................................................................................................................... 7
Den Hypergeometrisk fordeling................................................................................................... 7
Poisson fordeling.......................................................................................................................... 8
Middelvrdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9
Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9
Tthedsfunktionen for kontinuert variabel ...................................................................................... 9
Fordelingsfunktion for kontinuert variabel ...................................................................................... 9
Kontinuerte fordelinger .................................................................................................................... 9
Normal fordeling og Standardiseret normal fordeling ................................................................. 9

Eksempel for standard normal fordeling:........................................................................... 10


Log-Normal fordeling ................................................................................................................ 10
Uniform fordeling ...................................................................................................................... 11
Middelvrdi og varians af en kontinuert stokastisk variabel (overordnet) ............................... 11
Eksponentiel fordeling ............................................................................................................... 11
Regler for stokastisk variabel (eksempler side 186) .................................................................. 12
Transformation ........................................................................................................................... 12
Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 ............................................................................................................ 12
Stikprvefordelinger ...................................................................................................................... 12
Definition af population og tilfldig stikprve.......................................................................... 12
Stikprvefordeling for middelvrdien nr variansen er kendt .................................................. 12
Estimation ...................................................................................................................................... 13
Begreber ..................................................................................................................................... 13
Den centrale grnsevrdistning ............................................................................................. 13
Maksimal fejl p et estimat hvor variansen er kendt ................................................................. 13

Intervalestimation (konfidensinterval for middelvrdi) hvor variansen er kendt ............. 14


Maksimal fejl p et estimat hvor variansen ikke er kendt.......................................................... 14

-1-


Intervalestimation (konfidensinterval for middelvrdi) hvor variansen ikke er kendt og en
stor stikprve (n=>30)................................................................................................................ 14

Intervalestimation (konfidensinterval for middelvrdi) hvor variansen ikke er kendt og en


lille stikprve (n<30).................................................................................................................. 14
Afsnit 7.3, 7.4 og 7.5 .......................................................................................................................... 15
Hypotesetest for et gennemsnit ...................................................................................................... 15
Formulering af nul-hypotesen og alternativ hypotesen Parameter betragtes. ....................... 15
Trin ved hypotesetest ................................................................................................................. 15
Beregning af teststrrelse, p-vrdi og sammenligning, hvis er kendt .................................... 15
Beregning af teststrrelse, p-vrdi og sammenligning, hvis er ikke kendt (n>30) ................ 16
Beregning af teststrrelse, p-vrdi og sammenligning, hvis er ikke kendt (n<30) ................ 16
Afsnit 7.6-7.9 ..................................................................................................................................... 17
Hypotesetest for to gennemsnit ...................................................................................................... 17
1. Formulering af hypoteser ....................................................................................................... 17
2. beregning af teststrrelse for kendte varianser 12 og 22 .................................................... 17
3. sammenligning med kritisk vrdi for kendte varianser 12 og 22 ....................................... 17
2. beregning af teststrrelse for ikke kendte varianser 12 og 22 ............................................. 18
3. sammenligning med kritisk vrdi for ikke kendte varianser 12 og 22 ............................... 18
2. beregning af teststrrelse for ikke kendte varianser 12 og 22 , men 12 = 22 .................... 18
3. sammenligning med kritisk vrdi for ikke kendte varianser 12 og 22 , men 12 = 22 ...... 18
Beregning af konfidensinterval for forskel i middelvrdi for store stikprver ......................... 19
Beregning af konfidensinterval for forskel i middelvrdi for sm stikprver og ukendt
12 og 22 ................................................................................................................................... 19
Afsnit 8.1-8.3, 6.4 .............................................................................................................................. 19
Hypotesetest for en varians ............................................................................................................ 19
2 -fordeling .............................................................................................................................. 19
Konfidensinterval for en varians ................................................................................................ 20
Hypotesetest af en varians.......................................................................................................... 20
1. Formulering af hypoteser ....................................................................................................... 20
2. teststrrelse bliver .................................................................................................................. 20
3. sammenligning med kritisk vrdi .......................................................................................... 20
Hypotesetest af 2 varianser ............................................................................................................ 21
F-fordeling ................................................................................................................................. 21
Hypotesetest af 2 varianser ........................................................................................................ 21
1. Formulering af hypoteser ....................................................................................................... 21
2. teststrrelse bliver .................................................................................................................. 21
3. sammenligning med kritisk vrdi .......................................................................................... 21
Afsnit 9.1-9.5 ..................................................................................................................................... 22
Estimation af andele ....................................................................................................................... 22
Konfidensinterval for en andel ................................................................................................... 22
Konfidensinterval for to andele.................................................................................................. 22
Maksimal fejl p estimat ............................................................................................................ 22
Bestemmelse af stikprvestrrelse hvor p kendes ..................................................................... 22
Bestemmelse af stikprvestrrelse hvor p ikke kendes ............................................................. 23

-2-

Hypotesetest af 1 andel .................................................................................................................. 23


1. Formulering af hypoteser ....................................................................................................... 23
2. teststrrelse bliver .................................................................................................................. 23
3. sammenligning med kritisk vrdi .......................................................................................... 23
Hypotesetest af 2 andel .................................................................................................................. 23
1. Formulering af hypoteser ....................................................................................................... 23
2. teststrrelse bliver .................................................................................................................. 24
3. sammenligning med kritisk vrdi .......................................................................................... 24
Hypotesetest af flere andel ............................................................................................................. 24
1. Formulering af hypoteser ....................................................................................................... 24
2. teststrrelse bliver .................................................................................................................. 25
3. sammenligning med kritisk vrdi .......................................................................................... 25
Analyse af antalstabeller ................................................................................................................ 25
1. Formulering af hypoteser ....................................................................................................... 25
2. teststrrelse bliver .................................................................................................................. 26
3. sammenligning med kritisk vrdi .......................................................................................... 26
Goodness of fit (test for fordeling) ................................................................................................ 27
Afsnit 10.1-10.4 ................................................................................................................................. 27
Sign test .......................................................................................................................................... 27
1. Formulering af hypoteser ....................................................................................................... 27
2. teststrrelse bliver .................................................................................................................. 27
3. sammenligning med kritisk vrdi .......................................................................................... 27
Rank-sum test ................................................................................................................................. 27
1. Formulering af hypoteser ....................................................................................................... 27
2. teststrrelse bliver .................................................................................................................. 28
3. sammenligning med kritisk vrdi .......................................................................................... 28
Test for tilfldighed ....................................................................................................................... 28
Afsnit 11.1, 11.2, 11.6 ........................................................................................................................ 29
Regressionsanalyse ........................................................................................................................ 29
Korrelation ................................................................................................................................. 29
Simpel liner regressionsmodel ................................................................................................ 29
Mindste kvadraters metode ........................................................................................................ 29
Interferens i regressionsmodel ....................................................................................................... 30
1. Formulering af hypotese om skring med y-aksen ............................................................... 30
2. teststrrelse bliver .................................................................................................................. 30
3. sammenligning med kritisk vrdi .......................................................................................... 30
1. Formulering af hypotese om hldningen ........................................................................... 30
2. teststrrelse bliver .................................................................................................................. 31
3. sammenligning med kritisk vrdi .......................................................................................... 31
Konfidensintervaller for og ...................................................................................................... 31
Konfidensintervaller for + *x0 ................................................................................................... 31
Prdiktionsinterval for + *x0 ..................................................................................................... 31
Korrelation og regression ............................................................................................................... 31
Afsnit 12.1-12.3 ................................................................................................................................. 32
Variansanalyse (forskel i middel) .................................................................................................. 32
En-sidet variansanalyse .................................................................................................................. 32
1. Formulering af hypotese ........................................................................................................ 32
2. teststrrelse bliver .................................................................................................................. 33

-3-

3. sammenligning med kritisk vrdi .......................................................................................... 33


Tosidet variansanalyse ................................................................................................................... 34
Definition p parat t-test ................................................................................................................ 35

-4-

Afsnit 2.1-2.7
Hvad er statistik?

Indsamling af data.
Statistik handler ofte om at analysere en stikprve, der er taget fra en population.
Baseret p stikprven, prver vi at generalisere (eller udtale os) om populationen.

Ngletal

Middelvrdi angiver tyngdepunkt eller centrering af data:


1 n
xi
n i =1
o Eks. Har vi tallene: 12, 15, 13, 14, 16
1
Middelvrdien bliver: x = (12 + 15 + 13 + 14 + 16 ) = 14
5
Median angiver tyngdepunkt eller centrering af data. I nogle tilflde, f.eks. hvis man har
ekstreme vrdier, er medianen at fortrkke frem for middelvrdien:
Frst skal antal n sttes i rkkeflge, hvis:
o Ulige antal n er tallet i midten medianen.
o Lige antal n, tages de to tal i midten ligger dem sammen og deler med 2 = madian.
Varians (eller standardafvigelsen) siger noget om hvor maget data spreder:
1 n
( x i x) 2
o Varians: s 2 =

n 1 i =1
x=

n
n x xi
i =1
i =1
o Eller varians: s 2 =
n (n 1)
n

2
i

Eks. Har vi tallene: 12, 15, 13, 14, 16 (samme tal som i middelvrdi eks. S
x er den samme).
Variansen bliver:
s2 =

1
(12 14)2 + (15 14)2 + (13 14)2 + (14 14)2 + (16 14)2 = 2,5
5 1

o Standardafvigelse (spredning): s = s 2

Vigtigt: x og s er estimerede vrdier dvs. at hvis man tager en stikprve ud af en


population og beregner middelvrdien og spredningen er det estimerede. og glder
for hele populationen.
Variationskoefficient bruges til at sammenligne variationen mellem forskellige
datast:
s
V = 100
x

-5-

Fraktiler er punkter hvor data deles. Medianen deler data i to halvdele. Fraktiler deler data
i andre dele. Ofte beregner man fraktiler:
0, 25, 50, 75, 100 % fraktiler.

Figurer

Pareto diagram siger f.eks. noget om hvor forskellige slags defekte der er i et givet
system.

Dot diagram er godt til at detektere fejl ved at se p outliers prikker som ligger
usdvanligt.

Frequency distribution: opdeling i intervaller/klasser og optlle herefter.


Histogram: se side 19. god til grove data med mange tal.
Boxplot: en rektangel der reprsentere midten af data og en linje reprsentere medianen.
De to linjer p siderne af rektanglen reprsentere 95% og 5%.

Afsnit 4.1-4.4 og 4.6 og 4.7


En grundregel
Den klassiske sandsynlighedskoncept defineres:
Hvis der findes n lige sandsynlige udfald, hvorfra et m ske, og hndelsen s betegnes som succes,
s er sandsynligheden for succes givet ved:
s
n

Binomialkoefficienten
Det antal forskellige mder som vi kan udvlge r objekter taget ud fra en population bestende af n
forskellige objekter er:
n!
n
=
r r!(n r )!

Hvad er Stokastisk variable

En funktion defineret over udfaldsrummets elementer.


Flger en statistisk fordeling.
Stokastisk variable angives ved store bogstaver, f.eks. X, Y, Z.
Udfaldet fra det stokastiske variable angives ved tilsvarende sm bogstaver, f.eks. x, y,z.
Vi skelner mellem diskrete og kontinuerte stokastiske variable.

Tthedsfunktion for diskret variabel

For en stokastisk variabel betegnes tthedsfunktionen ved f(x).


For den diskrete variabel kan vi skrive tthedsfunktionen som:
f ( x ) = P( X = x )

Fordelingsfunktion for diskret variabel

Fordelingsfunktionen for en stokastisk variabel betegnes ved F(x).


Fordelingsfunktionen svarer til den kumulerede tthedsfunktion:

-6-

F ( x) = P ( X x )

Diskrete fordelinger
Binomial fordeling

Vi betragter n uafhngige forsg.


I hvert enkelt forsg kan udfaldet/hndelsen blive enten succes eller fiasko.
Sandsynligheden for succes er p (og er den samme for alle n forsg).
Sandsynligheden for fiasko er dermed 1-p (og er den samme for alle n forsg).
De forskellige udfald er uafhngige.
Med tilbage lgning.
En stokastisk variabel, X, er binomial fordelt:
X b( x; n, p )
X = antal mrkede i stikprven.
p = populationsandelen = a/n, hvor a er i alt defekte.
n = stikprvestrrelsen.
Det er lille b hvis det er prcis en mngde og store B hvis det er strre eller mindre end en
mngde.
Tthedsfunktion for en binomial fordeling:
f ( x) = P ( X = x) = nx p x (1 p ) n x
P ( X = x) = P ( X x) P ( X x 1) , tabel 1 side 576.
Fordelingsfunktion for binomal fordeling:
F ( x) = P ( X x) , tabel 1 side 576.
P ( X < x) = P ( X x 1)
P ( X > x) = 1 P ( X x 1)

()

MOST (hjst) brug:


MORE THAN (mere end):
LEAST (mindst) brug:
LESS THAN (mindre end):
= n p
Middelvrdi:

P( X
P( X
P( X
P( X

udfald ) , direkte ved opslag tabel 1.


> udfald ) = 1 P ( X udfald )
udfald ) = 1 P ( X udfald 1)
< udfald ) = P ( X udfald 1)

2 = np (1 p)
Varians:
Hvis man nsker at finde sandsynligheden for et bestemt omrde:
B(h;n,p)-B(t;n,p)

Den Hypergeometrisk fordeling

En population med strrelse N.


En stikprve af strrelse n.
Der er a defekte i populationen.

-7-

Der er N-a ikke-defekte i populationen.


x er antal defekte ud af stikprven.
Uden tilbage lgning.
Den stokastiske variabel, X, er hypergeometrisk fordelt:
X h( x; n, a, N )
Tthedsfunktion for den hypergeometriske fordeling:

( )( )
f ( x) = P( X = x) =
( )
a
x

N a
n x
N
n

Den hypergeometriske fordeling kan udskiftes med binomial fordelingen hvis populationen
N er stor og stikprven n er lille.
Obs! Binomial fordeling kan til forveksling bruges i tilflde hvor n ikke er s lille i forhold til N
ogs kunne man beg den fejl at anvende binomial distribution med n og p = a/N. se side 111.
a
= n
Middelvrdi:
N
a
a N n
2 = n 1
Varians:

N N N 1

Poisson fordeling

Poisson fordeling anvendes ofte som en fordeling (model) for tlletal, hvor der ikke er
nogen naturlig vre grnse.
Poisson fordelingen kan ofte karakteriseres som intensitet, dvs. p formen antal/enhed.
Parameteren angiver intensiteten i poisson fordelingen.
Nr n er stor og p er lille er binomial sansynligheder approksimeret til possion distribution.
Possion fordeling anvendes til approksimation af binomiale sansynligheder, nr
n 20 og p 0.05 , hvis n 100 er approksimationen god s lnge np 10
Se s. 129 for sammenligning af possion og binomial.
Den stokastiske variabel, X, er possion fordelt:
X P ( )
Tthedsfunktionen:

f ( x) = P( X = x) =

Fordelingsfunktionen:

MOST (hjst) brug:


MORE THEN (mere end):
LEAST (mindst) brug:
LESS THEN (mindre end):
Middelvrdi:

Varians:

x
x!

F ( x) = P( X x) , tabel 2, side 581


P( X udfald ) , direkte ved opslag tabel 2.
P( X > udfald ) = 1 P( X udfald )
P( X udfald ) = 1 P( X udfald 1)
P( X < udfald ) = P( X udfald 1)
=

2 =

-8-

Middelvrdi og varians for en diskret stokastisk variabel (overordnet)


= x f ( x) , hvor S er udfaldsrummet for X.
Middelvrdi:
S

Det vides at:

f ( x) = 1
S

Varians:

2 = ( x ) 2 f ( x) , hvor S er udfaldsrummet for X.


S

Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12


Tthedsfunktionen for kontinuert variabel

Tthedsfunktionen betegnes f(x).


f(x) siger noget om den relative hyppighed af udfaldet x for den stokastiske variabel X.
For kontinuerte variable svarer ttheden ikke til sandsynligheden, dvs:
f ( x) P( X = x)

Fordelingsfunktion for kontinuert variabel

Fordelingsfunktionen betegnes ved F(x).


Fordelingsfunktionen svarer til den kumulerede tthedsfunktion:
F ( x) = P ( X x )

Kontinuerte fordelinger
Normal fordeling og Standardiseret normal fordeling

Der kan ikke opstilles generelle kriterier for, hvornr en variabel er normailfordelt.
Ofte kan man ramme rigtigt, hvis man til hvert element stiller sprgsmlet: hvilken vrdi
har elementet og svarmuligheden er et tal.
X N ( , 2 )
Tthedsfunktionen:

f (x) =

( x )2
2

P ( X < x) , aflses i tabel 3, side 585


P( X > x) = 1 P( X < x)
b

P(a X b) = f ( x)dx
a

=
2 = 2

Middelvrdi:

Varians:
En normal fordeling med middelvrdien 0 og variansen 1, dvs. X N (0,12 ) , kaldes en
standard normal fordeling.
En vilkrlig normal fordelt variabel X N ( , 2 ) kan standardiseres ved at beregne:
X
Z=

-9-

Fordelingsfunktionen:

F ( z) =

1
2

t 2

dt

, kan findes i tabel 3, side 585.

P ( X < z ) , aflses i tabel 3, side 585


P( X > z ) = 1 P( X < z )

a
P( X < a) = F


a
P( X > a ) = 1 F
More (strre end):


b
a
P ( a < X < b) = F
Between (imellem):
F



F(Z) aflses i tabel 3, side 585

Less (mindre end):

Eksempel for standard normal fordeling:


P(-z < X < z) = 0,9298
z = 1-0,9298/2

0,9298

-z

Log-Normal fordeling

Log-normal fordelingen benyttes nr vi har en tilfldig variable, som er p den mde at hvis
man tager ln til den giver det normal distribution:
X LN ( , 2 )
Tthedsfunktion:

f ( x) =

x 1 e (ln( x ) )

/ 2 2

Middelvrdi:

= e +

Varians:

2 = e 2 / (e 1)

En log-normal fordelt variabel X LN ( , 2 ) , kan transformeres til en standard normal


fordelt variabel Z ved:
ln( X )
Z=

/2
2

til at finde sandsynligheden (imellem a og b):

- 10 -

P(a < X < b) =

2
2
ln b
ln a
1
F

e ( y ) / 2 dy = F

ln b

ln a

ln a
P( X < a ) = F


ln a
P( X > a ) = 1 F


Tabel 3 s.585

Uniform fordeling
X U ( , )

Tthedsfunktionen:
f (x) =

Fordelingsfunktionen:

F ( x) =

Middelvrdi:
Varians:

1
ab
dx =

2
= 121 ( ) 2
2

Middelvrdi og varians af en kontinuert stokastisk variabel (overordnet)

Middelvrdi:

= x f ( x)dx , hvor S er udfaldsrummet for X.

Varians:

= ( x ) 2 f ( x)dx , hvor S er udfaldsrummet for X.

Eksponentiel fordeling

Tthedsfunktionen:
f ( x) =

e x /

Fordelingsfunktionen:

F ( x) =

e x / dx = 1 e x /

P( X < x) = F ( x) = 1 e x /

P ( X > x) = 1 F ( x) = 1 (1 e x / )
Eksponential fordeling er et special tilflde af Gamma fordeling (=1).
Eksponential fordelingen anvendes f.eks. til at beskrive levetider og ventetider.
Eksponential fordelingen anvendes f.eks. til at beskrive (vente)tiden mellem hndelser i
poisson fordelingen. =
=.
Middelvrdi:

- 11 -

Varians:

2 =2.

Regler for stokastisk variabel (eksempler side 186)


Vi antager at a og b er konstanter og X er en stokastisk variabel:
E = middelvrdi: E (aX + b) = aE ( X ) + b
Var (aX + b) = a 2Var ( x)
Var = Varians:
Flgende linear kombination glder:
E (a1 X 1 + a 2 X 2 + ... + a n X n ) = a1 E ( X 1 ) + a 2 E ( X 2 ) + ... + a n E ( X n )

E( X 1 X 2 ) = E( X 1 ) E( X 2 )
E (aX 1 bX 2 + c) = aE ( X 1 ) bE ( X 2 ) + c

Var (a1 X 1 + a 2 X 2 + ... + a n X n ) = a12Var ( X 1 ) + a 22Var ( X 2 ) + ... + a n2Var ( X n )

Var ( X 1 X 2 ) = Var ( X 1 ) + Var ( X 2 ) , lg mrke til at der ndres her til plus.
Var (aX 1 bX 2 + c) = a 2Var ( X 1 ) + b 2Var ( X 2 ) , lg mrke til at der ndres her til plus.

Transformation
Sfremt data afviger fra at vre normalt fordelt, kan man ofte med fordel transformere data, sledes
at de transformerede data kan antages at vre normal fordelt.

Afsnit 7.1-7.2, 6.1, 6.2 og 6.3


Stikprvefordelinger
Definition af population og tilfldig stikprve

Tilfldig stikprve fra en endelig population:


Observationerne X1, X2,,Xn er en tilfldig stikprve af strrelse n fra en endelig
population af strrelse N, sfremt vrdierne er valgt sledes, at enhver delmngde af
strrelse n af de N elementer fra populationen har den samme sandsynlighed for at blive
valgt.
Tilfldig stikprve fra en uendelig population:
Et st observationer X1, X2,,Xn er en tilfldig stikprve af strrelsen n fra en uendelig
population f(x) sfremt:
1. hvert Xi er en stokastisk variabel med tthedsfunktionen f(x).
2. De n stokastiske variable er uafhngige.

Stikprvefordeling for middelvrdien nr variansen er kendt

Uendelig population:
Lad X vre middelvrdien af en stikprve af strrelse n fra en fordeling med middelvrdi
og variansen 2.
Da er X en stokastisk variabel og flger en fordeling med middelvrdi og variansen 2/n.
Endelig population:
Lad X vre middelvrdien af en stikprve af strrelse n fra en fordeling med middelvrdi
og variansen 2.

- 12 -

Da er X en stokastisk variabel og flger en fordeling med middelvrdi og variansen


2
n

NN1n .

Estimation
Begreber

Central estimator:
En estimator er central (eller ikke-biased), hvis og kun hvis, middelvrdien af
stikprvefordelingen for estimatoren er lig .
Efficient estimator:
En estimator 1 er en mere efficient estimator af end estimatoren 2 hvis:
1. og begge er centrale estimatorer af .
1

2. variansen af stikprvefordelingen for 1 er mindre end for 2 .

Den centrale grnsevrdistning


Lad X vre middelvrdien af en stikprve af strrelse n fra en fordeling med median (mean) og
variansen 2, da vil:
X
Z=
/ n
2
Flge en N(0,1 ) fordeling for n .

Maksimal fejl p et estimat hvor variansen er kendt


For store vrdier af n glder:

Z=

/ n

Den maksimale fejl, E, p et estimat med sandsynlighed

E = z / 2
To eksempler for at finde

(1 )
2

bliver:

, hvor z/2 findes i tabel 3.

z 2 :
= 0,95

= 102,95 = 0,025

z 2 = z 0, 025 = 1,96

= 0,99

= 102,99 = 0,005

z 2 = z 0, 005 = 2,575
Vrdierne 1,96 og 2,575 blev fundet i tabel 3 s.585-586
Hvis E er kendt kan stikprvestrrelsen n findes ved:

- 13 -

z
n = 2
E
1 z
n = /2
4 E

n=

Intervalestimation (konfidensinterval for middelvrdi) hvor variansen er


kendt
z / 2 <

< z / 2

/ n

Ved omskrivning fr (1-) konfidensintervallet:

x z / 2

< < x + z / 2

x z / 2

Maksimal fejl p et estimat hvor variansen ikke er kendt


For store vrdier af n glder:

t=

X
S/ n

Den maksimale fejl, E, p et estimat med sandsynlighed

E = t / 2

(1 )
2

bliver:

, hvor t/2 = t(n-1)/2 findes i tabel 4 (v = n 1) og s er beregnet varians.

Intervalestimation (konfidensinterval for middelvrdi) hvor variansen


ikke er kendt og en stor stikprve (n=>30)
s

x z / 2

< < x + z / 2

, blot erstattet med s. Konfidensinterval, tabel 3.

x z / 2

n
z ikke skiftet ud med t, fordi i tabel 4 gr n ikke hjere end 30 s derfor gre det ingen forskel.

Intervalestimation (konfidensinterval for middelvrdi) hvor variansen


ikke er kendt og en lille stikprve (n<30)
x t / 2

s
n

< < x + t / 2

s
n

, z erstattet med t. Konfidensinterval, tabel 4 (v=n-1).

- 14 -

x t / 2

s
n

Afsnit 7.3, 7.4 og 7.5


Hypotesetest for et gennemsnit
Formulering af nul-hypotesen og alternativ hypotesen Parameter betragtes.

Nul hypotese testes mod alternativ hypotese:


H 0 : = 0
H1 : 0
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : = 0
H1 : 0
Ensidet alternativ, der bliver H1 enten:
H1 : < 0
eller
H1 : > 0

I nulhypotesen anvendes s vidt som muligt lighedstegn.


I alternativ hypotese placeres det udsagn som man gerne vil vise.
Eksempelvis: en man stilles for en dommer, anklaget for noget kriminelt. Her bliver nul- og
alternativ-hypotesen:
H 0 : Manden er ikke skyldig
H 1 : Manden er skyldig

Trin ved hypotesetest


1.
2.
3.
4.

Opstil hypoteser og vlg signifikansniveau (vlg risiko-niveau).


Beregn teststrrelse.
Beregn p-vrdi vha. teststrrelse. Testets p-vrdi mler datas afvigelser fra H0.
Sammenligne p-vrdi med signifikansniveau og drag en konklusion. Alternativt kan testet
udfres ved at sammenligne teststrrelse med kritisk vrdi.

Beregning af teststrrelse, p-vrdi og sammenligning, hvis er kendt

Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau er valgt. S kan


teststrrelsen beregnes ved:
X 0
Z=

n
Der antages en normal fordeling og er kendt.
P-vrdien findes for teststrrelsen Z ved opslag i normal fordeling (tabel 3).
Sammenligning med kritisk vrdi z (eller z/2 i et tosidet test).
Alternativ
Afvis

- 15 -

hypotese
< 0

Nul-hypotese hvis
Z < z

> 0
0

Z > z
Z < z / 2 eller
Z > z / 2

Beregning af teststrrelse, p-vrdi og sammenligning, hvis er ikke kendt


(n>30)

Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau er valgt. S kan


teststrrelsen beregnes ved:
X 0
Z=
s
n
Der antages en normal fordeling og er ikke kendt.
P-vrdien findes for teststrrelsen Z ved opslag i normal fordeling (tabel 3).
Sammenligning med kritisk vrdi z (eller z/2 i et tosidet test).
Alternativ
Afvis
hypotese
Nul-hypotese hvis
< 0
Z < z

> 0
0

Z > z
Z < z / 2 eller
Z > z / 2

Beregning af teststrrelse, p-vrdi og sammenligning, hvis er ikke kendt


(n<30)

Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau er valgt. S kan


teststrrelsen beregnes ved:
X 0
t=
s
n
Der antages en normal fordeling og ikke er kendt.
P-vrdien findes for teststrrelsen Z ved opslag i t-fordeling (tabel 4), v=n-1.
Sammenligning med kritisk vrdi t (eller t/2 i et tosidet test).
Alternativ
Afvis
hypotese
Nul-hypotese hvis
< 0
t < t

> 0
0

t > t
t < t / 2 eller
t > t / 2

Hvordan kan sandsynligheden for fejl pvirkes:


o Ved at ndre signifikansniveau .
o Ved at ge stikprvestrrelse n.

- 16 -

Afsnit 7.6-7.9
Hypotesetest for to gennemsnit

Sammenligner gennemsnit (middelvrdier) af 2 stikprver.


o Stikprve 1: n1 , X 1 og s12
o Stikprve 2: n 2 , X 2 og s 22

1. Formulering af hypoteser
Parameter 1 , 2 betragtes.

Nul hypotese testes mod alternativ hypotese:


H 0 : 1 2 =

H 1 : 1 2
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : 1 2 =
H 1 : 1 2

Ensidet alternativ, der bliver H1 enten:


H 1 : 1 2 <

eller
H 1 : 1 2 >
Typisk er man interesseret i at teste med = 0 .

2. beregning af teststrrelse for kendte varianser 12 og 22

Ved hypotese prvning af 2 middelvrdier (1 og 2) for data, der antages normalfordelt og


varianser 12 og 22 er kendte, fs teststrrelsen:

Z=

(X 1 X 2 )

12 / n1 + 22 / n2

,(tabel 3).

Denne mler forskellen p to grupper og stort set altid nul.

3. sammenligning med kritisk vrdi for kendte varianser 12 og 22

Ved hypoteseprvning af to middelvrdier (1 og 2) for data, der antages normalfordelt og


varianser 12 og 22 er kendte, fs:
Alternativ
Afvis
hypotese
Nul-hypotese hvis
1 2 <
Z < z

1 2 >
1 2

Z > z
Z < z / 2 eller
Z > z / 2

(tabel 3).

- 17 -

2. beregning af teststrrelse for ikke kendte varianser 12 og 22

Ved hypotese prvning af 2 middelvrdier (1 og 2) for data, der antages normalfordelt og


varianser 12 og 22 ikke er kendte, fs teststrrelsen:
Z=

(X 1 X 2)
s12 / n1 + s 22 / n2

,(tabel 3).

Denne mler forskellen p to grupper og stort set altid nul.

3. sammenligning med kritisk vrdi for ikke kendte varianser 12 og 22

Ved hypoteseprvning af to middelvrdier (1 og 2) for data, der antages normalfordelt og


varianser 12 og 22 ikke er kendte, fs:
Alternativ
Afvis
hypotese
Nul-hypotese hvis
1 2 <
Z < z

1 2 >
1 2

Z > z
Z < z / 2 eller
Z > z / 2

(tabel 3).

2. beregning af teststrrelse for ikke kendte varianser 12 og 22 , men 12 = 22

Ved hypotese prvning af 2 middelvrdier (1 og 2) for data, der antages normalfordelt og


varianser 12 og 22 ikke er kendte, men med 12 = 22 , fs teststrrelsen:

t=

(X1 X 2)
s p 1/ n1 + 1/ n2

Denne mler forskellen p to grupper og stort set altid nul.


Hvor
(n 1) s12 + (n2 1) s 22
s 2p = 1
n1 + n 2 2
Og frihedsgrader:
v = n1 + n2 2
(tabel 4).

3. sammenligning med kritisk vrdi for ikke kendte varianser 12 og 22 , men


12 = 22

Ved hypoteseprvning af to middelvrdier (1 og 2) for data, der antages normalfordelt og


varianser 12 og 22 ikke er kendte, men 12 = 22 , fs:
Alternativ
Afvis
hypotese
Nul-hypotese hvis
1 2 <
t < t

1 2 >

t > t

- 18 -

1 2

t < t / 2 eller
t > t / 2
Og frihedsgrader:
v = n1 + n2 2
(tabel 4).

Beregning af konfidensinterval for forskel i middelvrdi for store stikprver

For store stikprver beregnes et (1-)% konfidensinterval ved:


x1 x 2 z / 2

s12 s 22
+
,(tabel 3).
n1 n 2

(1 )
2

Kendes 12 og 22 anvendes disse i stedet for s12 og s 22 .

Beregning af konfidensinterval for forskel i middelvrdi for sm stikprver


og ukendt 12 og 22

For sm stikprver og ukendt 12 og 22 , men med 12 = 22 beregnes et (1-)%


konfidensinterval ved:
x1 x 2 t / 2

(n1 1) s12 + (n 2 1) s 22
n1 + n2 2
Og frihedsgrader:
v = n1 + n2 2
(tabel 4).

1
1
+
n1 n 2

(1 )
2

Afsnit 8.1-8.3, 6.4


Hypotesetest for en varians
2 -fordeling

Variansen for en stokastisk variabel X estimeres ved:


1 n
S2 =
(X i X )2

n 1 i =1
Hvor n er antallet af observationer
Xi er observationer nr. i, hvor i =1n
X estimat af middelvrdien for X
Store bogstaver => stokastiskvariabel.
2
Lad S vre variansen af en stikprve af strrelsen n fra en normalfordeling med varians 2,
da er:
(n 1)S 2 , Ki =
2 =
, v = n-1 (tabel 5, s. 588).
2

- 19 -

P ( 2 2 ) =

Konfidensinterval for en varians


Et (1-)% konfidensinterval for en varians 2 fs ved:
(n 1) S 2
(n 1) S 2
2

<
<
2
2

/ 2

1 / 2

(1 )
2

v = n-1 (tabel 5, s. 588).

Hypotesetest af en varians
1. Formulering af hypoteser

Nul hypotese testes mod alternativ hypotese:


H 0 : 2 = 02

H 1 : 2 02
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : 2 = 02
H 1 : 2 02
Ensidet alternativ, der bliver H1 enten:
H 1 : 2 < 02
eller
H 1 : 2 > 02

Hvor 02 er vrdien der testes for.

2. teststrrelse bliver

Lad S2 vre variansen af en stikprve af strrelsen n fra en normalfordeling med varians 2,


da er:
(n 1)S 2 , Ki =
2 =
, v = n-1 (tabel 5, s. 588).
2

P( 2 2 ) =

3. sammenligning med kritisk vrdi


Alternativ
hypotese
2 < 02

Afvis
Nul-hypotese hvis
2 < 12

2 > 02

2 > 2

2 02

2 < 12 eller

- 20 -

2 > 2
(tabel 5).

Hypotesetest af 2 varianser

Sammenligner varianser af 2 stikprver.


o Stikprve 1: n1 , X 1 og s12
o Stikprve 2: n 2 , X 2 og s 22

F-fordeling

Lad S12 og S 22 vre varianser af stikprver af strrelserne n1 og n2 fra en normalfordeling


med varians 2, da er:
S2
F = 12 , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
S2

P( F F ) =

Hypotesetest af 2 varianser
1. Formulering af hypoteser

Nul hypotese testes mod alternativ hypotese:


H 0 : 12 = 22

H 1 : 12 22
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : 12 = 22
H 1 : 12 22
Ensidet alternativ, der bliver H1 enten:
H 1 : 12 < 22
eller
H 1 : 12 > 22

2. teststrrelse bliver
F=

S12
, v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
S 22
P( F F ) =

3. sammenligning med kritisk vrdi


Alternativ
hypotese
12 < 22

Afvis
Nul-hypotese hvis
F > F (n 2 1, n1 1)

12 > 22

F > F (n1 1, n2 1)

- 21 -

F > F / 2 (n M 1, nm 1)

12 22

(i sidste tilflde glder S M2 > S m2 )


(tabel 6a og 6b).

Afsnit 9.1-9.5
Estimation af andele
fs ved at observere antal gange x en hndelse har indtruffet uf af n forsg:
x
p=
n

Konfidensinterval for en andel


Sfremt der haves stor stikprve, fs et (1-)% konfidensinterval for p:
x
z / 2
n

x
n

(1 nx )
x
< p < + z / 2
n
n

x
n

(1 nx )
n

(1 )
2

Konfidensinterval for to andele


Sfremt der haves stor stikprve, fs et (1-)% konfidensinterval for p1-p2:

x
x
p1 p 2 = 1 2 z / 2
n1 n2

x1
n1

x1 x 2 x 2
1
1
n
n2
n
1

+ 2
n1
n2

(1 )
2

Maksimal fejl p estimat


Den maksimale fejl, E, p et estimat med sandsynlighed

E = z / 2

(1 )
2

bliver:

p(1 p)
, hvor z/2 findes i tabel 3.
n
x
p=
n

Bestemmelse af stikprvestrrelse hvor p kendes


Sfremt man hjst vil tillade en maksimal fejl E med (1-)% konfidens, bestemmes den ndvendige
stikprvestrrelse ved:

z
n = p(1 p) / 2
E

(1 )
2

, hvor z/2 findes i tabel 3.

- 22 -

Bestemmelse af stikprvestrrelse hvor p ikke kendes


Sfremt man hjst vil tillade en maksimal fejl E med (1-)% konfidens, og p ikke kendes,
bestemmes den ndvendige stikprvestrrelse ved:
2

1 z
n = / 2 , p=1/2
4 E

(1 )
2

, hvor z/2 findes i tabel 3.

Hypotesetest af 1 andel
1. Formulering af hypoteser

Nul hypotese testes mod alternativ hypotese:


H 0 : p = p0
H 1 : p p0
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : p = p0
H 1 : p p0

Ensidet alternativ, der bliver H1 enten:


H 1 : p < p0
eller
H 1 : p > p0

2. teststrrelse bliver

Sfremt stikprvestrrelsen er tilstrkkelig stor fs teststrrelsen:


X n p0
Z=
n p 0 (1 p 0 )

3. sammenligning med kritisk vrdi


Alternativ
hypotese
p < p0

Afvis
Nul-hypotese hvis
Z < z

p > p0

Z > z

p p0

Z < z eller
Z > z
(tabel 3).

Hypotesetest af 2 andel
1. Formulering af hypoteser

Nul hypotese testes mod alternativ hypotese:

- 23 -

H 0 : p1 = p 2

H 1 : p1 p 2
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : p1 = p 2
H 1 : p1 p 2

Ensidet alternativ, der bliver H1 enten:


H 1 : p1 < p 2

eller
H 1 : p1 > p 2

2. teststrrelse bliver

Sfremt stikprvestrrelsen er tilstrkkelig stor fs teststrrelsen:

Z=

X1
n1

X2
n2

p (1 p )( n11 + n12 )
Hvor p =

X1 + X 2
n1 + n2

3. sammenligning med kritisk vrdi


Alternativ
hypotese
p < p0

Afvis
Nul-hypotese hvis
Z < z

p > p0

Z > z

p p0

Z < z eller
Z > z
(tabel 3).

Hypotesetest af flere andel


1. Formulering af hypoteser

I nogle tilflde kan man vre interesseret i at vurdere om to eller flere binomialfordelinger
har samme parameter p, dvs. man er interesseret i at teste nul-hypotesen:
H 0 : p1 = p 2 = ... = p k = p
Mod alternativ hypotese at disse andele ikke er ens.

- 24 -

Under nul-hypotesen fr et estimat for p:


x
n
Sfremt nul-hypotesen glder, vil vi forvente at den jte gruppe har e1j successer og e2j
fiaskoer, hvor
nj x
e1 j = n j p =
n
n j ( n x)
e2 j = n j (1 p ) =
n
p =

2. teststrrelse bliver

Teststrrelsen bliver
2

=
2

(o

eij )

ij

eij

i =1 j =1

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
nede for hvordan de beregnes.

3. sammenligning med kritisk vrdi

Vi har teststrrelsen
2

=
2

i =1 j =1

(o

eij )

ij

eij

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
nede for hvordan de beregnes
Teststrrelsen sammenlignes med 2 (k 1)

Sfremt 2 > 2 (k 1) forkastes nul-hypotesen.

Analyse af antalstabeller
1. Formulering af hypoteser

Flgende to tabeller er eksempler p antalstabeller:


o Opgaven kan lyde: Er stemmefordelingen ens for flgende tabel:

- 25 -

AAA

tre eksempler p hvordan


oij og eij beregnes for

I alt
263

denne tabel
(1)
o11 = 79

210
127
I alt

200

200

200

600

e11 =

200 263
= 87,67
600

( 2)
o12 = 84
e12 =

200 210
= 70
600

(3)
o23 = 43
e23 =

200 127
= 42,33
600

o Er der uafhngighed mellem inddelingskriterier:

Opstilling af nul-hypotesen:
H 0 : pi1 = p i 2 = p i 3

2. teststrrelse bliver

I en antalstabel med r rkker og c sjler, fs teststrrelsen:


r

=
2

(o

ij

eij )

eij

i =1 j =1

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
oppe for hvordan de beregnes.

3. sammenligning med kritisk vrdi

Vi har teststrrelsen:
r

=
2

i =1 j =1

(o

ij

eij )

eij

Teststrrelsen sammenlignes med: 2 ((r 1)(c 1) ) tabel 5 side 588

Sfremt 2 > 2 ((r 1)(c 1) ) det sidste led er v. forkastes nul-hypotesen.

- 26 -

Goodness of fit (test for fordeling)


Ofte vil man gerne teste om data (observationer) flger en specifik fordeling. Dette gres ved at
sammenligne observerede fraktiler med tilsvarende teoretiske fraktiler under forudstning af en
given fordeling. Herefter beregnes teststrrelsen ved
r

=
2

i =1 j =1

(o

ij

eij )

eij

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
oppe for hvordan de beregnes.
Teststrrelsen skal sammenlignes med kritisk vrdi, der findes i 2 (k 1 m ) , hvor k er antal
inddelinger (celler i tabellen) og m er antal estimerede parametre.

Afsnit 10.1-10.4
Sign test
Kan bruges som alternativ for:
Hypotesetest for en middelvrdi
Parret t-test
Nr ovenstende test ikke kan bruges pga. antagelse om normalfordeling.

1. Formulering af hypoteser
Sign test kan bruges til at teste hypotese om median
H 0 : ~ = ~D
H : ~ ~
1

Hvor ~D er den vrdi vi nsker at teste.

2. teststrrelse bliver
Beregning af teststrrelse/p-vrdi:
Antal af observationer strre end medianen optlles, X + .
Testets p-vrdi kan nu findes ved at beregne sandsynligheden for (ensidet test)
P( X X + )

3. sammenligning med kritisk vrdi


Sfremt p-vrdi er mindre end signifikansniveau, forkastes H0.

Rank-sum test
Rank-sum test (ogs kaldet U-test eller Wilcoxon test eller Mann-Whitney test) kan bruges som
alternativ til almindelig t-test for 2 uafhngige stikprver, i tilflde af at normalfordelingsantagelse
ikke holder.

1. Formulering af hypoteser
Rank-sum test kan alts bruges til at sammenligne medianen for 2 uafhngige stikprver:

- 27 -

x1 , x 2 ,..., x n1
y1 , y 2 ,..., y n1

2. teststrrelse bliver
Beregning af teststrrelse: data sorteres og rangeres (eng: ranks) i stigende rkkeflge. For hver af
de to stikprver summeres de tilhrende ranks, her benvnt W1 og W2, s der kan beregnes:
n (n + 1)
U 1 = W1 1 1
2
n (n + 1)
U 2 = W2 2 2
2
Det glder nu, at sfremt de to stikprver kommer fra den samme fordeling, s haves:
n n
U1 = 1 2
2
n n (n + n + 1)
U21 = 1 2 1 2
12
Nr n1 og n2 er tilpas store (>8) kan vi nu anvende:
U 1 U1
Z=
N (0,12 ) teststrrelse

3. sammenligning med kritisk vrdi


Hvis population 2 er strre end population 1:
S afvises H0, hvis Z < -z, da en lille vrdi af U1 giver en lille vrdi af W1.
Hvis population 1 er strre end population 2:
S afvises H0, hvis Z > z, da en stor vrdi af U1 giver en stor vrdi af W1.

Test for tilfldighed

I mange undersgelser er det vigtigt at afgre om en stikprve er fremkommet tilfldigt.


Hvis vi har en sekvens med n1 af den ene type og n2 af en anden type (og hverken n1eller n2
er mindre end 10), f.eks.:
K K K P K K P P K P P K P K P
Det totale antal skift, u, approksimeres med en normalfordeling med:
2 n1 n2
u =
+ 1 og
n1 + n2

u =

2 n1 n2 (2 n1 n2 n1 n2 )
(n1 + n2 ) 2 (n1 + n2 1)

Vi kan nu beregne p-vrdien ved:

Z=

u u

idet

Z N (0,12 )

- 28 -

Afsnit 11.1, 11.2, 11.6


Regressionsanalyse

Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Ys afhngighed af en


forklarende variabel x.
Vi undersger en liner sammenhng mellem Y og x, dvs. ved en regressionsmodel p
formen:
Y = + x+

Korrelation

Korrelationskoefficienten r angiver den linere sammenhng mellem variablerne x og y.


Korrelationskoefficienten mellem 2 variable x og y estimeres ved:
1 n xi x y i y

r=

n 1 i =1 s x s y
Det antages her, at observationerne (xi,yi) er sammenhrende vrdier. Der glder r [1;1] .

Simpel liner regressionsmodel


Y = + x+

+ x er modellen
er residual (tilfldige fejl, mle fejl eller afvigelse)
Y afhngige variabel
x uafhngige variabel
skring med Y-aksen
hldning

Mindste kvadraters metode

Antag at vi har observationerne:

Er det en sammenhng mellem x og y?


Vi foreslr en model p formen y = a + b x
Hvordan estimeres a og b?

- 29 -

a og b bestemmes ved:
b=

S xy

S xx
a = y b x

( x )

S xx = ( xi x ) eller S xx = x
2
i

i =1

eller SS xx = s x2 (n 1)

( y )

S yy = ( y i y ) eller S yy = y
2
i

i =1

eller SS yy = s y2 (n 1)

S xy = ( xi x )( y i y ) eller S xy = xi y i

x y
i

n
a og b er nu de vrdier, der giver den regressionslinie, der minimerer den kvadratiske
afstand mellem punkter og linie.
a er et estimat for og b er et estimat for .
i =1

Interferens i regressionsmodel

vi antager at de observerede data (Yi,xi) kan beskrives ved modellen:


Yi = + xi + i

Hvor det antages at i er uafhngige normalfordelte stokastiske variable med middelvrdi 0 og


konstant varians 2.
Estimatet af 2 bliver (varians af residualerne):
S yy ( S xy ) 2 / S xx
2
se =
n2

1. Formulering af hypotese om skring med y-aksen

Antag at vi vil teste en hypotese om skring med y-aksen:


H0 : a =
H1 : a

2. teststrrelse bliver
t=

n S xx
(a )
se
S xx + n ( x ) 2

3. sammenligning med kritisk vrdi

Kritisk vrdi findes i t-fordeling:


t / 2 (n 2) tabel 4

1. Formulering af hypotese om hldningen

Antag at vi vil teste en hypotese om hldningen


H0 : b =
H1 : b

- 30 -

2. teststrrelse bliver
(b )
S xx
se

t=

3. sammenligning med kritisk vrdi

Kritisk vrdi findes i t-fordeling:

t / 2 (n 2) tabel 4

Konfidensintervaller for og

Konfidensinterval for :

a t / 2 s e

1 (x) 2
+
t
i tabel 4, v = n-2
n S xx / 2

(1 )
2

Konfidensinterval for :
1

b t / 2 s e

S xx

t / 2 i tabel 4, v = n-2

(1 )
2

Konfidensintervaller for + *x0

Konfidensinterval for + *x0 svarer til et konfidensinterval for modellen i punktet x0:

1 ( x0 x ) 2
+
t / 2 i tabel 4, v = n-2
n
S xx

(a + b x 0 ) t / 2 s e

(1 )
2

Prdiktionsinterval for + *x0

Prdiktionsinterval for + *x0 svare til et prdiktionsinterval for modellen i punktet x0:
(a + b x 0 ) t / 2 s e 1 +

1 ( x0 x ) 2
+
t / 2 i tabel 4, v = n-2
n
S xx

(1 )
2

Et prdiktionsinterval bliver alts strre end et konfidensinterval for fastholdt .

Korrelation og regression

Korrelation og regression:
r=

S xx
S yy

b r2 =

S xx 2
b , hvor
S yy

- 31 -

( x )

S xx = ( xi x ) eller S xx = x
2
i

i =1

eller SS xx = s x2 (n 1)

( y )

S yy = ( y i y ) eller S yy = y
2
i

i =1

eller SS yy = s y2 (n 1)

S xy = ( xi x )( y i y ) eller S xy = xi y i
i =1

x y
i

Korrelationen r udtrykker graden af liner sammenhng.


Korrelationen kvadreret r2 udtrykker forklaringsgraden:
Syy= variation forklaret af linien + uforklaret variation:
S xy2
S xy2

S yy =
+ S yy
S xx
S xx

Afsnit 12.1-12.3
Variansanalyse (forskel i middel)

Er der forskel (i middel) p grupperne A, B og C?


Variansanalyse (ANOVA) kan anvendes til analysen sfremt observationerne i hver gruppe
kan antages at vre normalfordelte.

En-sidet variansanalyse

Vi betragter modellen:
X ij = + i + ij hvor det antages eij N (0, 2 )

er gennemsnit for alle mlinger.


i angiver niveau af gruppe i.

1. Formulering af hypotese

vi vil nu sammenligne (flere end to) middelvrdier +i i modellen:


X ij = + i + ij hvor det antages eij N (0, 2 )
Dvs. hypotesen kan opstilles:
H 0 :i = j

H1 : i j

- 32 -

2. teststrrelse bliver

Variansanalysetabel

Den totale varians:

Test strrelsen F:

SST = SS (Tr ) + SSE

F=

SS (Tr ) /(k 1)
SSE /( N k )

Mleusikkerheden (residual) varians:

SSE
N k

2
=
error

Behandlingsvarians:

SS (Tr )
k 1
Hvor k er niveauer antal slags prver fortaget over en faktor, og N er antal observationer.
Formler for kvadrat afvigelses sum:
2
=
treatment

ni

SST = y ij2 C
i =1 j =1

Ti 2
SS (Tr ) =
C , hvor
i =1 ni
k

C=

ni
k
T. 2
, Ti = y ij , T . = Ti
N
j =1
i =1

3. sammenligning med kritisk vrdi

Teststrrelsen sammenlignes med en fraktil i F fordelingen:


F ~ F (k 1, N k )

- 33 -

Tosidet variansanalyse

Vi antager nu, at vi har modellen:


X ij = + i + j + ij hvor det antages eij ~ N (0, 2 )
Dvs. vi har to inddelingskriterier, bde og , hvor ogs kan opfattes som en blok, hvorfor
designet ogs kaldes et randomiseret blokforsg.

Den totale varians:

Test strrelsen F:

SST = SS (Tr ) + SS ( Bl ) + SSE

SS (Tr ) /(a 1)
eller
SSE /((a 1)(b 1))
SS ( Bl ) /(b 1)
F=
SSE /((a 1)(b 1))
Mleusikkerheden (residual) varians:
SSE
2
error
=
((a 1)(b 1))
Behandlingens varians:
SS (Tr )
2
treatment
=
a 1
Blokkenes varians:
SS ( Bl )
2
=
blocks
b 1
Formler for kvadrat afvigelses sum:
F=

SST = y ij2 C
i =1 j =1

- 34 -

SS (Tr ) =

T
i =1

2
i.

T
SS ( Bl ) =

Kritisk vrdi for blokke:

Kritisk vrdi for behandling:

j =1

2
.j

T..2
C , hvor C =
ab

F (b 1, (a 1)(b 1))
F (a 1, (a 1)(b 1))

Definition p parat t-test


Hvis man mler blodtryk p 10 personer og mler hjden p de samme 10 personer er det et parat ttest man ser p for at sammenligne.

- 35 -

You might also like