Professional Documents
Culture Documents
Statnoter
Statnoter
Statnoter
5
Hvad er statistik? .............................................................................................................................. 5
Ngletal ............................................................................................................................................ 5
Median ................................................................................................................................. 5
Varians ................................................................................................................................. 5
Fraktiler ................................................................................................................................ 6
Figurer .............................................................................................................................................. 6
Dot diagram.......................................................................................................................... 6
Histogram ............................................................................................................................. 6
Boxplot ................................................................................................................................. 6
Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6
En grundregel ................................................................................................................................... 6
Den klassiske sandsynlighedskoncept ......................................................................................... 6
Binomialkoefficienten ...................................................................................................................... 6
Hvad er Stokastisk variable.............................................................................................................. 6
Tthedsfunktion for diskret variabel ............................................................................................... 6
Fordelingsfunktion for diskret variabel............................................................................................ 6
Diskrete fordelinger ......................................................................................................................... 7
Binomial fordeling ....................................................................................................................... 7
Den Hypergeometrisk fordeling................................................................................................... 7
Poisson fordeling.......................................................................................................................... 8
Middelvrdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9
Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9
Tthedsfunktionen for kontinuert variabel ...................................................................................... 9
Fordelingsfunktion for kontinuert variabel ...................................................................................... 9
Kontinuerte fordelinger .................................................................................................................... 9
Normal fordeling og Standardiseret normal fordeling ................................................................. 9
-1-
Intervalestimation (konfidensinterval for middelvrdi) hvor variansen ikke er kendt og en
stor stikprve (n=>30)................................................................................................................ 14
-2-
-3-
-4-
Afsnit 2.1-2.7
Hvad er statistik?
Indsamling af data.
Statistik handler ofte om at analysere en stikprve, der er taget fra en population.
Baseret p stikprven, prver vi at generalisere (eller udtale os) om populationen.
Ngletal
n 1 i =1
x=
n
n x xi
i =1
i =1
o Eller varians: s 2 =
n (n 1)
n
2
i
Eks. Har vi tallene: 12, 15, 13, 14, 16 (samme tal som i middelvrdi eks. S
x er den samme).
Variansen bliver:
s2 =
1
(12 14)2 + (15 14)2 + (13 14)2 + (14 14)2 + (16 14)2 = 2,5
5 1
o Standardafvigelse (spredning): s = s 2
-5-
Fraktiler er punkter hvor data deles. Medianen deler data i to halvdele. Fraktiler deler data
i andre dele. Ofte beregner man fraktiler:
0, 25, 50, 75, 100 % fraktiler.
Figurer
Pareto diagram siger f.eks. noget om hvor forskellige slags defekte der er i et givet
system.
Dot diagram er godt til at detektere fejl ved at se p outliers prikker som ligger
usdvanligt.
Binomialkoefficienten
Det antal forskellige mder som vi kan udvlge r objekter taget ud fra en population bestende af n
forskellige objekter er:
n!
n
=
r r!(n r )!
-6-
F ( x) = P ( X x )
Diskrete fordelinger
Binomial fordeling
()
P( X
P( X
P( X
P( X
2 = np (1 p)
Varians:
Hvis man nsker at finde sandsynligheden for et bestemt omrde:
B(h;n,p)-B(t;n,p)
-7-
( )( )
f ( x) = P( X = x) =
( )
a
x
N a
n x
N
n
Den hypergeometriske fordeling kan udskiftes med binomial fordelingen hvis populationen
N er stor og stikprven n er lille.
Obs! Binomial fordeling kan til forveksling bruges i tilflde hvor n ikke er s lille i forhold til N
ogs kunne man beg den fejl at anvende binomial distribution med n og p = a/N. se side 111.
a
= n
Middelvrdi:
N
a
a N n
2 = n 1
Varians:
N N N 1
Poisson fordeling
Poisson fordeling anvendes ofte som en fordeling (model) for tlletal, hvor der ikke er
nogen naturlig vre grnse.
Poisson fordelingen kan ofte karakteriseres som intensitet, dvs. p formen antal/enhed.
Parameteren angiver intensiteten i poisson fordelingen.
Nr n er stor og p er lille er binomial sansynligheder approksimeret til possion distribution.
Possion fordeling anvendes til approksimation af binomiale sansynligheder, nr
n 20 og p 0.05 , hvis n 100 er approksimationen god s lnge np 10
Se s. 129 for sammenligning af possion og binomial.
Den stokastiske variabel, X, er possion fordelt:
X P ( )
Tthedsfunktionen:
f ( x) = P( X = x) =
Fordelingsfunktionen:
Varians:
x
x!
2 =
-8-
f ( x) = 1
S
Varians:
Kontinuerte fordelinger
Normal fordeling og Standardiseret normal fordeling
Der kan ikke opstilles generelle kriterier for, hvornr en variabel er normailfordelt.
Ofte kan man ramme rigtigt, hvis man til hvert element stiller sprgsmlet: hvilken vrdi
har elementet og svarmuligheden er et tal.
X N ( , 2 )
Tthedsfunktionen:
f (x) =
( x )2
2
P(a X b) = f ( x)dx
a
=
2 = 2
Middelvrdi:
Varians:
En normal fordeling med middelvrdien 0 og variansen 1, dvs. X N (0,12 ) , kaldes en
standard normal fordeling.
En vilkrlig normal fordelt variabel X N ( , 2 ) kan standardiseres ved at beregne:
X
Z=
-9-
Fordelingsfunktionen:
F ( z) =
1
2
t 2
dt
a
P( X < a) = F
a
P( X > a ) = 1 F
More (strre end):
b
a
P ( a < X < b) = F
Between (imellem):
F
F(Z) aflses i tabel 3, side 585
0,9298
-z
Log-Normal fordeling
Log-normal fordelingen benyttes nr vi har en tilfldig variable, som er p den mde at hvis
man tager ln til den giver det normal distribution:
X LN ( , 2 )
Tthedsfunktion:
f ( x) =
x 1 e (ln( x ) )
/ 2 2
Middelvrdi:
= e +
Varians:
2 = e 2 / (e 1)
/2
2
- 10 -
2
2
ln b
ln a
1
F
e ( y ) / 2 dy = F
ln b
ln a
ln a
P( X < a ) = F
ln a
P( X > a ) = 1 F
Tabel 3 s.585
Uniform fordeling
X U ( , )
Tthedsfunktionen:
f (x) =
Fordelingsfunktionen:
F ( x) =
Middelvrdi:
Varians:
1
ab
dx =
2
= 121 ( ) 2
2
Middelvrdi:
Varians:
Eksponentiel fordeling
Tthedsfunktionen:
f ( x) =
e x /
Fordelingsfunktionen:
F ( x) =
e x / dx = 1 e x /
P( X < x) = F ( x) = 1 e x /
P ( X > x) = 1 F ( x) = 1 (1 e x / )
Eksponential fordeling er et special tilflde af Gamma fordeling (=1).
Eksponential fordelingen anvendes f.eks. til at beskrive levetider og ventetider.
Eksponential fordelingen anvendes f.eks. til at beskrive (vente)tiden mellem hndelser i
poisson fordelingen. =
=.
Middelvrdi:
- 11 -
Varians:
2 =2.
E( X 1 X 2 ) = E( X 1 ) E( X 2 )
E (aX 1 bX 2 + c) = aE ( X 1 ) bE ( X 2 ) + c
Var ( X 1 X 2 ) = Var ( X 1 ) + Var ( X 2 ) , lg mrke til at der ndres her til plus.
Var (aX 1 bX 2 + c) = a 2Var ( X 1 ) + b 2Var ( X 2 ) , lg mrke til at der ndres her til plus.
Transformation
Sfremt data afviger fra at vre normalt fordelt, kan man ofte med fordel transformere data, sledes
at de transformerede data kan antages at vre normal fordelt.
Uendelig population:
Lad X vre middelvrdien af en stikprve af strrelse n fra en fordeling med middelvrdi
og variansen 2.
Da er X en stokastisk variabel og flger en fordeling med middelvrdi og variansen 2/n.
Endelig population:
Lad X vre middelvrdien af en stikprve af strrelse n fra en fordeling med middelvrdi
og variansen 2.
- 12 -
NN1n .
Estimation
Begreber
Central estimator:
En estimator er central (eller ikke-biased), hvis og kun hvis, middelvrdien af
stikprvefordelingen for estimatoren er lig .
Efficient estimator:
En estimator 1 er en mere efficient estimator af end estimatoren 2 hvis:
1. og begge er centrale estimatorer af .
1
Z=
/ n
E = z / 2
To eksempler for at finde
(1 )
2
bliver:
z 2 :
= 0,95
= 102,95 = 0,025
z 2 = z 0, 025 = 1,96
= 0,99
= 102,99 = 0,005
z 2 = z 0, 005 = 2,575
Vrdierne 1,96 og 2,575 blev fundet i tabel 3 s.585-586
Hvis E er kendt kan stikprvestrrelsen n findes ved:
- 13 -
z
n = 2
E
1 z
n = /2
4 E
n=
< z / 2
/ n
x z / 2
< < x + z / 2
x z / 2
t=
X
S/ n
E = t / 2
(1 )
2
bliver:
x z / 2
< < x + z / 2
x z / 2
n
z ikke skiftet ud med t, fordi i tabel 4 gr n ikke hjere end 30 s derfor gre det ingen forskel.
s
n
< < x + t / 2
s
n
- 14 -
x t / 2
s
n
n
Der antages en normal fordeling og er kendt.
P-vrdien findes for teststrrelsen Z ved opslag i normal fordeling (tabel 3).
Sammenligning med kritisk vrdi z (eller z/2 i et tosidet test).
Alternativ
Afvis
- 15 -
hypotese
< 0
Nul-hypotese hvis
Z < z
> 0
0
Z > z
Z < z / 2 eller
Z > z / 2
> 0
0
Z > z
Z < z / 2 eller
Z > z / 2
> 0
0
t > t
t < t / 2 eller
t > t / 2
- 16 -
Afsnit 7.6-7.9
Hypotesetest for to gennemsnit
1. Formulering af hypoteser
Parameter 1 , 2 betragtes.
H 1 : 1 2
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : 1 2 =
H 1 : 1 2
eller
H 1 : 1 2 >
Typisk er man interesseret i at teste med = 0 .
Z=
(X 1 X 2 )
12 / n1 + 22 / n2
,(tabel 3).
1 2 >
1 2
Z > z
Z < z / 2 eller
Z > z / 2
(tabel 3).
- 17 -
(X 1 X 2)
s12 / n1 + s 22 / n2
,(tabel 3).
1 2 >
1 2
Z > z
Z < z / 2 eller
Z > z / 2
(tabel 3).
t=
(X1 X 2)
s p 1/ n1 + 1/ n2
1 2 >
t > t
- 18 -
1 2
t < t / 2 eller
t > t / 2
Og frihedsgrader:
v = n1 + n2 2
(tabel 4).
s12 s 22
+
,(tabel 3).
n1 n 2
(1 )
2
(n1 1) s12 + (n 2 1) s 22
n1 + n2 2
Og frihedsgrader:
v = n1 + n2 2
(tabel 4).
1
1
+
n1 n 2
(1 )
2
n 1 i =1
Hvor n er antallet af observationer
Xi er observationer nr. i, hvor i =1n
X estimat af middelvrdien for X
Store bogstaver => stokastiskvariabel.
2
Lad S vre variansen af en stikprve af strrelsen n fra en normalfordeling med varians 2,
da er:
(n 1)S 2 , Ki =
2 =
, v = n-1 (tabel 5, s. 588).
2
- 19 -
P ( 2 2 ) =
<
<
2
2
/ 2
1 / 2
(1 )
2
Hypotesetest af en varians
1. Formulering af hypoteser
H 1 : 2 02
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : 2 = 02
H 1 : 2 02
Ensidet alternativ, der bliver H1 enten:
H 1 : 2 < 02
eller
H 1 : 2 > 02
2. teststrrelse bliver
P( 2 2 ) =
Afvis
Nul-hypotese hvis
2 < 12
2 > 02
2 > 2
2 02
2 < 12 eller
- 20 -
2 > 2
(tabel 5).
Hypotesetest af 2 varianser
F-fordeling
P( F F ) =
Hypotesetest af 2 varianser
1. Formulering af hypoteser
H 1 : 12 22
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : 12 = 22
H 1 : 12 22
Ensidet alternativ, der bliver H1 enten:
H 1 : 12 < 22
eller
H 1 : 12 > 22
2. teststrrelse bliver
F=
S12
, v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
S 22
P( F F ) =
Afvis
Nul-hypotese hvis
F > F (n 2 1, n1 1)
12 > 22
F > F (n1 1, n2 1)
- 21 -
F > F / 2 (n M 1, nm 1)
12 22
Afsnit 9.1-9.5
Estimation af andele
fs ved at observere antal gange x en hndelse har indtruffet uf af n forsg:
x
p=
n
x
n
(1 nx )
x
< p < + z / 2
n
n
x
n
(1 nx )
n
(1 )
2
x
x
p1 p 2 = 1 2 z / 2
n1 n2
x1
n1
x1 x 2 x 2
1
1
n
n2
n
1
+ 2
n1
n2
(1 )
2
E = z / 2
(1 )
2
bliver:
p(1 p)
, hvor z/2 findes i tabel 3.
n
x
p=
n
z
n = p(1 p) / 2
E
(1 )
2
- 22 -
1 z
n = / 2 , p=1/2
4 E
(1 )
2
Hypotesetest af 1 andel
1. Formulering af hypoteser
2. teststrrelse bliver
Afvis
Nul-hypotese hvis
Z < z
p > p0
Z > z
p p0
Z < z eller
Z > z
(tabel 3).
Hypotesetest af 2 andel
1. Formulering af hypoteser
- 23 -
H 0 : p1 = p 2
H 1 : p1 p 2
Man vlger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : p1 = p 2
H 1 : p1 p 2
eller
H 1 : p1 > p 2
2. teststrrelse bliver
Z=
X1
n1
X2
n2
p (1 p )( n11 + n12 )
Hvor p =
X1 + X 2
n1 + n2
Afvis
Nul-hypotese hvis
Z < z
p > p0
Z > z
p p0
Z < z eller
Z > z
(tabel 3).
I nogle tilflde kan man vre interesseret i at vurdere om to eller flere binomialfordelinger
har samme parameter p, dvs. man er interesseret i at teste nul-hypotesen:
H 0 : p1 = p 2 = ... = p k = p
Mod alternativ hypotese at disse andele ikke er ens.
- 24 -
2. teststrrelse bliver
Teststrrelsen bliver
2
=
2
(o
eij )
ij
eij
i =1 j =1
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
nede for hvordan de beregnes.
Vi har teststrrelsen
2
=
2
i =1 j =1
(o
eij )
ij
eij
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
nede for hvordan de beregnes
Teststrrelsen sammenlignes med 2 (k 1)
Analyse af antalstabeller
1. Formulering af hypoteser
- 25 -
AAA
I alt
263
denne tabel
(1)
o11 = 79
210
127
I alt
200
200
200
600
e11 =
200 263
= 87,67
600
( 2)
o12 = 84
e12 =
200 210
= 70
600
(3)
o23 = 43
e23 =
200 127
= 42,33
600
Opstilling af nul-hypotesen:
H 0 : pi1 = p i 2 = p i 3
2. teststrrelse bliver
=
2
(o
ij
eij )
eij
i =1 j =1
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
oppe for hvordan de beregnes.
Vi har teststrrelsen:
r
=
2
i =1 j =1
(o
ij
eij )
eij
- 26 -
=
2
i =1 j =1
(o
ij
eij )
eij
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA lngere
oppe for hvordan de beregnes.
Teststrrelsen skal sammenlignes med kritisk vrdi, der findes i 2 (k 1 m ) , hvor k er antal
inddelinger (celler i tabellen) og m er antal estimerede parametre.
Afsnit 10.1-10.4
Sign test
Kan bruges som alternativ for:
Hypotesetest for en middelvrdi
Parret t-test
Nr ovenstende test ikke kan bruges pga. antagelse om normalfordeling.
1. Formulering af hypoteser
Sign test kan bruges til at teste hypotese om median
H 0 : ~ = ~D
H : ~ ~
1
2. teststrrelse bliver
Beregning af teststrrelse/p-vrdi:
Antal af observationer strre end medianen optlles, X + .
Testets p-vrdi kan nu findes ved at beregne sandsynligheden for (ensidet test)
P( X X + )
Rank-sum test
Rank-sum test (ogs kaldet U-test eller Wilcoxon test eller Mann-Whitney test) kan bruges som
alternativ til almindelig t-test for 2 uafhngige stikprver, i tilflde af at normalfordelingsantagelse
ikke holder.
1. Formulering af hypoteser
Rank-sum test kan alts bruges til at sammenligne medianen for 2 uafhngige stikprver:
- 27 -
x1 , x 2 ,..., x n1
y1 , y 2 ,..., y n1
2. teststrrelse bliver
Beregning af teststrrelse: data sorteres og rangeres (eng: ranks) i stigende rkkeflge. For hver af
de to stikprver summeres de tilhrende ranks, her benvnt W1 og W2, s der kan beregnes:
n (n + 1)
U 1 = W1 1 1
2
n (n + 1)
U 2 = W2 2 2
2
Det glder nu, at sfremt de to stikprver kommer fra den samme fordeling, s haves:
n n
U1 = 1 2
2
n n (n + n + 1)
U21 = 1 2 1 2
12
Nr n1 og n2 er tilpas store (>8) kan vi nu anvende:
U 1 U1
Z=
N (0,12 ) teststrrelse
u =
2 n1 n2 (2 n1 n2 n1 n2 )
(n1 + n2 ) 2 (n1 + n2 1)
Z=
u u
idet
Z N (0,12 )
- 28 -
Korrelation
r=
n 1 i =1 s x s y
Det antages her, at observationerne (xi,yi) er sammenhrende vrdier. Der glder r [1;1] .
+ x er modellen
er residual (tilfldige fejl, mle fejl eller afvigelse)
Y afhngige variabel
x uafhngige variabel
skring med Y-aksen
hldning
- 29 -
a og b bestemmes ved:
b=
S xy
S xx
a = y b x
( x )
S xx = ( xi x ) eller S xx = x
2
i
i =1
eller SS xx = s x2 (n 1)
( y )
S yy = ( y i y ) eller S yy = y
2
i
i =1
eller SS yy = s y2 (n 1)
S xy = ( xi x )( y i y ) eller S xy = xi y i
x y
i
n
a og b er nu de vrdier, der giver den regressionslinie, der minimerer den kvadratiske
afstand mellem punkter og linie.
a er et estimat for og b er et estimat for .
i =1
Interferens i regressionsmodel
2. teststrrelse bliver
t=
n S xx
(a )
se
S xx + n ( x ) 2
- 30 -
2. teststrrelse bliver
(b )
S xx
se
t=
t / 2 (n 2) tabel 4
Konfidensintervaller for og
Konfidensinterval for :
a t / 2 s e
1 (x) 2
+
t
i tabel 4, v = n-2
n S xx / 2
(1 )
2
Konfidensinterval for :
1
b t / 2 s e
S xx
t / 2 i tabel 4, v = n-2
(1 )
2
Konfidensinterval for + *x0 svarer til et konfidensinterval for modellen i punktet x0:
1 ( x0 x ) 2
+
t / 2 i tabel 4, v = n-2
n
S xx
(a + b x 0 ) t / 2 s e
(1 )
2
Prdiktionsinterval for + *x0 svare til et prdiktionsinterval for modellen i punktet x0:
(a + b x 0 ) t / 2 s e 1 +
1 ( x0 x ) 2
+
t / 2 i tabel 4, v = n-2
n
S xx
(1 )
2
Korrelation og regression
Korrelation og regression:
r=
S xx
S yy
b r2 =
S xx 2
b , hvor
S yy
- 31 -
( x )
S xx = ( xi x ) eller S xx = x
2
i
i =1
eller SS xx = s x2 (n 1)
( y )
S yy = ( y i y ) eller S yy = y
2
i
i =1
eller SS yy = s y2 (n 1)
S xy = ( xi x )( y i y ) eller S xy = xi y i
i =1
x y
i
S yy =
+ S yy
S xx
S xx
Afsnit 12.1-12.3
Variansanalyse (forskel i middel)
En-sidet variansanalyse
Vi betragter modellen:
X ij = + i + ij hvor det antages eij N (0, 2 )
1. Formulering af hypotese
H1 : i j
- 32 -
2. teststrrelse bliver
Variansanalysetabel
Test strrelsen F:
F=
SS (Tr ) /(k 1)
SSE /( N k )
SSE
N k
2
=
error
Behandlingsvarians:
SS (Tr )
k 1
Hvor k er niveauer antal slags prver fortaget over en faktor, og N er antal observationer.
Formler for kvadrat afvigelses sum:
2
=
treatment
ni
SST = y ij2 C
i =1 j =1
Ti 2
SS (Tr ) =
C , hvor
i =1 ni
k
C=
ni
k
T. 2
, Ti = y ij , T . = Ti
N
j =1
i =1
- 33 -
Tosidet variansanalyse
Test strrelsen F:
SS (Tr ) /(a 1)
eller
SSE /((a 1)(b 1))
SS ( Bl ) /(b 1)
F=
SSE /((a 1)(b 1))
Mleusikkerheden (residual) varians:
SSE
2
error
=
((a 1)(b 1))
Behandlingens varians:
SS (Tr )
2
treatment
=
a 1
Blokkenes varians:
SS ( Bl )
2
=
blocks
b 1
Formler for kvadrat afvigelses sum:
F=
SST = y ij2 C
i =1 j =1
- 34 -
SS (Tr ) =
T
i =1
2
i.
T
SS ( Bl ) =
j =1
2
.j
T..2
C , hvor C =
ab
F (b 1, (a 1)(b 1))
F (a 1, (a 1)(b 1))
- 35 -