Download as pdf or txt
Download as pdf or txt
You are on page 1of 67

Föreläsningsanteckningar i

Matematisk Statistik

Jan Grandell
2
Förord

Dessa anteckningar gjordes för mitt privata bruk av föreläsningsmanuskript


och har aldrig varit tänkta att användas som kursmaterial. Jag kan därför
inte ta något ansvar för eventuella fel och eventuella konsekvenser av dessa på
tentan.

Jan Grandell

i
ii Kapitel 0. Förord
Några beteckningar i
Matematisk Statistik

Grundläggande sannolikhetsteori
ω utfall av ett slumpförsök
Ω utfallsrummet
∅ tomma mängden, omöjliga händelsen
A, Ak , B, . . . händelser
∩ snitt; A ∩ B = A och B inträffar
∪ union; A ∪ B = A och/eller B inträffar, minst en av A eller B inträffar
A∗ komplementet till A, A inträffar ej
P (A) sannolikheten för A
P (B | A) sannolikheten för B betingat av att A inträffat

Stokastiska variabler
X, Xk , Y, . . . stokastiska variabler
x, xk , y, . . . utfall av stokastiska variabler
FX (x) = P (X ≤ x) fördelningsfunktion
fX (x) täthetsfunktion (för en kontinuerlig s.v.)
pX (x) = P (X = k) sannolikhetsfunktion (för en diskret s.v.)
µ = µX = E(X) väntevärde, förväntat värde
σ 2 = σX 2
= V (X) varians
σ = σX = D(X) standardavvikelse
C(X, Y ) kovariansen mellan X och Y
ρ = ρ(X, Y ) korrelationskoefficienten mellan X och Y

Statistik
x1 , x2 , . . . , xn utfall av X1 , X2 , . . . , Xn
θ parameter

θobs = θ∗ (x1 , . . . , xn ) punktskattning
θ∗ = θ∗ (X1 , . . . , Xn ) stickprovsvariabel
x̄ stickprovsmedelvärde
s2 stickprovsvarians
Iθ konfidensintervall för θ
λα , tα (f ), χ2α (f ) α-kvantiler för normal-, t- resp. χ2 -fördelningarna
H0 nollhypotes
H1 alternativ hypotes, mothypotes

iii
iv Kapitel 0. Några beteckningar i Matematisk Statistik
Innehåll

Förord i

Några beteckningar i Matematisk Statistik iii

Föreläsning 1 1
1.1 Inledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Grundläggande sannolikhetsteori . . . . . . . . . . . . . . . . . 2

Föreläsning 2 7
2.1 Betingad sannolikhet . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Oberoende händelser . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Stokastiska variabler . . . . . . . . . . . . . . . . . . . . . . . . 11

Föreläsning 3 13
3.1 Stokastiska variabler . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Flerdimensionella stokastiska variabler . . . . . . . . . . . . . . 16

Föreläsning 4 19
4.1 Funktioner av stokastiska variabler . . . . . . . . . . . . . . . . 19
4.2 Väntevärden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Föreläsning 5 25
5.1 Kovarians och korrelationskoefficient . . . . . . . . . . . . . . . 25
5.2 Mer om väntevärden . . . . . . . . . . . . . . . . . . . . . . . . 26

Föreläsning 6 29
6.1 Normalfördelningen . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2 Centrala gränsvärdessatsen . . . . . . . . . . . . . . . . . . . . . 32

Föreläsning 7 33
7.1 Binomialfördelningen och dess släktingar . . . . . . . . . . . . . 33
7.2 Approximationer . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Föreläsning 8 39
8.1 Punktskattning . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Föreläsning 9 43
9.1 Intervallskattning . . . . . . . . . . . . . . . . . . . . . . . . . . 43

v
vi Innehåll

Föreläsning 10 51
10.1 Hypotesprövning . . . . . . . . . . . . . . . . . . . . . . . . . . 51
10.2 χ2 -test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Föreläsning 11 57
11.1 Regressionsanalys . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Föreläsning 1

1.1 Inledning

Vi ska först ge några exempel på situationer där matematisk statistik kommer
in på ett naturligt och viktigt sätt
Sannolikhetsteori:
Sannolikhetsteori handlar om att göra modeller för verkligheten.
Exempel (S)
Man vill dimensionera trafikljussystemet på en genomfartsled med angränsan-
de tvärgator i en stad. Hur långa grön-röd faser ska man ha för att minimera
risken för allt för besvärande köbildning i rusningstrafik? Biltrafik är underkas-
tad slumpmässiga fluktuationer. Vi måste formulera någon slags slumpmodell.
Hur skall den se ut?
Exempel (D)
Man vill dimensionera ett datasystem på ett företag. Hur ska man göra detta,
under en given kostnadsram, för att minimera risken för allt för besvärande
köbildning i rusningstrafik? Datatrafik är underkastad slumpmässiga fluktua-
tioner. Vi måste formulera någon slags slumpmodell. Hur skall den se ut?
Statistik:
Många tänker nog på tabeller när de hör ordet ”statistik”. Vi menar dock med
statistik läran om hur man från observationer eller analyser under osäkerhet
drar slutsatser och beskriver dessa slutsatser på ett korrekt sätt.
Exempel Låt oss säga att vi vill mäta halten av ett ämne i en kemisk förening.
Hur skall vi göra detta? Det är en kemisk fråga som inte jag tänker gå in på.
Hur vi ska analysera resultaten är däremot en statistisk fråga!
Vi kan t.ex. ha 2000 enheter som vi är intresserade av. Detta är vår population,
och det är bara dom enheterna som intresserar oss. Det är alldeles för mycket
arbete att analysera alla enheterna! Det naturliga är att göra ett urval av dessa,
eller – som man brukar säga – ta ett stickprov. Med ett stickprov menar vi i
regel en uppsättning analysdata. Hur ska vi välja stickprovet, och hur kan man

1
2 Föreläsning 1

från resultatet av analysen av stickprovet dra slutsatser om populationen?


En lite annan situation är om vi vill undersöka en produktionsmetod. Vi har då
ingen naturlig population, eller om man så vill, så kan vi tala om en oändlig
population. Vårt ”stickprov” ersätts då av att vi väljer några enheter, och
analyserar dessa. Man kan tänka sig att vi låter framställa ett visst antal, och
ur dessa gör ett urval. Skillnaden med fallet ovan är att vi nu inte vill uttala
oss om det tillverkade antalet – populationen – utan om ”alla” enheter. Ett
naturligare synsätt att se på saken är att vi uppfattar de enskilda analyserna
som resultatet av ett slumpförsök.

1.2 Grundläggande sannolikhetsteori

Händelser
Vi betraktar nu ett slumpförsök.

Definition 1.1 Varje möjligt resultat ω av ett slumpförsök kallas ett utfall,
eller en elementarhändelse.

Definition 1.2 Mängden av alla utfall, eller resultat, kallar vi utfallsrummet


och betecknar det med Ω.

Definition 1.3 En händelse A är en mängd av utfall, dvs en delmängd av Ω,


A ⊂ Ω.

Låt oss nu anta att vi är intresserade av två händelser A och B definierade
på samma försök. Här är några exempel på vad som kan inträffa, och hur vi
matematiskt kan uttrycka detta:

”A inträffar”, A

”A och B inträffar” eller ”A snitt B inträffar”, A ∩ B


”A eller B inträffar” eller ”A union B inträffar”, A ∪ B
Obs! A ∪ B betyder att minst en av A eller B inträffar, så A ∩ B kan mycket
väl inträffa. I matematik betyder ”eller” och/eller!

”A inträffar inte”, A∗ .

Om A och B utesluter varandra, dvs. omöjligt kan inträffa samtidigt, så säger
vi att A och B är disjunkta eller oförenliga, dvs. A ∩ B = ∅ där ∅ är ”tomma
mängden” eller ”den omöjliga händelsen”.
1.2. Grundläggande sannolikhetsteori 3

Har vi många händelser kan vi, precis som med summa- och produkt-tecken,
använda ett förkortat skrivsätt:
n
[ n
\
Ai = A1 ∪ A2 ∪ . . . ∪ An och Ai = A1 ∩ A2 ∩ . . . ∩ An
1 1

Låt oss säga att vi kastar en tärning, och är intresserade av händelsen

{vi får en sexa}.

Alla håller nog med om att, om det är en just tärning, att den sannolikheten
är 16 . Symboliskt kan vi skriva

1
A = {vi får en sexa} och P (A) = .
6

Är det överhuvudtaget meningsfullt att tala om sannolikheter, och om så är
fallet, hur skall man tolka dessa?
Vi skall tolka detta som att om man kastar tärningen många gånger, så blir
den relativa frekvensen 6or ungefär 16 . Allmänt sett, om vi har ett försök och
en händelse A och gör försöket n gånger, så gäller

antalet gånger A inträffar


fn (A) = → P (A) då n växer.
n

Vad är nu en sannolikhet?


Kolmogorovs axiomsystem (1933):
Ett sannolikhetsmått P är en funktion av händelser, sådan att:

(a) 0 ≤ P (A) ≤ 1;

(b) P (Ω) = 1;

(c) om A1 , A2 , . . . är disjunkta händelser, så gäller


µ[
∞ ¶ ∞
X
P Ai = P (Ai ).
1 1

(a) och (b) kan ses som en kalibrering så att P stämmer med intuitionen (det
blir lättare då) och (c) (som är det ”viktiga” axiomet) betyder att P är ett
mått.

Sats 1.1 P (A∗ ) = 1 − P (A).


4 Föreläsning 1

Bevis. Vi ska ge ett mycket formellt bevis, för att illustrera axiomsystemet:
Eftersom A och A∗ disjunkta och A ∪ A∗ = Ω, så fås

P (A) + P (A∗ ) = P (Ω) = 1 ⇒ P (A∗ ) = 1 − P (A).

Sats 1.2 P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Bevis. Satsen följer med hjälp av Venn-diagram, och observationen att


P (A) + P (B) ”mäter” A ∩ B två gånger. 2
Den klassiska sannolikhetsdefinitionen
Antag att Ω består av m (möjliga) elementarhändelser ω1 , . . . , ωm , var och en
med samma sannolikhet att inträffa, dvs
1
P (ωk ) = k = 1, . . . , m.
m
Betrakta en händelse A, A ⊂ Ω. Antag att A innehåller g (gynnsamma) ele-
mentarhändelser. Då gäller
g
P (A) = .
m
Problemt med den klassiska sannolikhetsdefinitionen, i mera komplicerade si-
tuationer, är att hitta en uppdelning av Ω i lika sannolika elementarhändelser
och att beräkna m och g. I många – de flesta – situationer är det inte alls
möjligt att göra detta.
För att beräkna m och g behöver vi några kombinatoriska grundbegrepp:
n st. föremål kan permuteras eller ordnas på

n! = n · (n − 1) . . . 2 · 1

olika sätt.
Det finns µ ¶
n n!
=
k k!(n − k)!
olika sätt att plocka ut k st. av dessa om vi ej tar hänsyn till i vilken ordning
de plockas ut.
Det finns nk olika sätt att plocka ut k st. av dessa om varje föremål som har
plockats ut stoppas tillbaka och om vi tar hänsyn till i vilken ordning de plockas
ut.
1.2. Grundläggande sannolikhetsteori 5

Två urnmodeller
Dragning utan återläggning
I en urna finns kulor av två slag: v vita och s svarta. Drag n kulor ur urnan
slumpmässigt och så att en kula som dragits inte stoppas tillbaka. dvs dragning
utan återläggning.
Sätt A = ”Man får k vita kulor i urvalet”.
Välj Ω: Alla uppsättningar om n kulor utan hänsyn till ordning.
Då fås: µ ¶ µ ¶µ ¶
v+s v s
m= och g =
n k n−k
och således ¡v ¢¡ s
¢
k n−k
P (A) = ¡v+s¢ .
n

Dragning med återläggning


Samma modell som i fallet med dragning utan återläggning, men kulorna stop-
pas tillbaka igen efter det att man observerat dess färg, och urnan skakas om
för nästa dragning.
Välj Ω: Alla uppsättningar om n kulor med hänsyn till ordning:

m = (v + s)n .
¡n¢
Antag att vi valt ut k vita och n − k svarta kulor. Dessa kan placeras på k
platser:
v v v ······ v
Antal sätt att välja ut k vita = v k . Antal sätt att välja ut n − k svarta = sn−k .
¡ ¢
Detta ger g = nk v k sn−k och således får vi
¡ n¢ µ ¶µ ¶k µ ¶n−k
v k sn−k
k n v s
P (A) = = .
(v + s)n k v+s v+s
6 Föreläsning 1
Föreläsning 2

2.1 Betingad sannolikhet

Vi påminner om relativa frekvensers stabilitet:


Om vi har ett försök och en händelse A och gör försöket n gånger, så gäller

antalet gånger A inträffar


fn (A) = → P (A) då n växer.
antalet försök

Låt A och B vara två händelser, dvs A, B ⊂ Ω. Vad är P (B | A), dvs sanno-
likheten för B då vi vet att A har inträffat?
Det borde gälla att
P (B | A)
antalet gånger A ∩ B inträffar

antalet gånger A inträffar
antalet gånger A ∩ B inträffar antalet försök
= ·
antalet försök antalet gånger A inträffar
P (A ∩ B)
≈ .
P (A)
Detta leder oss till följande definition.

Definition 2.1 Låt A och B vara två händelser. Antag att P (A) > 0. Sanno-
likheten för B betingat av A betecknas med P (B | A) och definieras som

P (A ∩ B)
P (B | A) = .
P (A)

Exempel (Kast med röd och vit tärning)


A = summan av ögonen är högst 4.
Bk = vita tärningen visar k ögon.
P (Bk | A) = 0 om k ≥ 4.

7
8 Föreläsning 2

Möjliga utfall, m, är 36: (v, r), v, r = 1, . . . 6, dvs (1, 1), (1, 2), . . . (6, 6).
Gynnsamma utfall för A, är 6: (1,1), (1,2), (1,3), (2,1), (2,2), (3,1).
Gynnsamma utfall för A ∩ Bk , är 4 − k: (v, r), v = k, r = 1, . . . 4 − k,
dvs (k, 1), (k, 2), . . . (k, 4 − k) om k < 4.
Klassiska sannolikhetsdefinitionen ger

6 4−k
P (A) = och P (A ∩ Bk ) = .
36 36
Detta ger, för k < 4,

3 = 1
k=1
4 − k  62 2
1
P (Bk | A) = = 6= k=2
6 
1
3

6
k = 3.

Ofta är det lättare att ange värden till betingade sannolikheter än till obeting-
ade, och vi utnyttar definitionen ”baklänges”.
Exempel
En ohederlig person har två tärningar, en äkta och en falsk som alltid ger 6
ögon. Han väljer slumpmässigt den ena. Vad är sannolikheten för 5 resp. 6 ögon.
Låt oss betrakta fallet med sex ögon. Intiuitivt bör gälla att sannolikheten är

1 1 1 1 6 7
· + ·1= + = .
2 6 2 12 12 12

Mera systematiskt gäller följande sats

Sats 2.1 (Lagen om total sannolikhet)


Om H1 , . . . , Hn är disjunkta händelser, har positiv sannolikhet och uppfyller
hela Ω, så gäller för varje händelse A ⊂ Ω att
n
X
P (A) = P (Hi )P (A | Hi ).
i=1

Bevis. Vi har

P (A) = P (A ∩ Ω) = P (A ∩ (H1 ∪ . . . ∪ Hn )) = P ((A ∩ H1 ) ∪ . . . ∪ (A ∩ Hn ))


n
X n
X
= P (A ∩ Hi ) = P (Hi )P (A | Hi ).
i=1 i=1
2
Vi ska nu ge en viktig sats om ”vändning” av händelserna i betingade sanno-
likheter.
2.2. Oberoende händelser 9

Sats 2.2 (Bayes’ sats) Under samma villkor som i lagen om total sannolik-
het gäller
P (Hi )P (A | Hi )
P (Hi | A) = Pn .
j=1 P (Hj )P (A | Hj )

Bevis.
P (Hi ∩ A) P (Hi ∩ A) P (Hi ) P (Hi )
P (Hi | A) = = · = P (A | Hi ) · .
P (A) P (Hi ) P (A) P (A)
Lagen om total sannolikhet tillämpad på P (A) ger resultatet. 2
Låt oss gå tillbaka till exemplet om falskspelaren. Sätt
A = 6 ögon.
H1 = äkta tärningen.
H2 = falska tärningen.
Då gäller
1 1 1 7
P (A) = P (H1 )P (A | H1 ) + P (H2 )P (A | H2 ) = · + ·1= ,
2 6 2 12
som i exemplet. Bayes’ sats ger vidare
P (H1 ∩ A) P (H1 ) 1 1 12 1
P (H1 | A) = = P (A | H1 ) · = =
P (A) P (A) 62 7 7
och
P (H2 ∩ A) P (H2 ) 1 12 6
P (H2 | A) = = P (A | H2 ) · =1· =
P (A) P (A) 2 7 7
vilket kanske inte är lika lätt att inse rent intiuitivt.

2.2 Oberoende händelser

Intiuitivt är två händelser A och B oberoende om inträffandet av A inte ger


någon information om huruvida B inträffar eller ej. I formler betyder detta

P (B | A) = P (B).

Allmänt gäller ju
P (A ∩ B)
P (B | A) = , om P (A) > 0.
P (A)
Multiplikation med P (A) leder oss till följande definition:

Definition 2.2 Två händelser A och B är oberoende om

P (A ∩ B) = P (A)P (B).
10 Föreläsning 2

Definitionen ovan kräver inget villkor om positiva sannolikheter.


Det är inte självklart hur oberoende skall definieras för flera händelser.

Definition 2.3 Tre händelser A, B och C är oberoende om

P (A ∩ B) = P (A)P (B)
P (A ∩ C) = P (A)P (C)
P (B ∩ C) = P (B)P (C)
P (A ∩ B ∩ C) = P (A)P (B)P (C).

Endast P (A ∩ B ∩ C) = P (A)P (B)P (C) räcker inte, vilket inses om vi sätter


A = B och C = ∅.
Inte heller räcker parvis oberoende, vilket ses av följande exempel:
Kast med röd och vit tärning:
A = vita tärningen visar jämnt antal ögon.
B = röda tärningen visar jämnt antal ögon.
C = jämn ögonsumma.
A och B är oberoende av ”försöksskäl”. Vidare gäller

1 1
P (A ∩ C) = P (A ∩ B) = P (A)P (B) = och P (A)P (C) = .
4 4
Således är A och C oberoende. Pss. följer att B och C är oberoende.
Eftersom A∩B ⇒ C vore det inte rimligt att anse att A, B och C är oberoende.
Allmänt: Oavsett vilka händelser vi plockar ut så skall sannolikheten för snittet
vara produkten av sannolikheterna.
Man kan visa att om A1 , . . . , An är oberoende, så är även A∗1 , . . . , A∗n oberoende.
Detta kan verka helt självklart, med är inte helt lätt att visa. Vi nöjer oss med
fallet n = 2.
Vi har
P (A∗ ∩ B ∗ ) = P ((A ∪ B)∗ ) = 1 − P (A ∪ B)
= 1 − P (A) − P (B) + P (A)P (B) = 1 − P (A) − P (B)(1 − P (A))
= (1 − P (A))(1 − P (B)) = P (A∗ )P (B ∗ ).

Sn
Sats 2.3 Låt händelserna A1 , . . . , An vara oberoende. Sätt B = 1 Ai , dvs.
minst en av händelserna A1 , . . . , An inträffar. Då gäller

P (B) = 1 − (1 − P (A1 ))(1 − P (A2 )) . . . (1 − P (An )).


2.3. Stokastiska variabler 11

Bevis.
Ãn ! n n
\ Y Y

P (B) = 1 − P (B ) = 1 − P A∗i =1− P (A∗i ) =1− (1 − P (Ai )).
1 1 1

2.3 Stokastiska variabler

I nästan alla situationer som vi betraktar, kommer resultaten av slumpförsöken


att vara tal, kontinerliga mätvärden eller antal. Det är praktiskt att anpassa
beteckningarna till detta.

Definition 2.4 En stokastisk variabel s.v. (eller en slumpvariabel) X är en


funktion från Ω till reella linjen.

Lite löst kommer vi att uppfatta X som en beteckning för resultatet av ett
slumpförsök.
För ett tärningskast kan X anta ett av värdena 1, 2, 3, 4, 5 eller 6.
Låt X vara en stokastisk variabel. Det mest allmänna sättet att beskriva X,
dvs. hur X varierar, är att ange dess fördelningsfunktion.

Definition 2.5 Fördelningsfunktionen FX (x) till en s.v. X definieras av

FX (x) = P (X ≤ x).

En fördelningsfunktion FX (x) har följande egenskaper:

1) FX (x) är icke-avtagande;

2) FX (x) → 1 då x → ∞;

3) FX (x) → 0 då x → −∞;

4) FX (x) är högerkontinuerlig.


12 Föreläsning 2
Föreläsning 3

3.1 Stokastiska variabler

Det är lämpligt att skilja på fallen då vår stokastiska variabel representerar
kontinuerliga mätvärden eller antal.
Diskret stokastisk variabel
Vi ska nu betrakta fallet med antal.

Definition 3.1 En s.v. X säges vara diskret om den kan anta ett ändligt eller
uppräkneligt oändligt antal olika värden.

Det viktiga är att de möjliga värdena ligger i en ändlig eller högst uppräknelig
mängd. Oftast tar en diskret s.v. icke-negativa heltalsvärden ”räknar ett an-
tal”. Vi kommer att förutsätta detta, om vi inte explicit säger något annat.

Definition 3.2 För en diskret s.v. definieras sannolikhetsfunktionen pX (k)


av
pX (k) = P (X = k).

Om X beskriver ett tärningskast gäller således


(
1
för k = 1, 2, 3, 4, 5, 6
pX (k) = 6
0 för övriga värden på k.

Gör vi nu slumpförsöket att på måfå dra en av 6 lappar med talen 1, 2, 3, 4,


5 eller 6, så får vi samma s.v. som i tärningskasten.
Relationen mellan sannolikhetsfunktionen och fördelningsfunktionen för en dis-
kret stokastisk variabel fås av sambanden
X
FX (x) = pX (j), där [x] betyder heltalsdelen av x,
j≤[x]

och ¡ ¢
pX (k) = FX (k) − FX (k − 1) = FX (k + 21 ) − FX (k − 12 ) .

13
14 Föreläsning 3

Det följer av detta att



X
pX (k) ≥ 0 och pX (k) = 1.
0

Binomialfördelningen
Låt oss betrakta fallet ”dragning med återläggning”, och låt X vara antalet
v
vita kulor i urvalet om n kulor. Sätt p = v+s , dvs. p är sannolikheten för en
vit kula. Då fås
µ ¶
n k
pX (k) = p (1 − p)n−k , för k = 0, 1, . . . , n.
k
Nu är det inte alls nödvändigt att p är ett rationellt tal, utan vi kan allmännt
betrakta ett försök där en händelse A med p = P (A) kan inträffa, och låta
X vara antaltet gånger som A inträffar i n oberoende upprepningar av detta
försök.

Definition 3.3 En diskret s.v. X säges vara binomialfördelad med paramet-


rarna n och p, Bin(n, p)-fördelad, om
µ ¶
n k
pX (k) = p (1 − p)n−k , för k = 0, 1, . . . , n.
k

Poissonfördelningen
Ofta när det är rimligt att anta att en s.v. X är Bin(n, p)-fördelad, så är det
även rimligt att anta att p är liten och att n är stor. Låt oss anta att p = µ/n,
där n är ”stor” men µ är ”lagom”. Då gäller
µ ¶
n k n−k n(n − 1) . . . (n − k + 1) ³ µ ´k ³ µ ´n−k
pX (k) = p (1 − p) = 1−
k k! n n
µk ³ µ ´n n(n − 1) . . . (n − k + 1) ³ µ ´−k µk −µ
= 1− k
1 − ≈ e .
k! | {zn }| n
{z }| {zn } k!
≈ e−µ ≈1 ≈1

Definition 3.4 En diskret s.v. X säges vara Poissonfördelad med parameter


µ, Po(µ)-fördelad, om
µk −µ
pX (k) = e , för k = 0, 1, 2 . . . .
k!

Kontinuerlig stokastisk variabel


Här kan vi tyvärr inte ge definitionen i termer av den stokastiska variabeln
själv. Det räcker inte att säga att X kan ta ett överuppräneligt antal värden.
Vi får därför ge definitionen i termer av fördelningsfunktionen, som ju är den
allmännaste beskrivningen av en s.v.
3.1. Stokastiska variabler 15

Definition 3.5 En s.v. X säges vara kontinuerlig om dess fördelningsfunktion


har framställningen Z x
FX (x) = fX (t) dt
−∞

för någon funktion fX (x). Funktionen fX (x) kallas täthetsfunktionen för X.

Omvänt gäller att fX (x) = FX0 (x).


Täthetsfunktionen och sannolikhetsfunktionen kommer ofta att uppträda ”pa-
rallellt”.
Täthetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, för
små värden på h,
Z x+h
P (x < X ≤ x + h) = FX (x + h) − FX (x) = fX (t) dt ≈ h fX (x).
x

Ett par begrepp:

Definition 3.6 Lösningen till ekvationen 1 − FX (x) = α kallas α-kvantilen


till X och betecknas med xα .

Rita figur!

x0.5 kallas för medianen och är således det värde som överskrides med samma
sannolikhet som det underskrides.
Likformig fördelning U (a, b)
(
1
b−a
för a ≤ x ≤ b,
fX (x) =
0 annars.


0 för x ≤ a,
x−a
FX (x) = för a ≤ x ≤ b,


b−a
1 för x ≥ b.

Rita figur!
16 Föreläsning 3

Exponentialfördelningen Exp(λ)
(
λ e−λx för x ≥ 0,
fX (x) =
0 för x < 0.
(
1 − e−λx för x ≥ 0,
FX (x) =
0 för x < 0.
Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett
enkelt exempel:
Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa
gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara
tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter
x tidsenheter.
P (X > x) = (1 − p)nx ty nx personer har gått förbi.
Låt oss anta precis som då vi ”härledde” Poissonfördelningen, att p = µ/n,
där n är ”stor” men µ är ”lagom”. Då gäller
µ nx
P (X > x) = (1 − p)nx = (1 − ) ≈ e−µx .
n
Detta ger att FX (x) = 1 − P (X > x) ≈ 1 − e−µx , dvs X är approximativt
Exp(µ). Observera att väntevärdet (ännu ej definierat, men det kommer) är
1/µ!
Normalfördelningen.
1 2 2
fX (x) = √ e−(x−µ) /2σ
σ 2π
där µ godtycklig konstant och σ > 0.
Denna fördelning är mycket viktig, och vi skall återkomma till den. Man kan
inte analytiskt ge fördelningsfunktionen, vilket kan tyckas lite taskigt.

3.2 Flerdimensionella stokastiska variabler

Ofta mäter vi i samma slumpförsök flera storheter, och då beskrivs resultatet
av en n-dimensionell stokastisk variabel (X1 , X2 , . . . , Xn ).
Exempel
Slumpförsöket är att vi väljer en person slumpmässigt här i rummet, och sätter
X = personens vikt;
Y = personens längd.
Vi nöjer oss med att ge detaljer i det två-dimensionella fallet. Låt (X,Y) vara
en två-dimensionell s.v.
3.2. Flerdimensionella stokastiska variabler 17

FX,Y (x, y) = P (X ≤ x, Y ≤ y) kallas (den simultana) fördelningsfunktionen


för (X, Y ).
FX (x) = P (X ≤ x) = P (X ≤ x, Y ≤ ∞) = FX,Y (x, ∞) kallas den marginella
fördelningsfunktionen för X.
FY (y) = FX,Y (∞, y) kallas den marginella fördelningsfunktionen för Y .

Definition 3.7 X och Y är oberoende stokastiska variabler om

FX,Y (x, y) = FX (x)FY (y)

Vi kommer ihåg att för händelser så var det inte helt lätt att generlisera till
godtyckligt antal. För s.v. är det dock skenbart enklare.

Definition 3.8 (X1 , X2 , . . . , Xn ) är oberoende stokastiska variabler om

FX1 ,...,Xn (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )

= FX1 (x1 ) · · · FXn (xn ).

Kommentera!
Omvänt gäller att om X1 , X2 , . . . , Xn är oberoende s.v. så fås den simultana
fördelningen enl. definitionen ovan.
18 Föreläsning 3
Föreläsning 4

4.1 Funktioner av stokastiska variabler

Största och minsta värdets fördelning


Låt X1 , X2 , . . . , Xn vara oberoende s.v. med resp. fördelningsfunktioner
FX1 (x1 ), . . . , FXn (xn ).
Sätt
Y = max(X1 , X2 , . . . , Xn )
Z = min(X1 , X2 , . . . , Xn ).
Vi har

FY (y) = P (Y ≤ y) = P (alla Xi ≤ y) = FX1 (y) · · · FXn (y)

och
FZ (z) = P (min(X1 , X2 , . . . , Xn ) ≤ z)
= 1 − P (min(X1 , X2 , . . . , Xn ) > z) = 1 − P (alla Xi > z)
= 1 − P (X1 > z) · · · P (Xn > z) = 1 − (1 − FX1 (z)) · · · (1 − FXn (z)).

Summans fördelning
Låt X och Y vara två oberoende kontinuerliga stokastiska variabler med tätheter
fX (x) och fY (y).
Sätt Z = X + Y . Då gäller

FZ (z) = P (X + Y ≤ z) = P ((X, Y ) ∈ {(x, y); x + y ≤ z})


Z
= fX (x)fY (y) dx dy
x+y≤z

(fixera x och integrera över y)


Z ∞ µZ z−x ¶
= fX (x) fY (y) dy dx
−∞ −∞

19
20 Föreläsning 4

Z ∞
= fX (x)FY (z − x) dx.
−∞

Z är också en kontinuerlig stokastisk variabel. Derivation map. z ger


Z ∞
0
fZ (z) = FZ (z) = fX (x)fY (z − x) dx.
−∞

Denna operation kallas faltning.

4.2 Väntevärden

Vi ska nu införa begreppet väntevärde för en s.v. Detta är den teoretiska
motsvarigveten till begreppet medelvärde för en talföljd.
Antag att vi har en lång talföljd x1 , . . . , xn , där talen är ganska små heltal.
Medelvärdet definierades av
n
1X
x̄ = xk .
n k=1

Det kan vara bekvämt att göra omskrivningen



X
x̄ = i · fi ,
i=0

där
antalet {k; xk = i}
fi = .
n
När vi diskuterade tolkningen av begreppet sannolikhet, så sa vi att
antalet gånger A inträffar
→ P (A) då n växer.
n
För diskreta s.v. gäller då att fk → pX (k) då k → ∞. Vi leds av detta till
följande definition:

Definition 4.1 Väntevärdet µ för en s.v. X är


(P

kpX (k) i diskreta fallet,
µ = E(X) = R ∞k=0
−∞
xfX (x) dx i kontinuerliga fallet.

Vi skall alltid anta att



X Z ∞
|k|pX (k) < ∞ och |x|fX (x) dx < ∞.
k=0 −∞
4.2. Väntevärden 21

Väntevärdet ger samma information och samma brist på information för den
s.v. som melelvärdet ger för en talföljd.
Låt oss tänka på tärningskast igen. Hur mycket skulle ni vara villiga att betala
för följande spel: Jag kastar en tärning, och ni får lika många kronor som det
blir ögon?
Vi har (
1
6
för k = 1, 2, 3, 4, 5, 6
pX (k) =
0 för övriga värden på k,
vilket ger

X X6
1
E(X) = kpX (k) = k = 3.5.
k=0 k=1
6

Poissonfördelningen

µk −µ
pX (k) = e , för k = 1, 2 . . . .
k!

X ∞ ∞
µk −µ X µk −µ X µk
E(X) = k· e = k· e = e−µ
k=0
k! k=1
k! k=1
(k − 1)!
X∞ X∞
µk−1 −µ µi −µ
=µ e =µ e = µ.
k=1
(k − 1)! i=0
i!

Exponentialfördelningen
(
λ e−λx för x ≥ 0,
fX (x) =
0 för x < 0.
 
Z ∞ Z ∞ y = λx
E(X) = xfX (x) dx = xλ e−λx dx =  x = y/λ 
−∞ 0 dx = dy/λ
Z ∞ Z ∞
1 1£ ¤∞ 1 1 £ −y ¤∞ 1
= ye−y dy = −ye−y 0 + e−y dy = 0 − e 0 = .
λ 0 λ λ 0 λ λ
Antag att vi känner förd. för X, och vill beräkna E(Y ) där Y = g(X).
Följande, skenbart oskyldiga, sats är ordentligt svår att bevisa i det kontinu-
erliga fallet

Sats 4.1 Väntevärdet för g(X) är


(P

g(k)pX (k) i diskreta fallet,
E(g(X)) = R ∞k=0
−∞
g(x)fX (x) dx i kontinuerliga fallet.
22 Föreläsning 4

Bevis. Blom m.fl. visar satsen i det diskreta fallet, så vi betraktar det konti-
nuerliga fallet. Vi begränsar oss dock till fallet då g är strikt växande. Denna
begränsning förenklar beviset högst avsevärt.
Låt g −1 (x) vara inversen till g. Då gäller

FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y))

vilket ger

dFX (g −1 (y)) dg −1 (y) dg −1 (y)


fY (y) = = dFX0 (g −1 (y)) = fX (g −1 (y)) .
dy dy dy

Av detta fås Z ∞
dg −1 (y)
E(Y ) = yfX (g −1 (y)) dy
−∞ dy
 
x = g −1 (y) Z ∞
−1 (y)
= dx = dy dy  =
dg
g(x)fX (x) dx.
−∞
y = g(x)
2
Från denna sats följer bl.a. följande:

E(h(X) + g(X)) = E(h(X)) + E(g(X))

med det viktiga specialfallet

E(aX + b) = aE(X) + b.

Spridningsmått
Väntevärdet säger ingen om hur X varierar.
Diskutera
|X − µ| och (X − µ)2
och dess egenskaper!
Vi leds nu till följande definition.

Definition 4.2 Variansen σ 2 för en s.v. X är

σ 2 = V (X) = E[(X − µ)2 ].

Följande räkneregel är mycket användbar:

Sats 4.2 V (X) = E(X 2 ) − [E(X)]2 = E(X 2 ) − µ2 .


4.2. Väntevärden 23

Bevis.
V (X) = E[(X − µ)2 ] = E[X 2 + µ2 − 2µX]
= E[X 2 ] + µ2 − 2µE[X] = E(X 2 ) − µ2 .
2
21
I exemplet med tärningsspel har vi µ = 3.5 = 6
. Vidare har vi

X 6
X
2 2 1 91
E(X ) = k pX (k) = k2 = = 15.16
k=−∞ k=1
6 6

Enligt räkneregeln fås


µ ¶2
91 21 546 − 441
V (X) = − = = 2.92.
6 6 36

Sats 4.3 V (aX + b) = a2 V (X).

Bevis.

V (aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aµ − b)2 ]

= E[(aX − aµ)2 ] = a2 E[(X − µ)2 ] = a2 V (X).


2

Definition 4.3 Standardavvikelsen σ för en s.v. X är


p
σ = D(X) = V (X).

Sats 4.4 D(aX + b) = |a|D(X).

Allmänt gäller:
D – rätt sort.
V – lättare att räkna med.
Exponentialfördelningen.
Z ∞ Z ∞
2 2 −λx 1 2
E(X ) = x λe dx = 2 y 2 e−y dy = part. int. = 2
0 λ 0 λ

2 1 1 1
V (X) = 2
− 2 = 2 ⇔ D(X) = .
λ λ λ λ
24 Föreläsning 4

Poissonfördelningen


X ∞
µk −µ X µk −µ
E(X(X − 1)) = k(k − 1) · e = k(k − 1) · e
k=0
k! k=2
k!

X X∞ X∞
µk −µ 2 µk−2 −µ 2 µi −µ
= e =µ e =µ e = µ2 .
k=2
(k − 2)! k=2
(k − 2)! i=0
i!

Detta ger µ2 = E(X(X − 1)) = E(X 2 ) − µ, eller E(X 2 ) = µ2 + µ, vilket ger

V (X) = E(X 2 ) − µ2 = µ2 + µ − µ2 = µ.
Föreläsning 5

5.1 Kovarians och korrelationskoefficient

Låt (X, Y ) vara en tvådimensionell s.v. där vi är intresserade av sambandet


mellan Xs och Y s variation. Det kan vara natuligt att betrakta variablerna
X − µX och Y − µY .
Vi skiljer på fallen då X och Y ”samvarierar” resp. ”motverkar varandra”, dvs.
då
ett stort/litet värde på X gör ett stort/litet värde på Y troligt
resp.
ett stort/litet värde på X gör ett litet/stort värde på Y troligt.
Betraktar vi nu variabeln
(X − µX )(Y − µY ),
så innebär detta att den i första fallet, eftersom + · + = + och − · − = +, att
den har en tendens att vara positiv. På motsvarande sätt, eftersom − · + = −
och + · − = −, har den i andra fallet en tendens att vara negativ. Det som vi,
lite slarvigt, har kallat tendens, kan vi ersätta med väntevärde. Vi leds då till
följande definition.

Definition 5.1 Kovariansen mellan X och Y är


C(X, Y ) = E[(X − µX )(Y − µY )],
där µX = E(X) och µY = E(Y ).

Kovariansen kan sägas ha fel sort. Det verkar rimligt att ett mått på ett så
abstrakt begrepp som samvariation skall vara ”sortfritt”. Det vanligaste måttet
är korrelationskoefficienten.

Definition 5.2 Korrelationskoefficienten mellan X och Y är


C(X, Y )
ρ = ρ(X, Y ) = .
D(X)D(Y )

25
26 Föreläsning 5

Man kan visa att |ρ| ≤ 1, där |ρ| = ±1 betyder att det finns ett perfekt linjärt
samband, dvs. Y = aX + b.

Sats 5.1 Om X och Y är oberoende så är de okorrelerade, dvs. ρ(X, Y ) = 0.

Omvändningen gäller ej, dvs. okorrelerade variabler kan vara beroende.


Exempel
Låt (X, Y ) vara en tvådimensionell diskret variabel med följande sannolikhets-
funktion:
(
1
om (i, j) = (0, 1), (0, −1), (1, 0), eller (−1, 0).
pX,Y (i, j) = 4
0 annars.

Rita!
Uppenbarligen är dessa variabler beroende. Av symmetrin följer att µX =
µY = 0. Variabeln XY tar alltid värdet 0. Således fås

C(X, Y ) = E(XY ) = 0.

Om (X, Y ) är tvådimensionellt normalfördelad, så innebär dock ρ = 0 att X


och Y är oberoende.
Varning Korrelationskoefficienten är svårtolkad!

5.2 Mer om väntevärden

Sats 5.2 Låt (X, Y ) vara en tvådimensionell s.v. Då gäller

(1) E(aX + bY ) = aE(X) + bE(Y );

(2) V (aX + bY ) = a2 V (X) + b2 V (Y ) + 2abC(X, Y ).

Bevis. (1) följer av av räknereglerna för integraler resp. summor.


(2) fås av följande

V (aX + bY ) = E[(aX + bY − aµX − bµY )2 ] = E[(aX − aµX + bY − bµY )2 ]

= E[a2 (X − µX )2 + b2 (Y − µY )2 + 2ab(X − µX )(Y − µY )]

= a2 V (X) + b2 V (Y ) + 2abC(X, Y ).
2
5.2. Mer om väntevärden 27

Följdsats 5.1 Låt X och Y vara två oberoende (okorrelerade räcker) s.v. Då
gäller

E(X + Y ) = E(X) + E(Y ) V (X + Y ) = V (X) + V (Y )


E(X − Y ) = E(X) − E(Y ) V (X − Y ) = V (X) + V (Y ).

Detta går att utvidga till godtyckligt många variabler:

Sats 5.3 Låt X1 , . . . , Xn vara oberoende (okorrelerade räcker) s.v. och sätt
Y = c1 X1 + . . . + cn Xn .
Då gäller
E(Y ) = c1 E(X1 ) + . . . + cn E(Xn )
och
V (Y ) = c21 V (X1 ) + . . . + c2n V (Xn )

Arimetiskt medelvärde

Sats 5.4 Låt X1 , X2 , . . . , Xn vara oberoende och likafördelade s.v. med vänte-
värde µ och standardavvikelse σ. Då gäller att
σ2 σ
E(X) = µ, V (X) = och D(X) = √ .
n n

Uttrycket ”X1 , X2 , . . . , Xn är likafördelade” betyder att de stokastiska variab-


lernas fördelningar, dvs. att de stokastiska variablernas statistiska egenskaper,
är identiska. Utfallen av variablerna varierar dock.

Sats 5.5 (Tjebysjovs olikhet)


För varje ε > 0 gäller
V (X)
P (|X − µ| > ε) ≤ .
ε2

(Ersätter vi ε med kσ fås formuleringen i Blom m.fl.)


Bevis. Detta är den enda riktigt djupa satsen i kursen som vi kan bevisa.
Njut av elegansen i beviset! Bokens bevis via Markovs olikhet är egentligen
ännu elegantare!
Vi nöjer oss med det kontinuerliga fallet.
Vi har
Z ∞ Z
2
V (X) = (x − µ) fX (x) dx ≥ (x − µ)2 fX (x) dx
−∞ |x−µ|>ε
28 Föreläsning 5

Z
2
≥ε fX (x) dx = ε2 P (|X − µ| > ε).
|x−µ|>ε
2

Sats 5.6 Stora talen lag


För varje ε > 0 gäller

P (|X − µ| > ε) → 0 då n → ∞.

Bevis. Enl. Tjebysjovs olikhet gäller

V (X) σ2
P (|X − µ| > ε) ≤ = →∞
ε2 nε2
då n → ∞. 2
Diskutera relationen till relativa frekvensers stabilitet.
Föreläsning 6

6.1 Normalfördelningen

Diskutera mätfel. Ofta beror mätfelen på att att oberoende fel av samma
storleksordning adderar sig. Erfarenheten visar att mätfel fördelar sig enl. figur.
Rita!
Vi ska återkomma till detta i slutet av föreläsningen.
Standardiserad normalfördelning

Definition 6.1 En s.v. Z säges vara standardiserad normalfördelad om den


är N (0, 1)-fördelad, dvs. om den har täthetsfunktionen
1 2
ϕ(z) = √ e−z /2 .

Dess fördelningsfunktion betecknas med Φ(z), dvs.
Z z
1 2
Φ(z) = √ e−x /2 dx.
−∞ 2π

Ett problem är att fördelningsfunktionen inte kan ges på en analytisk form.
Det är dock lätt att numeriskt beräkna fördelningsfunktionen och i praktiken
använder man tabeller över Φ(x).
Vi observerar att ϕ(−z) = ϕ(z). Φ(z) är tabulerad endast för x ≥ 0. Vi har
dock Z −z Z z
Φ(−z) = ϕ(x) dx = [y = −x] = − ϕ(−y) dy
−∞ ∞
Z ∞
= ϕ(y) dy = 1 − Φ(z).
z
Om Z är N (0, 1)-fördelad, så kan man visa att

E(Z) = 0 (ty ϕ(−z) = ϕ(z))


V (Z) = 1.

29
30 Föreläsning 6

När vi kommer till statistikdelen behöver vi ofta lösa ekvationer av följande


slag:
Bestäm z så att vi för givet α har
P (Z ≤ z) = 1 − α;
P (Z > z) = 1 − α;
P (−z < Z ≤ z) = 1 − α.
För att lösa sådana ekvationer inför vi α-kvantilen λα definierad av
P (Z > λα ) = α eller
α = 1 − Φ(λα ).
Det är då bra att observera att

1 − α = 1 − Φ(λ1−α )


α = Φ(λ1−α )

α = 1 − Φ(−λ1−α ),
vilket ger
λ1−α = −λα .

Allmän normalfördelning

Definition 6.2 En s.v. X säges vara N (µ, σ)-fördelad, där µ reell och σ > 0,
om
X −µ
Z= är N (0, 1)-fördelad.
σ

Sats 6.1 Låt X vara N (µ, σ)-fördelad. Då gäller


µ ¶
1 x−µ 1 2 2
fX (x) = ϕ = √ e−(x−µ) /2σ
σ σ σ 2π
och µ ¶
x−µ
FX (x) = Φ .
σ

Bevis. Vi har
µ ¶
X −µ x−µ
FX (x) = P (X ≤ x) = P ≤
σ σ
µ ¶ µ ¶
x−µ x−µ
=P Z≤ =Φ .
σ σ
¡ ¢
Derivation ger fX (x) = σ1 ϕ x−µ
σ
. 2
6.1. Normalfördelningen 31

Sats 6.2 Om X är N (µ, σ)-fördelad så gäller


E(X) = µ och V (X) = σ 2 .

Bevis. Vi ska nu se hur listig vår definition är!


X = σZ + µ
E(X) = σE(Z) + µ = 0 + µ = µ
V (X) = σ 2 V (Z) + 0 = σ 2 .
2

Sats 6.3 Låt X vara N (µ, σ)-fördelad och sätt Y = aX + b. Då gäller det att
Y är N (aµ + b, |a|σ)-fördelad.

Bevis. Från definitionen följer att X = µ + σZ där Z är N (0, 1)-fördelad.


Detta ger
Y = aX + b = a(µ + σZ) + b = aµ + b + aσZ
Y − (aµ + b)
= Z.

Om a > 0 följer satsen. Om a < 0 utnyttjar vi att Z och −Z har samma
fördelning. 2

Sats 6.4 Om X är N (µX , σX )-fördelad, Y är N (µY , σY )-fördelad och X och
Y är oberoende så gäller att
µ q ¶
2 2
X + Y är N µX + µY , σX + σY -fördelad

och µ q ¶
2
X − Y är N µX − µY , σX + σY2 -fördelad.

Denna sats tycks inte kunna bevisas på annat sätt än genom faltning.

Sats 6.5 Låt X1 , . . . , Xn vara oberoende och N (µ1 , σ1 ), . . . , N (µn , σn ). Då gäller
att  v 
n n u n
X X uX
ck Xk är N  c k µk , t c2k σk2  -fördelad.
k=1 k=1 k=1

Allmän regel : Linjärkombinationer av oberoende normalfördelade stokastiska


variabler är normalfördelade med rätt väntevärde och rätt standardavvikelse.

Följdsats 6.1 Låt X1 , X2 , . . . , Xn vara oberoende och N (µ, σ)-fördelade s.v.


Då gäller att µ ¶
σ
X är N µ, √ -fördelad.
n
32 Föreläsning 6

6.2 Centrala gränsvärdessatsen

Vi har sett några exempel på att normalfördelningen har trevliga statistiska
egenskaper. Detta skulle vi inte ha så stor glädje av, om normalfördelningen
inte dessutom var vanligt förekommande. Centrala gränsvärdessatsen CGS,
som är den huvudsakliga motiveringen för normalfördelningen, kan utan vidare
sägas vara ett av sannolikhetsteorins och statistikens allra viktigaste resultat.

Sats 6.6 (CGS) Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med
väntevärde µ och standardavvikelse σ. Då gäller att
µPn ¶
i=1 Xi − nµ
P √ ≤ x → Φ(x) då n → ∞.
σ n

Ofta uttrycker man slutsatsen i CGS som att


Pn
i=1 Xi − nµ
√ är approximativt N (0, 1)-fördelad
σ n
eller att n
X ¡ √ ¢
Xi är approximativt N nµ, σ n -fördelad.
i=1

En, för statistiken mycket vanlig användning av CGS är följande:

Följdsats 6.2 Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde
µ och standardavvikelse σ. Då gäller att
µ ¶ µ ¶
b−µ a−µ
P (a < X ≤ b) ≈ Φ √ −Φ √
σ/ n σ/ n
om n är tillräckligt stort.

Det är tyvärr inte möjligt att ge några generella och enkla tumregler om hur
stort n måste vara för att normalapproximationen ska vara användbar. Detta
beror på hur ”normalliknande” de enskilda variablerna Xk är. Om Xk na är
normalfördelade så ”gäller” ju CGS för alla n. En tumregel är att om Xk na
är någorlunda symmetriskt fördelade så räcker ganska små n, säg något tiotal.
Om Xk na är påtagligt skevt fördelade så behöver n var något eller i värsta fall
några hundratal.
Det är svårt att formulera strikt, men det räcker i CGS att Xk na är någorlunda
oberoende och någorlunda lika fördelade. Med ”någorlunda lika fördelade”
menas framförallt att det inte finns vissa Xk som är mycket dominerande.
Detta innebär att mätfel i välgjorda försök kan anses vara approximativt nor-
malfördelade. I mindre välgjorda försök kan det däremot mycket väl finnas
någon dominerande felkälla som inte alls behöver vara approximativt nor-
malfördelad.
Föreläsning 7

7.1 Binomialfördelningen och dess släktingar

Vi påminner om urnmodellerna. Vi hade en urna med kulor av två slag: v vita


och s svarta. Vi drog n kulor ur urnan slumpmässigt.
Sätt A = ”Man får k vita kulor i urvalet”.
Dragning utan återläggning:
¡v ¢¡ s
¢
k n−k
P (A) = ¡v+s¢ .
n

Dragning med återläggning:


µ ¶µ ¶k µ ¶n−k
n v s
P (A) = .
k v+s v+s

Hypergeometrisk fördelning
Antag att vi har N enheter, där proportionen p, dvs N p stycken, har egenska-
pen A. Drag ett slumpmässigt urval om n stycken enheter. Sätt
X = antalet enheter i urvalet med egenskapen A.
I termer av urnmodellen för dragning utan återläggning gäller N p = v och
N (1 − p) = s om A = ”vit kula”. Således fås
¡N p¢¡N (1−p)¢
k
pX (k) = P (X = k) = ¡Nn−k
¢ ,
n

för 0 ≤ k ≤ N p och 0 ≤ n − k ≤ N (1 − p).


Man säger att X är Hyp(N, n, p)-fördelad.
Man kan visa att
N −n
E(X) = np och V (X) = np(1 − p).
N −1

33
34 Föreläsning 7

Vi skall återkomma något till detta.


Binomialfördelningen
Antag att vi gör ett försök där en händelse A, med sannolikheten p = P (A),
kan inträffa. Vi upprepar försöken n gånger, där försöken är oberoende. Sätt
X = antalet gånger som A inträffar i de n försöken.
Vi säger då att X är binomialfördelad med parametrarna n och p, eller kortare
att X är Bin(n, p)-fördelad.
Vi har µ ¶
n k n−k
pX (k) = p q , för k = 0, . . . , n,
k
där q = 1 − p.
Låt U1 , . . . , Un vara s.v. definierade av
(
0 om A∗ inträffar i försök nummer i,
Ui =
1 om A inträffar i försök nummer i.

Lite eftertanke ger att U1 , . . . , Un är oberoende och att


X = U1 + . . . + Un .
Då
E(Ui ) = 0 · (1 − p) + 1 · p = p
och
V (U1 ) = E(Ui2 ) − E(Ui )2 = E(Ui ) − E(Ui )2 = p − p2 = p(1 − p)
så följer
E(X) = nE(Ui ) = np och V (X) = nV (Ui ) = npq.
Diskutera motsv. för den hypergeometriska fördelningen.
Poissonfördelningen

Definition 7.1 En diskret s.v. X säges vara Poissonfördelad med parameter


µ, Po(µ)-fördelad, om
µk −µ
pX (k) = e , för k = 0, 1 . . . .
k!

Vi påminner om att om X är Po(µ)-fördelad, så gäller


E(X) = µ och V (X) = µ.
Poissonfördelningen är den viktigaste diskreta fördelningen, och har t.ex. följande
trevliga egenskap.
7.2. Approximationer 35

Sats 7.1 Om X och Y vara oberoende Po(µX )- resp. Po(µY )-fördelade s.v.
Då gäller att X + Y är Po(µX + µY )-fördelad.

Bevis.
k
X k
X (k−i)
µi X µY
P (X + Y = k) = P (X = i)P (Y = k − i) = e−µX e−µY
i=0 i=0
i! (k − i)!

Xk (k−i)
µiX µY
= e−(µX +µY )
i=0
i!(k − i)!
k µ ¶µ ¶i µ ¶(k−i)
−(µX +µY ) (µX + µY )k X k µX µY
=e .
k! i µ X + µ Y µ X + µ Y
|i=0 {z }
= 1, jmf. Bin-förd.
2

7.2 Approximationer

Hyp(N, n, p)
Om n/N är någolunda liten, så verkar det troligt att det inte spelar så stor
roll om vi drar med återläggning eller ej.
Vi har
¡N p¢¡N (1−p)¢
k N p! N (1 − p)! n!(N − n)!
¡Nn−k
¢ =
n
k!(N p − k)! (n − k)![N (1 − p) − (n − k)]! N!

n! N p!(N (1 − p)!(N − n)!


=
k!(n − k)! (N p − k)![N (1 − p) − (n − k)]!N !
µ ¶
n! (N p)k (N (1 − p))n−k n k n−k
≈ = p q .
k!(n − k)! Nn k
2

Sats 7.2 Om X är Hyp(N, n, p)-fördelad med n/N ≤ 0.1 så är X approxima-
tivt Bin(n, p)-fördelad.

Bin(n, p)
Av Xs representation som en summa följer att CGS kan tillämpas.

Sats 7.3 Om X är Bin(n, p)-fördelad med npq ≥ 10 så är X approximativt

N (np, npq)-fördelad.
36 Föreläsning 7

Detta innebär att ) µ ¶


P (X ≤ k) k − np
≈Φ √ .
P (X < k) npq
Med halvkorrektion menas att vi använder följande approximation:
µ ¶
k + 21 − np
P (X ≤ k) ≈ Φ √ ,
npq
µ ¶
k − 12 − np
P (X < k) ≈ Φ √ .
npq

Trots att halvkorrektionen påtagligt kan höja noggrannheten, tar vi rätt lätt
på den.

Av detta följer att Hyp(N, n, p) ≈ N (np, npq) om n/N ≤ 0.1 och npq ≥ 10.
Det räcker dock att kräva N −n
N −1
np(1 − p) ≥ 10.
Vi införde ju Poissonfördelningen som en approximation av binomialfördel-
ningen. Detta kan vi formalisera till följande sats.

Sats 7.4 Om X är Bin(n, p)-fördelad med p ≤ 0.1 så är X approximativt
Po(np)-fördelad.

I vår approximation antog vi även att n var stor. Detta är inte nödvändigt,
men vårt enkla resonemang fungerar inte utan denna extra förutsättning. Man
kan visa att om X är Bin(n, p) och Y är Po(np) så gäller att

|P (X = k) − P (Y = k)| ≤ np2 .

Po(µ)
Om bägga villkoren p ≤ 0.1 och npq ≥ 10 är uppfyllda kan vi välja om vi vill
Poissonapproximera eller normalapproximera. Detta är ingen motsägelse, som
följande sats visar.

Sats 7.5 Om X är Po(µ)-fördelad med µ ≥ 15 så är X approximativt



N (µ, µ)-fördelad.
7.2. Approximationer 37

Sammanfattning

npq≥10
z}|{ √
≈ N (np, npq)
n/N ≤0.1
z}|{
Hyp(N, n, p) ≈ Bin(n, p)
N −n
N −1
np(1−p)≥10 p≤0.1 µ≥15
z}|{ z}|{ z}|{ √
≈ ≈ Po( np ) ≈ N (µ, µ)
|{z}


N (np, npq)
38 Föreläsning 7
Föreläsning 8

8.1 Punktskattning

Exempel
På en laboration vill man bestämma den fysikaliska konstanten µ. Vi gör upp-
repade mätningar av µ och erhåller följande mätvärden:
x1 , x 2 , . . . , x n

Problem
Hur skall vi skatta µ så bra som möjligt.
Modell
Vi uppfattar mätvärdena som utfall av n st. oberoende och lika fördelade s.v.
X1 , X2 , . . . , Xn med E(Xi ) = µ och V (Xi ) = σ 2 .
En punktskatting µ∗obs av µ är en funktion av mätvärdena: µ∗ (x1 , . . . , xn ).
När vill vill analysera en skatting ersätter vi observationerna med de un-
derliggande stokastiska variablerna. Vi säger då att µ∗ = µ∗ (X1 , . . . , Xn ) är
en stickprovsvariabel. Stickprovsvariabeln är själv en stokastisk variabel, vars
fördelning beror av fördelningen för X1 , X2 , . . . , Xn och därmed av µ.
Om viP inte använder någon statistisk teori så väljer vi antagligen µ∗obs =
1
x = n xi . För motsvarande stickprovsvariabel X gäller att E(X) = µ och
V (X) = σ 2 /n.
Allmänt
Vi har en uppsättning data
x1 , x 2 , . . . , x n
som ses som utfall av s.v.
X1 , X2 , . . . , Xn .
Dessa variabler antages vara oberoende och likafördelade och deras gemensam-
ma fördelning beror av en okänd parameter θ, t.ex. N (θ, σ), Po(θ), N (θ1 , θ2 ),
osv.

En punktskatting θobs av θ är en funktion θ∗ (x1 , . . . , xn ) och motsvarande stick-
provsvariabel θ∗ är θ∗ (X1 , . . . , Xn )

39
40 Föreläsning 8

Vad menas med en bra skattning?

Definition 8.1


1) En punktskattning θobs av θ är väntevärdesriktig om

E(θ (X1 , . . . , Xn )) = θ.

2) En punktskattning θobs av θ är konsistent om

P (|θ (X1 , . . . , Xn ) − θ| > ε) → 0 då n → ∞.
∗ ∗∗
3) Om θobs och θobs är väntevärdesriktiga skattningar av θ så säger man att
∗ ∗∗
θobs är effektivare än θobs om V (θ∗ (X1 , . . . , Xn )) < V (θ∗∗ (X1 , . . . , Xn )).

Skattning av väntevärdet µ

1
Pn
Sats 8.1 Stickprovsmedelvärdet x = n i=1 xi som skattning av väntevärdet
µ är

1) Väntevärdesriktig;

2) Konsistent;

3) Ej nödvändigtvis effektiv, dvs. den effektivaste möjliga skattningen.

Bevis.
1) E(X) = µ.
2) V (X) = σ 2 /n och stora talens lag gäller.
3) Motexempel: Låt Xi vara U (0, 2µ), dvs,
(
1

om x ∈ (0, 2µ),
fX (x) =
0 annars.

µ2
Då gäller E(X) = µ och V (X) = 3n
.
(Om Y är U (a, b) så gäller V (Y ) = (b − a)2 /12.
Betrakta
n+1
µ∗ = max Xi .
2n 1≤i≤n
Då gäller
∗ µ2 ∗ µ2
E(µ ) = µ och V (µ ) = ≤ .
n(n + 2) 3n
8.1. Punktskattning 41

För att visa detta sätter vi Y = max1≤i≤n Xi . Då fås




0 om x ≤ 0,
xn
FY (x) = (2µ) n om x ∈ (0, 2µ),


1 om x ≤ 0,

eller (
nxn−1
(2µ)n
om x ∈ (0, 2µ),
fY (x) =
0 annars.
Detta ger Z 2µ
nxn n
E(Y ) = n
dx = 2µ
0 (2µ) n+1
Z 2µ
nxn+1 n
E(Y 2 ) = n
dx = (2µ)2
0 (2µ) n + 2
µ ¶
n n2 n
V (Y ) = − 2
(2µ)2 = 2
(2µ)2 .
n + 2 (n + 1) (n + 2)(n + 1)
Detta ger
n+1 n
E(µ∗ ) = · · 2µ = µ
2n n+1
och µ ¶2
∗ n+1 1 µ2
V (µ ) = V (Y ) = (2µ)2 = .
2n 4n(n + 2) n(n + 2)
2
Skattning av σ 2

1
Pn
Sats 8.2 Stickprovsvariansen s2 = n−1 i=1 (xi − x)2 som skattning av σ 2 är

1) Väntevärdesriktig;

2) Konsistent;

3) Ej nödvändigtvis effektiv.

1) används ofta som motivering för att man dividerar med n − 1, men det är
en dålig motivering, eftersom man oftast vill skatta σ. s som skattning av σ är
dock ej väntevärdesriktig.
Maximum-likelihood-metoden
Vi ska nu studera en systematisk metod att hitta skattningar. Idén är att
skatta θ så att utfallet blir så ”troligt” som möjligt.
Antag att Xi har täthetsfunktionen f (x, θ), θ okänd.
42 Föreläsning 8

Definition 8.2
L(θ) = f (x1 , θ) · · · · · f (xn , θ)
kallas L-funktionen.

(För diskreta fallet hänvisas till boken.)


Definition 8.3 Det värde θobs för vilket L(θ) antar sitt största värde kallas
ML-skattningen av θ.

För stora stickprov är denna skattning i allmänhet mycket bra.


Exempel
Xi är N (θ, σ), dvs.
1 1 x−θ 2
f (x, θ) = √ e− 2 ( σ ) .
σ 2π
Vi observerar x1 , . . . , xn . Då fås
1 P xi −θ 2
1( σ )
− 21 n
L(θ) = e
σ n (2π)n/2
n
1 X
log L(θ) = − log(σ n (2π)n/2 ) − (xi − θ)2
2σ 2 1
n
d log L(θ) 1 X
= 2 2(xi − θ).
dθ 2σ 1
d log L(θ) Pn ∗

= 0 ger 1 xi = nθ, dvs. θobs = x.

I detta fall är θobs effektiv !
Minsta-kvadrat-metoden
Om vi inte känner fördelningen helt kan inte ML-metoden användas. Ibland
ger den även svåra matematiska problem. Man kan då gå tillväga på följande
sätt:
Låt x1 , . . . , xn vara ett stickprov från en fördelning med E(X) = µ(θ) där µ(θ)
är en känd funktion av en okänd parameter θ.
P
Sätt Q(θ) = ni=1 (xi − µ(θ))2 och minimera Q(θ) map. θ. Lösningen θobs ∗
till
detta problem kallas MK-skattningen av θ.
Föreläsning 9

9.1 Intervallskattning

Exempel
Vi återgår till vår fysikaliska konstant µ, dvs. vi uppfattar mätvärdena som
utfall av n st. oberoende och lika fördelade s.v. X1 , X2 , . . . , Xn med E(Xi ) = µ
och V (Xi ) = σ 2 .
Oftast är vi inte nöjda med att ange X, utan vi vill ha en uppfattning om
precisionen i skattningen. Visserligen vet vi att
σ
E(X) = µ och D(X) = √ ,
n

men vi vill ha en mera informativ och lättbegriplig beskrivning av precisionen


av vårt uttalande. Vi leds då till begreppet konfidensintervall.

Definition 9.1 Låt x1 , x2 , . . . , xn vara utfall av X1 , X2 , . . . , Xn vars fördelning


beror av en okänd parameter θ. Intervallet

Iθ = (a1 (x1 , . . . , xn ), a2 (x1 , . . . , xn ))

kallas ett konfidensintervall för θ med konfidensgrad 1 − α om

P (a1 (X1 , . . . , Xn ) < θ < a2 (X1 , . . . , Xn )) = 1 − α.

Ett stickprov, konfidensintervall för µ


Normalfördelning
a) σ känt
Vi antar nu att våra mätningar kommer från en normalfördelning, dvs. att
X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade.
Detta innebär att
X−µ
√ är N (0, 1)-fördelad.
σ/ n

43
44 Föreläsning 9

Således gäller att


µ ¶
X−µ
P −λα/2 < √ < λα/2 = 1 − α.
σ/ n

Rita figur och påminn om att λα/2 !


Detta ger µ ¶
X−µ
P −λα/2 < √ < λα/2 = 1 − α.
σ/ n
m
¡ √ √ ¢
P −λα/2 σ/ n < X − µ < λα/2 σ/ n = 1 − α
m
¡ √ √ ¢
P −λα/2 σ/ n < µ − X < λα/2 σ/ n = 1 − α
m
¡ √ √ ¢
P X − λα/2 σ/ n < µ < X + λα/2 σ/ n = 1 − α.
Jmf. vi definitionen av konfidensintervall så inser vi att

Iµ = x ± λα/2 σ/ n

har konfidensgrad 1 − α. En vanlig konfidensgrad är 95%. Då är λ0.025 = 1.96.
b) σ okänt
Vi utgår nu från
X−µ
√ ,
S/ n
där
n
2 1 X
S = (Xi − X)2 .
n − 1 i=1
Man kan beräkna fördelningen för denna variabel.
Man säger att
X−µ

S/ n
är t-fördelad med n − 1 frihetsgrader, eller att den är t(n − 1)-fördelad.
t-fördelningen finns tabulerad. Fördelning är symmetrisk, och för stora värden
på n, lik N (0, 1)-fördelningen. Vi återkommer till t-fördelningen.
På samma sätt som i a) fås nu att

Iµ = x ± tα/2 (n − 1)s/ n

är ett konfidensintervall för µ med konfidensgrad 1 − α.


9.1. Intervallskattning 45

I fallet med n = 10 gäller t0.025 (9) = 2.26, vilket kan jämföras med λ0.025 = 1.96.
Ett stickprov, konfidensintervall för σ
Vi ska börja med ett par sannolikhetsteoretiska resultat.

Definition 9.2 Om Z1 , . . . , Zn är oberoende och N (0, 1)-fördelade, så är


n
X
Zi2
i=1

χ2 (n)-fördelad.

Sats 9.1 Om X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade så är


n
1 X 2 (n − 1)S 2
(Xi − X) =
σ 2 i=1 σ2

χ2 (n − 1)-fördelad.

Detta är den ”riktiga” motiveringen till att man i s2 dividerar med n − 1.
Vi är nu i en lite besvärligare situation än för µ, eftersom χ2 -fördelningen
inte är symmetrisk. I normal- respektive t-fallet utnyttjade vi att symmetrin
medförde att λ1−α = −λα resp. t1−α (n − 1) = −tα (n − 1).
Låt nu χ2α (n − 1) vara α-kvantilen i χ2 (n − 1)-fördelningen. Då gäller

µ ¶
(n − 1)S 2
P χ21−α/2 (n − 1) < 2
< χα/2 (n − 1) = 1 − α
σ2
m
à !
χ21−α/2 (n − 1) S2 χ2α/2 (n − 1)
P < 2 < =1−α
n−1 σ n−1

m
à !
n−1 σ2 n−1
P 2
< 2
< 2 =1−α
χα/2 (n − 1) S χ1−α/2 (n − 1)

m
à !
(n − 1)S 2 2 (n − 1)S 2
P < σ < =1−α
χ2α/2 (n − 1) χ21−α/2 (n − 1)

m
46 Föreläsning 9

Ãs s !
(n − 1)S 2 (n − 1)S 2
P <σ< = 1 − α.
χ2α/2 (n − 1) χ21−α/2 (n − 1)
Detta ger att à !
(n − 1)s2 (n − 1)s2
Iσ2 = ,
χ2α/2 (n − 1) χ21−α/2 (n − 1)
resp. Ãs s !
(n − 1)s2 (n − 1)s2
Iσ = ,
χ2α/2 (n − 1) χ21−α/2 (n − 1)

är konfidensintervall för σ 2 resp. σ med konfidensgrad 1 − α.


t-fördelningen
Vi återgår nu lite till t-fördelningen.

Definition 9.3 Om X är N (0, 1)-fördelad, Y är χ2 (f )-fördelad, och X och Y


är oberoende, så är
X
p
Y /f
t(f )-fördelad.

Sats 9.2 Om X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade så är X och
S 2 oberoende.

Denna sats karakteriserar normalfördelningen! Den är således inte sann för
någon annan fördelning.
Av detta följer nu att r
X−µ X − µ . S2
√ = √
S/ n σ/ n σ2
är t(n − 1)-fördelad.
Två stickprov, konfidensintervall för skillnad mellan väntevärden.
Normalfördelning
Modell:
X1 , X2 , . . . , Xn1 är N (µ1 , σ1 ) (stickprov 1)
Y1 , Y2 , . . . , Yn2 är N (µ2 , σ2 ) (stickprov 2)
där alla Xen och Y na är oberoende.
a) σ1 och σ2 kända
Vi vill nu skaffa oss ett konfidensintervall för µ1 − µ2 . En naturlig skattning
av µ1 − µ2 är X − Y . Eftersom den är en linjärkombination av oberoende
9.1. Intervallskattning 47

normalfördelade variabler, så gäller att

(X − Y ) − (µ1 − µ2 )
q 2
σ1 σ2
n1
+ n22

är N (0, 1)-fördelad. Av detta leds vi till


s
σ12 σ22
Iµ1 −µ2 = x − y ± λα/2 + .
n1 n2

Om σ1 = σ2 = σ reduceras detta till att

(X − Y ) − (µ1 − µ2 )
q
σ n11 + n12

är N (0, 1)-fördelad och


r
1 1
Iµ1 −µ2 = x − y ± λα/2 σ + .
n1 n2

b) σ1 = σ2 = σ okänd
Vi betraktar nu fallet då σ1 = σ2 = σ, men där σ är okänd. Detta skattas med
s där s2 är den sammanvägda stickprovsvariansen.
Man kan visa att man skall välja

(n1 − 1)s21 + (n2 − 1)s22


s2 =
n1 + n2 − 2
och att
(X − Y ) − (µ1 − µ2 )
q
S n11 + n12

är t(n1 + n2 − 2)-fördelad.


Vi får r
1 1
Iµ1 −µ2 = x − y ± tα/2 (n1 + n2 − 2)s + .
n1 n2

Stickprov i par
Exempel
På ett bryggeri gör man varje dag analyser av alkoholhalten i öl. Dessa ana-
lyser utförs av två kemister A och B. Man vill undersöka om det finns någon
systematisk skillnad mellan As och Bs mätningar. Varje dag, under n dagar
låter man A och B, oberoende av varandra, analysera samma prov.
48 Föreläsning 9

Vi leds då till följande modell:

X1 , X2 , . . . , Xn är N (µi , σA ) (As analyser)


Y1 , Y2 , . . . , Yn är N (µi + ∆, σB ) (Bs analyser)

där alla Xen och Y na är oberoende. Vi menar här att Xi är N (µi , σA )-fördelad
och att Yi är N (µi + ∆, σB )-fördelad.
Knepet är nu att bilda
Zi = Yi − Xi
som är N (∆, σ)-fördelad, med
µ q ¶
σ = σA2 + σA2 .

Vi har nu återfört problemet till fallet med ett stickprov, och kan ge konfi-
densintervall eller genomföra test för ∆ på samma sätt som vi gjorde för µ,
dvs. √
I∆ = z ± λα/2 σ/ n
om σ känd och √
I∆ = z ± tα/2 (n − 1)s/ n
om σ okänd, där
n
2 1 X
s = (zi − z)2 .
n − 1 i=1

Approximativa konfidensintervall
Ett stickprov, konfidensintervall för µ
Modell: X1 , X2 , . . . , Xn antages vara oberoende och likafördelade s.v. med
E(Xi ) = µ och V (Xi ) = σ 2 .
Om n är någolunda stort, så gäller enligt CGS att

X−µ
√ är approximativt N (0, 1)-fördelad,
σ/ n

och helt analogt med normalfördelningsfallet får vi att




Iµ = x ± λα/2 σobs / n

har approximativ konfidensgrad 1 − α. Här förutsättes σobs vara en bra skatt-
ning av σ, vanligen s.
För fallet med två stickprov, där nu σ1 = σ2 ej behöver antas, hänvisar vi till
Blom m.fl. 12.4.
9.1. Intervallskattning 49

Binomialfördelning
Antag nu att vi observerar ett utfall x av en s.v. X som är Bin(n, p)-fördelad,
där p är okänt. En naturlig skattning av p är
x
p∗obs = .
n
Då gäller, om np(1 − p) ≥ 10, och det kan vi anta om np∗obs (1 − p∗obs ) ≥ 10
”med lite råge”, att
p∗ − p
p
p(1 − p)/n
är approximativt N (0, 1)-fördelad. Här är en viktig skillnad från tidigare,
nämligen att väntevärde och varians inte är ”fria” parametrar. Det enklas-
te, och förmodligen det vanligaste, är att man skattar variansen med hjälp av
p∗obs , och således leds man till det approximativa konfidensintervallet
q

Ip = pobs ± λα/2 p∗obs (1 − p∗obs )/n .
50 Föreläsning 9
Föreläsning 10

10.1 Hypotesprövning

Låt oss börja i den allmänna situationen, dvs.:


Vi har en uppsättning data x1 , x2 , . . . , xn som ses som utfall av s.v.

X1 , X2 , . . . , Xn .
Dessa variabler antages vara oberoende och likafördelade och deras gemensam-
ma fördelning beror av en okänd parameter θ.
En hypotes om verkligheten är i detta sammanhang en mängd av θ-värden.
Formaliserat betyder detta att vi vill testa en nollhypotes
H0 : θ ∈ H0
mot ett alternativ (eller en mothypotes)
H1 : θ ∈ H1 .

Eftersom detta blir lite abstrakt, så exemplifierar vi steg för steg med fallet då
X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade där µ och σ är okända.
Exempel
H 0 : µ = µ0
mot
H1 : µ 6= µ0 .

Att testa H0 är detsamma som att avgöra om våra data är ”förenliga” med
H0 . Om H0 ej är sann vill vi förkasta H0 till förmån för H1 . Vi bildar därför
en teststorhet T = T (x1 , . . . , xn ) och ett kritiskt område C. (För ögonblicket
bekymrar vi oss inte för hur T och C lämpligen bildas.)
Test: Förkasta H0 om T ∈ C.
I praktiken bestäms T av situationen och C av signifikansnivån (eller felrisken)
α:
signifikansnivån = α ≥ P (H0 förkastas om H0 sann)

51
52 Föreläsning 10

= P (T (X1 , . . . , Xn ) ∈ C om H0 sann).
Med risknivån garderar vi oss således mot felet att förkasta H0 då H0 är sann.
Vi bör välja H0 så att detta är det allvarligase felet. Det andra möjliga felet
är att ej förkasta H0 då H0 är falsk. Vi bildar styrkefunktionen

h(θ) = P (H0 förkasta) om θ är det sanna värdet.

För θ ∈ H0 gäller således att h(θ) ≤ α. Ett test är ”bra” om h(θ) är stor då
θ ∈ H1 .
Vi håller oss tills vidare till exemplet.
Här verkar det rimligt att utgå från

X − µ0
T (X1 , . . . , Xn ) = √ ,
s/ n

som under H0 är t(n − 1)-fördelad, och att förkasta H0 om |T (x1 , . . . , xn )| är
för stor.
Vi får då
α = P (|T (X1 , . . . , Xn )| > c om H0 sann),
vilket ger c = tα/2 (n − 1).
Vi kan nu binda ihop hypotesprövning med konfidensintervall, genom att kon-
statera att testet är exakt detsamma som följande:
Bilda ett konfidensintervall Iµ och förkasta H0 om

Iµ 63 µ0 .

Detta verkar ju högst rimligt. Iµ ger ju de ”troliga” värdena på µ, och om the
hypotetiska värdet inte hör dit, så bör ju H0 förkastas.
Om vi förkastar H0 säger vi att ”µ är signifikant skilt från µ0 . Ordet signifikant
är egentligen inte så bra, eftersom det ofta tolkas som att skillnaden är ”viktig”,
men det betyder i själva verket endast ett ”skillnaden förmodligen inte är
slumpmässig”.
En god regel, om vi är intresserade av µs eventuella avvikelse från µ0 , är att
först göra en hypotesprövning. Om µ är signifikant skilt från µ0 , kan vi ta detta
som ”alibi” för att diskutera storleken på avvikelsen. Detta görs lämpligen
genom att vi betraktar Iµ . På detta sätt minskar vi risken för att göra en ”stor
sak” av rent slumpmässig skillnad.
10.2. χ2 -test 53

Ensidiga test
Vi betraktar nu följande situation:

H 0 : µ = µ0

mot
H1 : µ > µ0 (resp. µ < µ0 ).
Låt oss anta att stort värde på µ är en önskad egenskap. Det kan vara naturligt
att vi gör en åtgärd, t.ex. köper någon ny utrustning, som bör öka värdet på
µ. Det är naturligt att vi endast vill köpa denna nya utrustning om vi är
någolunda säkra på att den verkligen ger ett högre värde på µ än µ0
Det är då naturligt att testa

H 0 : µ = µ0

mot
H1 : µ > µ0 .
Testet blir då att vi förkastar H0 om T (x1 , . . . , xn ) är för stor, eller mera precist
om √
T > tα (n − 1) eller om x̄ > µ0 + tα (n − 1)s/ n.
Tolkningen är att vi kräver, för att förkasta H0 , att x̄ är tillräckligt mycket
större än µ0 för att det inte ska vara troligt att skillnaden är slumpmässig.
Det är egentligen inte en statistisk fråga hur man skall välja H1 . Ofta kan det
vara enklare att titta på testet, för att övertyga sig att man ”garderar” sig åt
”rätt håll”. Viktigt är dock att man bestämmer sig innan man har studerat
data, för annars blir signifikansnivån fel.
Grundregeln är dock att det vi vill påstå skall sättas som H1 , eftersom vi bara
kan dra två slutsatser av ett test:
”H0 förkastas ej”, vilket inte betyder att vi visat att den är sann;
”H0 förkastas”.
Givetvis skulle vi mycket väl kunna vilja påstå att µ = µ0 , och då skulle vi
ju vilja testa H0 : µ 6= µ0 mot H1 : µ = µ0 . Detta går inte, eftersom inga
observationer i världen skulle kunna få oss att förkasta detta H0 .
Den som gör ett test, ”vill” därför ofta att H0 ska förkastas. Det är nog detta
som gör att begreppet signifikant misstolkas.

10.2 χ2-test

χ2 -testet är ett så kallat ”goodness of fit”-test.


54 Föreläsning 10

Vi börjar med den enklaste situationen:


Ett försök kan utfalla på r olika sätt: A1 , A2 , . . . , Ar . Låt x1 , x2 , . . . , xr vara
antalet gånger som alternativen A1 , A2 , . . . , Ar förkommer i n försök.
P
Låt p1 , p2 , . . . , pr vara givna sannolikheter, dvs ri=1 pi = 1. Vi vill testa

H0 : P (Ai ) = pi för i = 1, . . . , r

mot
H1 : ej alla P (Ai ) = pi .
För att göra detta bildar vi
r
X (xi − npi )2
Qobs = .
i=1
npi

Man kan visa att Q är approximativt χ2 (r − 1)-fördelad under H0 . (Vi tillåter
oss här att slarva lite med s.v. och dess utfall.)
För att göra resultatet troligt, betraktar vi r = 2. Då gäller, med X = X1 och
p = p1 att

(X1 − np1 )2 (X2 − np2 )2 (X − np)2 (n − X − n(1 − p))2


Q= + = +
np1 np2 np n(1 − p)

(X − np)2 (X − np))2 (X − np)2


= + = .
np n(1 − p) np(1 − p)
Eftersom X är Bin(n, p) så gäller att √X−np är appr. N (0, 1). Således följer
np(1−p)
(X−np)2
att np(1−p)
är appr. χ2 (1).
Vi gör nu följande test:
Förkasta H0 om Qobs > χ2α (r − 1).
Ofta vill vi låta sannolikheterna p1 , p2 , . . . , pr bero av en okänd parameter
θ = (θ1 , . . . , θs ), och testa hypotesen

H0 : P (Ai ) = pi (θ), för i = 1, . . . , r,

och för något värde på θ.


Skattar vi θ med ML-metoden, och bildar
Xr ∗
(xi − npi (θobs ))2
Qobs = ∗
,
i=1
npi (θobs )

så är Q approximativt χ2 (r − s − 1)-fördelad under H0 .


Detta resultat kallas ibland för stora χ2 -satsen.
10.2. χ2 -test 55

Grundregeln är att antalet frihetsgrader fås av

antalet fria kvadratsummor − antalet skattade parametrar.

En vanlig tillämpning är att vi vill testa om ett stickprov kommer från en viss
fördelning, eller en viss klass av fördelningar. Man klassindelar då observatio-
nerna, t.ex. enl följande:

A1 = [g1 , g2 ), A2 = [g2 , g3 ), . . . , Ar = [gr , gr+1 ),

där man kan ha g1 = −∞ och/eller gr+1 = ∞.


Fördelen med χ2 -testet är att man kan skatta okända parametrar, nackdelen
är att klassindelningen ger viss subjektivitet.

En vanlig tumregel är att kräva att alla npi eller npi (θobs ) är större än 5.
Homogenitetstest
Vi återgår nu till exemplet i början, med ett försök som kan utfalla på r
olika sätt: A1 , A2 , . . . , Ar . Antag nu att vi har s försöksserier om n1 , . . . , ns
försök vardera. Låt xij vara antalet gånger som alternativet Aj förkommer i
ite försöksserien.

Serie Antal observationer av Antal försök


A1 A2 . . . Ar

1 x11 x12 . . . x1r n1


2 x21 x22 . . . x2r n2
.. .. ..
. . .
s xs1 xs2 . . . xsr ns

Vi anser att serierna är homogena om hypotesen

H0 : P (Ai ) = pi , för i = 1, . . . , r i alla serierna.

För att testa H0 bildar vi

Xs X r
(xij − ni p∗j )2
Qobs = ∗
,
i=1 j=1
n i pj

där Ps
xij
p∗j = (p∗j )obs = Pi=1
s .
i=1 ni

Man kan visa att Q är approximativt χ2 ((r − 1)(s − 1))-fördelad under H0 .
56 Föreläsning 10

Frihetsgraderna fås på följande sätt:

antalet fria kvadratsummor − antalet skattade parametrar

= s · (r − 1) − (r − 1) = (r − 1)(s − 1).

Oberoendetest
Vi tar nu ett stickprov om n enheter, där varje enhet klassifiseras efter två
egenskaper, A och B. Vi kan skriva detta i en kontingenstabell, lik den tabell
vi hade i hogenitetstestet.

Egenskap A1 A2 . . . Ar Total

B1 x11 x12 . . . x1r x1·


B2 x21 x22 . . . x2r x2·
.. .. ..
. . .
Bs xs1 xs2 . . . xsr xs·

Total x·1 x·2 . . . x·r n

Vi vill nu testa hypotesen

H0 : P (Aj ∩ Bi ) = P (Aj )P (Bi ), för alla i och j.

För att testa H0 bildar vi


Xs X r
(xij − np∗i· p∗·j )2
Q= ,
i=1 j=1
np∗i· p∗·j

där
xi· x·j
p∗i· = (p∗i· )obs = och p∗·j = (p∗·j )obs = .
n n

Man kan även här visa att Q är approximativt χ2 ((r−1)(s−1))-fördelad under
H0 .
Frihetsgraderna fås på följande sätt:

antalet fria kvadratsummor − antalet skattade parametrar

= (sr − 1) − [(r − 1) + (s − 1)] = sr − r − s + 1 = (r − 1)(s − 1).


OBSERVERA! Även om homogenitetstestet och kontingenstabellen numeriskt
och statistiskt är lika, så är det olika test.
Föreläsning 11

11.1 Regressionsanalys

Exempel
Vi vill undersöka hur en termometer mäter temperatur. Vi prövar därför ter-
mometern i vätskor med olika temperaturer x1 , . . . , xn . Dessa temperaturer
anser vi helt kända. Motsvarande mätvärden y1 , . . . , yn antar vi är ungefär
en linjär funktion av den verkliga temperaturen: yk ≈ α + βxk . Som vanligt
uppfattas mätvärdena y1 , . . . , yn som utfall av s.v. Y1 , . . . , Yn .
Modell:
Yk = α + βxk + εk ,
där ε1 , . . . , εn är oberoende och εk är N (0, σ)-fördelad. Observera att σ förutsätts
att ej bero av x, vilket ofta är det kritiska antagandet.
Det är vanligt att modellen skrivs på formen
Yk = α0 + β(xk − x) + εk ,
dvs. α ersätts med α0 − βx.
Vi skattar parametrarna α och β med Minsta-Kvadratmetoden, dvs. vi mini-
merar n
X
Q(α, β) = (yi − α − βxi )2
i=1
∗ ∗
m.a.p. α och β. De värden αobs och βobs som ger minimum kallas MK-skattningarna
av α och β.
Vi får nu:
X n
∂Q
= −2 (yi − α − βxi ) = −2n(y − α − βx)
∂α i=1
X n
∂Q
= −2 xi (yi − α − βxi ).
∂β i=1

Sätter vi derivatorna = 0, så fås av första ekvationen


α = y − βx,

57
58 Föreläsning 11

vilket insatt i andra ekv. ger


n
X n
X
0= xi (yi − y − β(xi − x)) = (xi − x)(yi − y − β(xi − x)).
i=1 i=1

Sätter vi ihop detta så får vi


Pn
(x − x)(yi − y)

αobs =y− ∗
βobs x och ∗
βobs Pn i
= i=1 2
.
i=1 (xi − x)

σ 2 skattas med
Q0
s2 = ,
n−2
där
n
X
∗ ∗ ∗ ∗
Q0 = Q(αobs , βobs ) = (yi − αobs − βobs xi )2 .
i=1

Linjen
∗ ∗
y = αobs + βobs x.
kallas den skattade regressionslinjen.
Eftersom både α∗ och β ∗ är linjära funktioner i Y -variablerna, kom ihåg att
xen är givna tal, så är de normalfördelade.

Sats 11.1 Vi har


µ ¶
∗ ∗ 21 x2
E(α ) = α V (α ) = σ + Pn 2
n i=1 (xi − x)
σ2
E(β ∗ ) = β V (β ∗ ) = Pn 2
.
i=1 (xi − x)

Skattningarna α∗ och β ∗ är normalfördelade.


Vidare gäller att, här betyder Q0 stickprovsvariabeln Q(α∗ , β ∗ ),

Q0 (n − 2)S 2
=
σ2 σ2
är χ2 (n − 2)-fördelad och att S 2 är oberoende av α∗ och β ∗ .

Detta gör att vi kan konstruera konfidensintervall och test som förut, både
då σ är känt och okänt. För att inte behöva skriva alla intervall två gånger så
betraktar vi fallet då σ är okänd. Eftersom α nu förekommer som en parameter,
så ger vi konfidensintervall med konfidensgrad 95%. Metoden är definiera ett
θ och sedan bilda

Iθ = θobs ± t0.025 (n − 2)d(θ∗ ),
där d(θ∗ ) är skattningen av D(θ∗ ).
11.1. Regressionsanalys 59

θ = α + βx = α0
σ2
Vi har V (θ∗ ) = V (Y − β ∗ x + β ∗ x) = V (Y ) = n
, vilket ger
r
1
Iα+βx = y ± t0.025 (n − 2)s .
n

Man kan visa att Y och β ∗ är oberoende, vilket är skälet till att modellen ofta
skrivs på formen med α0 .
θ=β
2
Vi har V (β ∗ ) = Pn σ 2, vilket ger
i=1 i −x)
(x

∗ s
Iβ = βobs ± t0.025 (n − 2) pPn .
(x − x)2
i=1 i

θ = α + βx0 = α0 + β(x0 − x)

Vi har V (α∗ + β ∗ x0 ) = V (Y + β ∗ (x0 − x)) = V (Y ) + (x0 − x)2 V (β ∗ ) =


2 σ2
σ2
n
+ P(xn0 −x)
(xi −x)2
, vilket ger
i=1

s
∗ ∗ 1 (x0 − x)2
Iα+β(x0 −x) = αobs + βobs (x0 − x) ± t0.025 (n − 2)s + Pn 2
.
n i=1 (xi − x)

You might also like