Sanstat KTH

Föreläsningsanteckningar i
Matematisk Statistik
Jan Grandell
2
Förord
Dessa anteckningar gjordes för mitt privata bruk av föreläsningsmanuskript

och har aldrig varit tänkta att användas som kursmaterial. Jag kan därför
inte ta något ansvar för eventuella fel och eventuella konsekvenser av dessa på
tentan.
Jan Grandell
i
ii Kapitel 0. Förord
Några beteckningar i
Matematisk Statistik
Grundläggande sannolikhetsteori
ω utfall av ett slumpförsök
Ω utfallsrummet
∅ tomma mängden, omöjliga händelsen
A, Ak , B, . . . händelser
∩ snitt; A ∩ B = A och B inträffar
∪ union; A ∪ B = A och/eller B inträffar, minst en av A eller B inträffar
A∗ komplementet till A, A inträffar ej
P (A) sannolikheten för A
P (B | A) sannolikheten för B betingat av att A inträffat
Stokastiska variabler
X, Xk , Y, . . . stokastiska variabler
x, xk , y, . . . utfall av stokastiska variabler
FX (x) = P (X ≤ x) fördelningsfunktion
fX (x) täthetsfunktion (för en kontinuerlig s.v.)
pX (x) = P (X = k) sannolikhetsfunktion (för en diskret s.v.)
µ = µX = E(X) väntevärde, förväntat värde
σ 2 = σX 2
= V (X) varians
σ = σX = D(X) standardavvikelse
C(X, Y ) kovariansen mellan X och Y
ρ = ρ(X, Y ) korrelationskoefficienten mellan X och Y
Statistik
x1 , x2 , . . . , xn utfall av X1 , X2 , . . . , Xn
θ parameter
∗
θobs = θ∗ (x1 , . . . , xn ) punktskattning
θ∗ = θ∗ (X1 , . . . , Xn ) stickprovsvariabel
x̄ stickprovsmedelvärde
s2 stickprovsvarians
Iθ konfidensintervall för θ
λα , tα (f ), χ2α (f ) α-kvantiler för normal-, t- resp. χ2 -fördelningarna
H0 nollhypotes
H1 alternativ hypotes, mothypotes
iii
iv Kapitel 0. Några beteckningar i Matematisk Statistik
Innehåll
Förord i
Några beteckningar i Matematisk Statistik iii
Föreläsning 1 1
1.1 Inledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Grundläggande sannolikhetsteori . . . . . . . . . . . . . . . . . 2
Föreläsning 2 7
2.1 Betingad sannolikhet . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Oberoende händelser . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Stokastiska variabler . . . . . . . . . . . . . . . . . . . . . . . . 11
Föreläsning 3 13
3.1 Stokastiska variabler . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Flerdimensionella stokastiska variabler . . . . . . . . . . . . . . 16
4.1 Funktioner av stokastiska variabler . . . . . . . . . . . . . . . . 19
4.2 Väntevärden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.1 Kovarians och korrelationskoefficient . . . . . . . . . . . . . . . 25
5.2 Mer om väntevärden . . . . . . . . . . . . . . . . . . . . . . . . 26
6.1 Normalfördelningen . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2 Centrala gränsvärdessatsen . . . . . . . . . . . . . . . . . . . . . 32
7.1 Binomialfördelningen och dess släktingar . . . . . . . . . . . . . 33
7.2 Approximationer . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.1 Punktskattning . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1 Intervallskattning . . . . . . . . . . . . . . . . . . . . . . . . . . 43
v
vi Innehåll
10.1 Hypotesprövning . . . . . . . . . . . . . . . . . . . . . . . . . . 51
10.2 χ2 -test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
11.1 Regressionsanalys . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Föreläsning 1
1.1 Inledning
Vi ska först ge några exempel på situationer där matematisk statistik kommer
in på ett naturligt och viktigt sätt
Sannolikhetsteori:
Sannolikhetsteori handlar om att göra modeller för verkligheten.
Exempel (S)
Man vill dimensionera trafikljussystemet på en genomfartsled med angränsan-
de tvärgator i en stad. Hur långa grön-röd faser ska man ha för att minimera
risken för allt för besvärande köbildning i rusningstrafik? Biltrafik är underkas-
tad slumpmässiga fluktuationer. Vi måste formulera någon slags slumpmodell.
Hur skall den se ut?
Exempel (D)
Man vill dimensionera ett datasystem på ett företag. Hur ska man göra detta,
under en given kostnadsram, för att minimera risken för allt för besvärande
köbildning i rusningstrafik? Datatrafik är underkastad slumpmässiga fluktua-
tioner. Vi måste formulera någon slags slumpmodell. Hur skall den se ut?
Statistik:
Många tänker nog på tabeller när de hör ordet ”statistik”. Vi menar dock med
statistik läran om hur man från observationer eller analyser under osäkerhet
drar slutsatser och beskriver dessa slutsatser på ett korrekt sätt.
Exempel Låt oss säga att vi vill mäta halten av ett ämne i en kemisk förening.
Hur skall vi göra detta? Det är en kemisk fråga som inte jag tänker gå in på.
Hur vi ska analysera resultaten är däremot en statistisk fråga!
Vi kan t.ex. ha 2000 enheter som vi är intresserade av. Detta är vår population,
och det är bara dom enheterna som intresserar oss. Det är alldeles för mycket
arbete att analysera alla enheterna! Det naturliga är att göra ett urval av dessa,
eller – som man brukar säga – ta ett stickprov. Med ett stickprov menar vi i
regel en uppsättning analysdata. Hur ska vi välja stickprovet, och hur kan man
1
2 Föreläsning 1
från resultatet av analysen av stickprovet dra slutsatser om populationen?

En lite annan situation är om vi vill undersöka en produktionsmetod. Vi har då
ingen naturlig population, eller om man så vill, så kan vi tala om en oändlig
population. Vårt ”stickprov” ersätts då av att vi väljer några enheter, och
analyserar dessa. Man kan tänka sig att vi låter framställa ett visst antal, och
ur dessa gör ett urval. Skillnaden med fallet ovan är att vi nu inte vill uttala
oss om det tillverkade antalet – populationen – utan om ”alla” enheter. Ett
naturligare synsätt att se på saken är att vi uppfattar de enskilda analyserna
som resultatet av ett slumpförsök.
1.2 Grundläggande sannolikhetsteori
Händelser
Vi betraktar nu ett slumpförsök.
Definition 1.1 Varje möjligt resultat ω av ett slumpförsök kallas ett utfall,
eller en elementarhändelse.
Definition 1.2 Mängden av alla utfall, eller resultat, kallar vi utfallsrummet

och betecknar det med Ω.
Definition 1.3 En händelse A är en mängd av utfall, dvs en delmängd av Ω,

A ⊂ Ω.
Låt oss nu anta att vi är intresserade av två händelser A och B definierade
på samma försök. Här är några exempel på vad som kan inträffa, och hur vi
matematiskt kan uttrycka detta:
”A inträffar”, A
”A och B inträffar” eller ”A snitt B inträffar”, A ∩ B

”A eller B inträffar” eller ”A union B inträffar”, A ∪ B
Obs! A ∪ B betyder att minst en av A eller B inträffar, så A ∩ B kan mycket
väl inträffa. I matematik betyder ”eller” och/eller!
”A inträffar inte”, A∗ .
Om A och B utesluter varandra, dvs. omöjligt kan inträffa samtidigt, så säger
vi att A och B är disjunkta eller oförenliga, dvs. A ∩ B = ∅ där ∅ är ”tomma
mängden” eller ”den omöjliga händelsen”.
1.2. Grundläggande sannolikhetsteori 3
Har vi många händelser kan vi, precis som med summa- och produkt-tecken,
använda ett förkortat skrivsätt:
n
[ n
\
Ai = A1 ∪ A2 ∪ . . . ∪ An och Ai = A1 ∩ A2 ∩ . . . ∩ An
1 1
Låt oss säga att vi kastar en tärning, och är intresserade av händelsen
{vi får en sexa}.
Alla håller nog med om att, om det är en just tärning, att den sannolikheten
är 16 . Symboliskt kan vi skriva
1
A = {vi får en sexa} och P (A) = .
6
Är det överhuvudtaget meningsfullt att tala om sannolikheter, och om så är
fallet, hur skall man tolka dessa?
Vi skall tolka detta som att om man kastar tärningen många gånger, så blir
den relativa frekvensen 6or ungefär 16 . Allmänt sett, om vi har ett försök och
en händelse A och gör försöket n gånger, så gäller
antalet gånger A inträffar

fn (A) = → P (A) då n växer.
n
Vad är nu en sannolikhet?

Kolmogorovs axiomsystem (1933):
Ett sannolikhetsmått P är en funktion av händelser, sådan att:
(a) 0 ≤ P (A) ≤ 1;
(b) P (Ω) = 1;
(c) om A1 , A2 , . . . är disjunkta händelser, så gäller

µ[
∞ ¶ ∞
X
P Ai = P (Ai ).
1 1
(a) och (b) kan ses som en kalibrering så att P stämmer med intuitionen (det
blir lättare då) och (c) (som är det ”viktiga” axiomet) betyder att P är ett
mått.
Sats 1.1 P (A∗ ) = 1 − P (A).

4 Föreläsning 1
Bevis. Vi ska ge ett mycket formellt bevis, för att illustrera axiomsystemet:
Eftersom A och A∗ disjunkta och A ∪ A∗ = Ω, så fås
P (A) + P (A∗ ) = P (Ω) = 1 ⇒ P (A∗ ) = 1 − P (A).
Sats 1.2 P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Bevis. Satsen följer med hjälp av Venn-diagram, och observationen att

P (A) + P (B) ”mäter” A ∩ B två gånger. 2
Den klassiska sannolikhetsdefinitionen
Antag att Ω består av m (möjliga) elementarhändelser ω1 , . . . , ωm , var och en
med samma sannolikhet att inträffa, dvs
1
P (ωk ) = k = 1, . . . , m.
m
Betrakta en händelse A, A ⊂ Ω. Antag att A innehåller g (gynnsamma) ele-
mentarhändelser. Då gäller
g
P (A) = .
m
Problemt med den klassiska sannolikhetsdefinitionen, i mera komplicerade si-
tuationer, är att hitta en uppdelning av Ω i lika sannolika elementarhändelser
och att beräkna m och g. I många – de flesta – situationer är det inte alls
möjligt att göra detta.
För att beräkna m och g behöver vi några kombinatoriska grundbegrepp:
n st. föremål kan permuteras eller ordnas på
n! = n · (n − 1) . . . 2 · 1
olika sätt.
Det finns µ ¶
n n!
=
k k!(n − k)!
olika sätt att plocka ut k st. av dessa om vi ej tar hänsyn till i vilken ordning
de plockas ut.
Det finns nk olika sätt att plocka ut k st. av dessa om varje föremål som har
plockats ut stoppas tillbaka och om vi tar hänsyn till i vilken ordning de plockas
ut.
1.2. Grundläggande sannolikhetsteori 5
Två urnmodeller
Dragning utan återläggning
I en urna finns kulor av två slag: v vita och s svarta. Drag n kulor ur urnan
slumpmässigt och så att en kula som dragits inte stoppas tillbaka. dvs dragning
utan återläggning.
Sätt A = ”Man får k vita kulor i urvalet”.
Välj Ω: Alla uppsättningar om n kulor utan hänsyn till ordning.
Då fås: µ ¶ µ ¶µ ¶
v+s v s
m= och g =
n k n−k
och således ¡v ¢¡ s
¢
k n−k
P (A) = ¡v+s¢ .
n
Dragning med återläggning

Samma modell som i fallet med dragning utan återläggning, men kulorna stop-
pas tillbaka igen efter det att man observerat dess färg, och urnan skakas om
för nästa dragning.
Välj Ω: Alla uppsättningar om n kulor med hänsyn till ordning:
m = (v + s)n .
¡n¢
Antag att vi valt ut k vita och n − k svarta kulor. Dessa kan placeras på k
platser:
v v v ······ v
Antal sätt att välja ut k vita = v k . Antal sätt att välja ut n − k svarta = sn−k .
¡ ¢
Detta ger g = nk v k sn−k och således får vi
¡ n¢ µ ¶µ ¶k µ ¶n−k
v k sn−k
k n v s
P (A) = = .
(v + s)n k v+s v+s
6 Föreläsning 1
Föreläsning 2
2.1 Betingad sannolikhet
Vi påminner om relativa frekvensers stabilitet:

Om vi har ett försök och en händelse A och gör försöket n gånger, så gäller

fn (A) = → P (A) då n växer.
antalet försök
Låt A och B vara två händelser, dvs A, B ⊂ Ω. Vad är P (B | A), dvs sanno-
likheten för B då vi vet att A har inträffat?
Det borde gälla att
P (B | A)
antalet gånger A ∩ B inträffar
≈
antalet gånger A ∩ B inträffar antalet försök
= ·
antalet försök antalet gånger A inträffar
P (A ∩ B)
≈ .
P (A)
Detta leder oss till följande definition.
Definition 2.1 Låt A och B vara två händelser. Antag att P (A) > 0. Sanno-
likheten för B betingat av A betecknas med P (B | A) och definieras som
P (A ∩ B)
P (B | A) = .
P (A)
Exempel (Kast med röd och vit tärning)

A = summan av ögonen är högst 4.
Bk = vita tärningen visar k ögon.
P (Bk | A) = 0 om k ≥ 4.
7
8 Föreläsning 2
Möjliga utfall, m, är 36: (v, r), v, r = 1, . . . 6, dvs (1, 1), (1, 2), . . . (6, 6).
Gynnsamma utfall för A, är 6: (1,1), (1,2), (1,3), (2,1), (2,2), (3,1).
Gynnsamma utfall för A ∩ Bk , är 4 − k: (v, r), v = k, r = 1, . . . 4 − k,
dvs (k, 1), (k, 2), . . . (k, 4 − k) om k < 4.
Klassiska sannolikhetsdefinitionen ger
6 4−k
P (A) = och P (A ∩ Bk ) = .
36 36
Detta ger, för k < 4,

3 = 1
k=1
4 − k  62 2
1
P (Bk | A) = = 6= k=2
6 
1
3
6
k = 3.
Ofta är det lättare att ange värden till betingade sannolikheter än till obeting-
ade, och vi utnyttar definitionen ”baklänges”.
Exempel
En ohederlig person har två tärningar, en äkta och en falsk som alltid ger 6
ögon. Han väljer slumpmässigt den ena. Vad är sannolikheten för 5 resp. 6 ögon.
Låt oss betrakta fallet med sex ögon. Intiuitivt bör gälla att sannolikheten är
1 1 1 1 6 7
· + ·1= + = .
2 6 2 12 12 12
Mera systematiskt gäller följande sats
Sats 2.1 (Lagen om total sannolikhet)

Om H1 , . . . , Hn är disjunkta händelser, har positiv sannolikhet och uppfyller
hela Ω, så gäller för varje händelse A ⊂ Ω att
n
X
P (A) = P (Hi )P (A | Hi ).
i=1
Bevis. Vi har
P (A) = P (A ∩ Ω) = P (A ∩ (H1 ∪ . . . ∪ Hn )) = P ((A ∩ H1 ) ∪ . . . ∪ (A ∩ Hn ))

n
X n
X
= P (A ∩ Hi ) = P (Hi )P (A | Hi ).
i=1 i=1
2
Vi ska nu ge en viktig sats om ”vändning” av händelserna i betingade sanno-
likheter.
2.2. Oberoende händelser 9
Sats 2.2 (Bayes’ sats) Under samma villkor som i lagen om total sannolik-
het gäller
P (Hi )P (A | Hi )
P (Hi | A) = Pn .
j=1 P (Hj )P (A | Hj )
Bevis.
P (Hi ∩ A) P (Hi ∩ A) P (Hi ) P (Hi )
P (Hi | A) = = · = P (A | Hi ) · .
P (A) P (Hi ) P (A) P (A)
Lagen om total sannolikhet tillämpad på P (A) ger resultatet. 2
Låt oss gå tillbaka till exemplet om falskspelaren. Sätt
A = 6 ögon.
H1 = äkta tärningen.
H2 = falska tärningen.
Då gäller
1 1 1 7
P (A) = P (H1 )P (A | H1 ) + P (H2 )P (A | H2 ) = · + ·1= ,
2 6 2 12
som i exemplet. Bayes’ sats ger vidare
P (H1 ∩ A) P (H1 ) 1 1 12 1
P (H1 | A) = = P (A | H1 ) · = =
P (A) P (A) 62 7 7
och
P (H2 ∩ A) P (H2 ) 1 12 6
P (H2 | A) = = P (A | H2 ) · =1· =
P (A) P (A) 2 7 7
vilket kanske inte är lika lätt att inse rent intiuitivt.
2.2 Oberoende händelser
Intiuitivt är två händelser A och B oberoende om inträffandet av A inte ger

någon information om huruvida B inträffar eller ej. I formler betyder detta
P (B | A) = P (B).
Allmänt gäller ju
P (A ∩ B)
P (B | A) = , om P (A) > 0.
P (A)
Multiplikation med P (A) leder oss till följande definition:
Definition 2.2 Två händelser A och B är oberoende om
P (A ∩ B) = P (A)P (B).
10 Föreläsning 2
Definitionen ovan kräver inget villkor om positiva sannolikheter.

Det är inte självklart hur oberoende skall definieras för flera händelser.
Definition 2.3 Tre händelser A, B och C är oberoende om
P (A ∩ B) = P (A)P (B)
P (A ∩ C) = P (A)P (C)
P (B ∩ C) = P (B)P (C)
P (A ∩ B ∩ C) = P (A)P (B)P (C).
Endast P (A ∩ B ∩ C) = P (A)P (B)P (C) räcker inte, vilket inses om vi sätter

A = B och C = ∅.
Inte heller räcker parvis oberoende, vilket ses av följande exempel:
Kast med röd och vit tärning:
A = vita tärningen visar jämnt antal ögon.
B = röda tärningen visar jämnt antal ögon.
C = jämn ögonsumma.
A och B är oberoende av ”försöksskäl”. Vidare gäller
1 1
P (A ∩ C) = P (A ∩ B) = P (A)P (B) = och P (A)P (C) = .
4 4
Således är A och C oberoende. Pss. följer att B och C är oberoende.
Eftersom A∩B ⇒ C vore det inte rimligt att anse att A, B och C är oberoende.
Allmänt: Oavsett vilka händelser vi plockar ut så skall sannolikheten för snittet
vara produkten av sannolikheterna.
Man kan visa att om A1 , . . . , An är oberoende, så är även A∗1 , . . . , A∗n oberoende.
Detta kan verka helt självklart, med är inte helt lätt att visa. Vi nöjer oss med
fallet n = 2.
Vi har
P (A∗ ∩ B ∗ ) = P ((A ∪ B)∗ ) = 1 − P (A ∪ B)
= 1 − P (A) − P (B) + P (A)P (B) = 1 − P (A) − P (B)(1 − P (A))
= (1 − P (A))(1 − P (B)) = P (A∗ )P (B ∗ ).
Sn
Sats 2.3 Låt händelserna A1 , . . . , An vara oberoende. Sätt B = 1 Ai , dvs.
minst en av händelserna A1 , . . . , An inträffar. Då gäller
P (B) = 1 − (1 − P (A1 ))(1 − P (A2 )) . . . (1 − P (An )).

2.3. Stokastiska variabler 11
Bevis.
Ãn ! n n
\ Y Y
∗
P (B) = 1 − P (B ) = 1 − P A∗i =1− P (A∗i ) =1− (1 − P (Ai )).
1 1 1
2.3 Stokastiska variabler
I nästan alla situationer som vi betraktar, kommer resultaten av slumpförsöken

att vara tal, kontinerliga mätvärden eller antal. Det är praktiskt att anpassa
beteckningarna till detta.
Definition 2.4 En stokastisk variabel s.v. (eller en slumpvariabel) X är en

funktion från Ω till reella linjen.
Lite löst kommer vi att uppfatta X som en beteckning för resultatet av ett
slumpförsök.
För ett tärningskast kan X anta ett av värdena 1, 2, 3, 4, 5 eller 6.
Låt X vara en stokastisk variabel. Det mest allmänna sättet att beskriva X,
dvs. hur X varierar, är att ange dess fördelningsfunktion.
Definition 2.5 Fördelningsfunktionen FX (x) till en s.v. X definieras av
FX (x) = P (X ≤ x).
En fördelningsfunktion FX (x) har följande egenskaper:
1) FX (x) är icke-avtagande;
2) FX (x) → 1 då x → ∞;
3) FX (x) → 0 då x → −∞;
4) FX (x) är högerkontinuerlig.

Föreläsning 3
3.1 Stokastiska variabler
Det är lämpligt att skilja på fallen då vår stokastiska variabel representerar
kontinuerliga mätvärden eller antal.
Diskret stokastisk variabel
Vi ska nu betrakta fallet med antal.
Definition 3.1 En s.v. X säges vara diskret om den kan anta ett ändligt eller
uppräkneligt oändligt antal olika värden.
Det viktiga är att de möjliga värdena ligger i en ändlig eller högst uppräknelig
mängd. Oftast tar en diskret s.v. icke-negativa heltalsvärden ”räknar ett an-
tal”. Vi kommer att förutsätta detta, om vi inte explicit säger något annat.
Definition 3.2 För en diskret s.v. definieras sannolikhetsfunktionen pX (k)

av
pX (k) = P (X = k).
Om X beskriver ett tärningskast gäller således

(
1
för k = 1, 2, 3, 4, 5, 6
pX (k) = 6
0 för övriga värden på k.
Gör vi nu slumpförsöket att på måfå dra en av 6 lappar med talen 1, 2, 3, 4,

5 eller 6, så får vi samma s.v. som i tärningskasten.
Relationen mellan sannolikhetsfunktionen och fördelningsfunktionen för en dis-
kret stokastisk variabel fås av sambanden
X
FX (x) = pX (j), där [x] betyder heltalsdelen av x,
j≤[x]
och ¡ ¢
pX (k) = FX (k) − FX (k − 1) = FX (k + 21 ) − FX (k − 12 ) .
13
Det följer av detta att

∞
X
pX (k) ≥ 0 och pX (k) = 1.
0
Binomialfördelningen
Låt oss betrakta fallet ”dragning med återläggning”, och låt X vara antalet
v
vita kulor i urvalet om n kulor. Sätt p = v+s , dvs. p är sannolikheten för en
vit kula. Då fås
µ ¶
n k
pX (k) = p (1 − p)n−k , för k = 0, 1, . . . , n.
k
Nu är det inte alls nödvändigt att p är ett rationellt tal, utan vi kan allmännt
betrakta ett försök där en händelse A med p = P (A) kan inträffa, och låta
X vara antaltet gånger som A inträffar i n oberoende upprepningar av detta
försök.
Definition 3.3 En diskret s.v. X säges vara binomialfördelad med paramet-

rarna n och p, Bin(n, p)-fördelad, om
µ ¶
n k
pX (k) = p (1 − p)n−k , för k = 0, 1, . . . , n.
k
Poissonfördelningen
Ofta när det är rimligt att anta att en s.v. X är Bin(n, p)-fördelad, så är det
även rimligt att anta att p är liten och att n är stor. Låt oss anta att p = µ/n,
där n är ”stor” men µ är ”lagom”. Då gäller
µ ¶
n k n−k n(n − 1) . . . (n − k + 1) ³ µ ´k ³ µ ´n−k
pX (k) = p (1 − p) = 1−
k k! n n
µk ³ µ ´n n(n − 1) . . . (n − k + 1) ³ µ ´−k µk −µ
= 1− k
1 − ≈ e .
k! | {zn }| n
{z }| {zn } k!
≈ e−µ ≈1 ≈1
Definition 3.4 En diskret s.v. X säges vara Poissonfördelad med parameter

µ, Po(µ)-fördelad, om
µk −µ
pX (k) = e , för k = 0, 1, 2 . . . .
k!
Kontinuerlig stokastisk variabel

Här kan vi tyvärr inte ge definitionen i termer av den stokastiska variabeln
själv. Det räcker inte att säga att X kan ta ett överuppräneligt antal värden.
Vi får därför ge definitionen i termer av fördelningsfunktionen, som ju är den
allmännaste beskrivningen av en s.v.
3.1. Stokastiska variabler 15
Definition 3.5 En s.v. X säges vara kontinuerlig om dess fördelningsfunktion

har framställningen Z x
FX (x) = fX (t) dt
−∞
för någon funktion fX (x). Funktionen fX (x) kallas täthetsfunktionen för X.
Omvänt gäller att fX (x) = FX0 (x).

Täthetsfunktionen och sannolikhetsfunktionen kommer ofta att uppträda ”pa-
rallellt”.
Täthetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, för
små värden på h,
Z x+h
P (x < X ≤ x + h) = FX (x + h) − FX (x) = fX (t) dt ≈ h fX (x).
x
Ett par begrepp:
Definition 3.6 Lösningen till ekvationen 1 − FX (x) = α kallas α-kvantilen

till X och betecknas med xα .
Rita figur!
x0.5 kallas för medianen och är således det värde som överskrides med samma
sannolikhet som det underskrides.
Likformig fördelning U (a, b)
(
1
b−a
för a ≤ x ≤ b,
fX (x) =
0 annars.


0 för x ≤ a,
x−a
FX (x) = för a ≤ x ≤ b,


b−a
1 för x ≥ b.
Rita figur!
Exponentialfördelningen Exp(λ)
(
λ e−λx för x ≥ 0,
fX (x) =
0 för x < 0.
(
1 − e−λx för x ≥ 0,
FX (x) =
0 för x < 0.
Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett
enkelt exempel:
Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa
gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara
tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter
x tidsenheter.
P (X > x) = (1 − p)nx ty nx personer har gått förbi.
Låt oss anta precis som då vi ”härledde” Poissonfördelningen, att p = µ/n,
där n är ”stor” men µ är ”lagom”. Då gäller
µ nx
P (X > x) = (1 − p)nx = (1 − ) ≈ e−µx .
n
Detta ger att FX (x) = 1 − P (X > x) ≈ 1 − e−µx , dvs X är approximativt
Exp(µ). Observera att väntevärdet (ännu ej definierat, men det kommer) är
1/µ!
Normalfördelningen.
1 2 2
fX (x) = √ e−(x−µ) /2σ
σ 2π
där µ godtycklig konstant och σ > 0.
Denna fördelning är mycket viktig, och vi skall återkomma till den. Man kan
inte analytiskt ge fördelningsfunktionen, vilket kan tyckas lite taskigt.
3.2 Flerdimensionella stokastiska variabler
Ofta mäter vi i samma slumpförsök flera storheter, och då beskrivs resultatet
av en n-dimensionell stokastisk variabel (X1 , X2 , . . . , Xn ).
Exempel
Slumpförsöket är att vi väljer en person slumpmässigt här i rummet, och sätter
X = personens vikt;
Y = personens längd.
Vi nöjer oss med att ge detaljer i det två-dimensionella fallet. Låt (X,Y) vara
en två-dimensionell s.v.
3.2. Flerdimensionella stokastiska variabler 17
FX,Y (x, y) = P (X ≤ x, Y ≤ y) kallas (den simultana) fördelningsfunktionen

för (X, Y ).
FX (x) = P (X ≤ x) = P (X ≤ x, Y ≤ ∞) = FX,Y (x, ∞) kallas den marginella
fördelningsfunktionen för X.
FY (y) = FX,Y (∞, y) kallas den marginella fördelningsfunktionen för Y .
Definition 3.7 X och Y är oberoende stokastiska variabler om
FX,Y (x, y) = FX (x)FY (y)
Vi kommer ihåg att för händelser så var det inte helt lätt att generlisera till
godtyckligt antal. För s.v. är det dock skenbart enklare.
Definition 3.8 (X1 , X2 , . . . , Xn ) är oberoende stokastiska variabler om
FX1 ,...,Xn (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )
= FX1 (x1 ) · · · FXn (xn ).
Kommentera!
Omvänt gäller att om X1 , X2 , . . . , Xn är oberoende s.v. så fås den simultana
fördelningen enl. definitionen ovan.
Föreläsning 4
4.1 Funktioner av stokastiska variabler
Största och minsta värdets fördelning

Låt X1 , X2 , . . . , Xn vara oberoende s.v. med resp. fördelningsfunktioner
FX1 (x1 ), . . . , FXn (xn ).
Sätt
Y = max(X1 , X2 , . . . , Xn )
Z = min(X1 , X2 , . . . , Xn ).
Vi har
FY (y) = P (Y ≤ y) = P (alla Xi ≤ y) = FX1 (y) · · · FXn (y)
och
FZ (z) = P (min(X1 , X2 , . . . , Xn ) ≤ z)
= 1 − P (min(X1 , X2 , . . . , Xn ) > z) = 1 − P (alla Xi > z)
= 1 − P (X1 > z) · · · P (Xn > z) = 1 − (1 − FX1 (z)) · · · (1 − FXn (z)).
Summans fördelning
Låt X och Y vara två oberoende kontinuerliga stokastiska variabler med tätheter
fX (x) och fY (y).
Sätt Z = X + Y . Då gäller
FZ (z) = P (X + Y ≤ z) = P ((X, Y ) ∈ {(x, y); x + y ≤ z})

Z
= fX (x)fY (y) dx dy
x+y≤z
(fixera x och integrera över y)

Z ∞ µZ z−x ¶
= fX (x) fY (y) dy dx
−∞ −∞
19
Z ∞
= fX (x)FY (z − x) dx.
−∞
Z är också en kontinuerlig stokastisk variabel. Derivation map. z ger

Z ∞
0
fZ (z) = FZ (z) = fX (x)fY (z − x) dx.
−∞
Denna operation kallas faltning.
4.2 Väntevärden
Vi ska nu införa begreppet väntevärde för en s.v. Detta är den teoretiska
motsvarigveten till begreppet medelvärde för en talföljd.
Antag att vi har en lång talföljd x1 , . . . , xn , där talen är ganska små heltal.
Medelvärdet definierades av
n
1X
x̄ = xk .
n k=1
Det kan vara bekvämt att göra omskrivningen

∞
X
x̄ = i · fi ,
i=0
där
antalet {k; xk = i}
fi = .
n
När vi diskuterade tolkningen av begreppet sannolikhet, så sa vi att
→ P (A) då n växer.
n
För diskreta s.v. gäller då att fk → pX (k) då k → ∞. Vi leds av detta till
följande definition:
Definition 4.1 Väntevärdet µ för en s.v. X är

(P
∞
kpX (k) i diskreta fallet,
µ = E(X) = R ∞k=0
−∞
xfX (x) dx i kontinuerliga fallet.
Vi skall alltid anta att

∞
X Z ∞
|k|pX (k) < ∞ och |x|fX (x) dx < ∞.
k=0 −∞
4.2. Väntevärden 21
Väntevärdet ger samma information och samma brist på information för den
s.v. som melelvärdet ger för en talföljd.
Låt oss tänka på tärningskast igen. Hur mycket skulle ni vara villiga att betala
för följande spel: Jag kastar en tärning, och ni får lika många kronor som det
blir ögon?
Vi har (
1
6
för k = 1, 2, 3, 4, 5, 6
pX (k) =
0 för övriga värden på k,
vilket ger
∞
X X6
1
E(X) = kpX (k) = k = 3.5.
k=0 k=1
6
µk −µ
pX (k) = e , för k = 1, 2 . . . .
k!
∞
X ∞ ∞
µk −µ X µk −µ X µk
E(X) = k· e = k· e = e−µ
k=0
k! k=1
k! k=1
(k − 1)!
X∞ X∞
µk−1 −µ µi −µ
=µ e =µ e = µ.
k=1
(k − 1)! i=0
i!
Exponentialfördelningen
(
λ e−λx för x ≥ 0,
fX (x) =
0 för x < 0.
 
Z ∞ Z ∞ y = λx
E(X) = xfX (x) dx = xλ e−λx dx =  x = y/λ 
−∞ 0 dx = dy/λ
Z ∞ Z ∞
1 1£ ¤∞ 1 1 £ −y ¤∞ 1
= ye−y dy = −ye−y 0 + e−y dy = 0 − e 0 = .
λ 0 λ λ 0 λ λ
Antag att vi känner förd. för X, och vill beräkna E(Y ) där Y = g(X).
Följande, skenbart oskyldiga, sats är ordentligt svår att bevisa i det kontinu-
erliga fallet
Sats 4.1 Väntevärdet för g(X) är

(P
∞
g(k)pX (k) i diskreta fallet,
E(g(X)) = R ∞k=0
−∞
g(x)fX (x) dx i kontinuerliga fallet.
Bevis. Blom m.fl. visar satsen i det diskreta fallet, så vi betraktar det konti-
nuerliga fallet. Vi begränsar oss dock till fallet då g är strikt växande. Denna
begränsning förenklar beviset högst avsevärt.
Låt g −1 (x) vara inversen till g. Då gäller
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y))
vilket ger
dFX (g −1 (y)) dg −1 (y) dg −1 (y)

fY (y) = = dFX0 (g −1 (y)) = fX (g −1 (y)) .
dy dy dy
Av detta fås Z ∞
dg −1 (y)
E(Y ) = yfX (g −1 (y)) dy
−∞ dy
 
x = g −1 (y) Z ∞
−1 (y)
= dx = dy dy  =
dg
g(x)fX (x) dx.
−∞
y = g(x)
2
Från denna sats följer bl.a. följande:
E(h(X) + g(X)) = E(h(X)) + E(g(X))
med det viktiga specialfallet
E(aX + b) = aE(X) + b.
Spridningsmått
Väntevärdet säger ingen om hur X varierar.
Diskutera
|X − µ| och (X − µ)2
och dess egenskaper!
Vi leds nu till följande definition.
Definition 4.2 Variansen σ 2 för en s.v. X är
σ 2 = V (X) = E[(X − µ)2 ].
Följande räkneregel är mycket användbar:
Sats 4.2 V (X) = E(X 2 ) − [E(X)]2 = E(X 2 ) − µ2 .

4.2. Väntevärden 23
Bevis.
V (X) = E[(X − µ)2 ] = E[X 2 + µ2 − 2µX]
= E[X 2 ] + µ2 − 2µE[X] = E(X 2 ) − µ2 .
2
21
I exemplet med tärningsspel har vi µ = 3.5 = 6
. Vidare har vi
∞
X 6
X
2 2 1 91
E(X ) = k pX (k) = k2 = = 15.16
k=−∞ k=1
6 6
Enligt räkneregeln fås

µ ¶2
91 21 546 − 441
V (X) = − = = 2.92.
6 6 36
Sats 4.3 V (aX + b) = a2 V (X).
Bevis.
V (aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aµ − b)2 ]
= E[(aX − aµ)2 ] = a2 E[(X − µ)2 ] = a2 V (X).

2
Definition 4.3 Standardavvikelsen σ för en s.v. X är

p
σ = D(X) = V (X).
Sats 4.4 D(aX + b) = |a|D(X).
Allmänt gäller:
D – rätt sort.
V – lättare att räkna med.
Exponentialfördelningen.
Z ∞ Z ∞
2 2 −λx 1 2
E(X ) = x λe dx = 2 y 2 e−y dy = part. int. = 2
0 λ 0 λ
⇔
2 1 1 1
V (X) = 2
− 2 = 2 ⇔ D(X) = .
λ λ λ λ
∞
X ∞
µk −µ X µk −µ
E(X(X − 1)) = k(k − 1) · e = k(k − 1) · e
k=0
k! k=2
k!
∞
X X∞ X∞
µk −µ 2 µk−2 −µ 2 µi −µ
= e =µ e =µ e = µ2 .
k=2
(k − 2)! k=2
(k − 2)! i=0
i!
Detta ger µ2 = E(X(X − 1)) = E(X 2 ) − µ, eller E(X 2 ) = µ2 + µ, vilket ger
V (X) = E(X 2 ) − µ2 = µ2 + µ − µ2 = µ.
Föreläsning 5
5.1 Kovarians och korrelationskoefficient
Låt (X, Y ) vara en tvådimensionell s.v. där vi är intresserade av sambandet

mellan Xs och Y s variation. Det kan vara natuligt att betrakta variablerna
X − µX och Y − µY .
Vi skiljer på fallen då X och Y ”samvarierar” resp. ”motverkar varandra”, dvs.
då
ett stort/litet värde på X gör ett stort/litet värde på Y troligt
resp.
ett stort/litet värde på X gör ett litet/stort värde på Y troligt.
Betraktar vi nu variabeln
(X − µX )(Y − µY ),
så innebär detta att den i första fallet, eftersom + · + = + och − · − = +, att
den har en tendens att vara positiv. På motsvarande sätt, eftersom − · + = −
och + · − = −, har den i andra fallet en tendens att vara negativ. Det som vi,
lite slarvigt, har kallat tendens, kan vi ersätta med väntevärde. Vi leds då till
följande definition.
Definition 5.1 Kovariansen mellan X och Y är

C(X, Y ) = E[(X − µX )(Y − µY )],
där µX = E(X) och µY = E(Y ).
Kovariansen kan sägas ha fel sort. Det verkar rimligt att ett mått på ett så
abstrakt begrepp som samvariation skall vara ”sortfritt”. Det vanligaste måttet
är korrelationskoefficienten.
Definition 5.2 Korrelationskoefficienten mellan X och Y är

C(X, Y )
ρ = ρ(X, Y ) = .
D(X)D(Y )
25
Man kan visa att |ρ| ≤ 1, där |ρ| = ±1 betyder att det finns ett perfekt linjärt
samband, dvs. Y = aX + b.
Sats 5.1 Om X och Y är oberoende så är de okorrelerade, dvs. ρ(X, Y ) = 0.
Omvändningen gäller ej, dvs. okorrelerade variabler kan vara beroende.

Exempel
Låt (X, Y ) vara en tvådimensionell diskret variabel med följande sannolikhets-
funktion:
(
1
om (i, j) = (0, 1), (0, −1), (1, 0), eller (−1, 0).
pX,Y (i, j) = 4
0 annars.
Rita!
Uppenbarligen är dessa variabler beroende. Av symmetrin följer att µX =
µY = 0. Variabeln XY tar alltid värdet 0. Således fås
C(X, Y ) = E(XY ) = 0.
Om (X, Y ) är tvådimensionellt normalfördelad, så innebär dock ρ = 0 att X

och Y är oberoende.
Varning Korrelationskoefficienten är svårtolkad!
5.2 Mer om väntevärden
Sats 5.2 Låt (X, Y ) vara en tvådimensionell s.v. Då gäller
(1) E(aX + bY ) = aE(X) + bE(Y );
(2) V (aX + bY ) = a2 V (X) + b2 V (Y ) + 2abC(X, Y ).
Bevis. (1) följer av av räknereglerna för integraler resp. summor.

(2) fås av följande
V (aX + bY ) = E[(aX + bY − aµX − bµY )2 ] = E[(aX − aµX + bY − bµY )2 ]
= E[a2 (X − µX )2 + b2 (Y − µY )2 + 2ab(X − µX )(Y − µY )]
= a2 V (X) + b2 V (Y ) + 2abC(X, Y ).
2
5.2. Mer om väntevärden 27
Följdsats 5.1 Låt X och Y vara två oberoende (okorrelerade räcker) s.v. Då
gäller
E(X + Y ) = E(X) + E(Y ) V (X + Y ) = V (X) + V (Y )

E(X − Y ) = E(X) − E(Y ) V (X − Y ) = V (X) + V (Y ).
Detta går att utvidga till godtyckligt många variabler:
Sats 5.3 Låt X1 , . . . , Xn vara oberoende (okorrelerade räcker) s.v. och sätt
Y = c1 X1 + . . . + cn Xn .
Då gäller
E(Y ) = c1 E(X1 ) + . . . + cn E(Xn )
och
V (Y ) = c21 V (X1 ) + . . . + c2n V (Xn )
Arimetiskt medelvärde
Sats 5.4 Låt X1 , X2 , . . . , Xn vara oberoende och likafördelade s.v. med vänte-
värde µ och standardavvikelse σ. Då gäller att
σ2 σ
E(X) = µ, V (X) = och D(X) = √ .
n n
Uttrycket ”X1 , X2 , . . . , Xn är likafördelade” betyder att de stokastiska variab-

lernas fördelningar, dvs. att de stokastiska variablernas statistiska egenskaper,
är identiska. Utfallen av variablerna varierar dock.
Sats 5.5 (Tjebysjovs olikhet)

För varje ε > 0 gäller
V (X)
P (|X − µ| > ε) ≤ .
ε2
(Ersätter vi ε med kσ fås formuleringen i Blom m.fl.)

Bevis. Detta är den enda riktigt djupa satsen i kursen som vi kan bevisa.
Njut av elegansen i beviset! Bokens bevis via Markovs olikhet är egentligen
ännu elegantare!
Vi nöjer oss med det kontinuerliga fallet.
Vi har
Z ∞ Z
2
V (X) = (x − µ) fX (x) dx ≥ (x − µ)2 fX (x) dx
−∞ |x−µ|>ε
Z
2
≥ε fX (x) dx = ε2 P (|X − µ| > ε).
|x−µ|>ε
2
Sats 5.6 Stora talen lag

För varje ε > 0 gäller
P (|X − µ| > ε) → 0 då n → ∞.
Bevis. Enl. Tjebysjovs olikhet gäller
V (X) σ2
P (|X − µ| > ε) ≤ = →∞
ε2 nε2
då n → ∞. 2
Diskutera relationen till relativa frekvensers stabilitet.
Föreläsning 6
6.1 Normalfördelningen
Diskutera mätfel. Ofta beror mätfelen på att att oberoende fel av samma
storleksordning adderar sig. Erfarenheten visar att mätfel fördelar sig enl. figur.
Rita!
Vi ska återkomma till detta i slutet av föreläsningen.
Standardiserad normalfördelning
Definition 6.1 En s.v. Z säges vara standardiserad normalfördelad om den

är N (0, 1)-fördelad, dvs. om den har täthetsfunktionen
1 2
ϕ(z) = √ e−z /2 .
2π
Dess fördelningsfunktion betecknas med Φ(z), dvs.
Z z
1 2
Φ(z) = √ e−x /2 dx.
−∞ 2π
Ett problem är att fördelningsfunktionen inte kan ges på en analytisk form.
Det är dock lätt att numeriskt beräkna fördelningsfunktionen och i praktiken
använder man tabeller över Φ(x).
Vi observerar att ϕ(−z) = ϕ(z). Φ(z) är tabulerad endast för x ≥ 0. Vi har
dock Z −z Z z
Φ(−z) = ϕ(x) dx = [y = −x] = − ϕ(−y) dy
−∞ ∞
Z ∞
= ϕ(y) dy = 1 − Φ(z).
z
Om Z är N (0, 1)-fördelad, så kan man visa att
E(Z) = 0 (ty ϕ(−z) = ϕ(z))

V (Z) = 1.
29
När vi kommer till statistikdelen behöver vi ofta lösa ekvationer av följande

slag:
Bestäm z så att vi för givet α har
P (Z ≤ z) = 1 − α;
P (Z > z) = 1 − α;
P (−z < Z ≤ z) = 1 − α.
För att lösa sådana ekvationer inför vi α-kvantilen λα definierad av
P (Z > λα ) = α eller
α = 1 − Φ(λα ).
Det är då bra att observera att
1 − α = 1 − Φ(λ1−α )
⇔
α = Φ(λ1−α )
⇔
α = 1 − Φ(−λ1−α ),
vilket ger
λ1−α = −λα .
Allmän normalfördelning
Definition 6.2 En s.v. X säges vara N (µ, σ)-fördelad, där µ reell och σ > 0,
om
X −µ
Z= är N (0, 1)-fördelad.
σ
Sats 6.1 Låt X vara N (µ, σ)-fördelad. Då gäller

µ ¶
1 x−µ 1 2 2
fX (x) = ϕ = √ e−(x−µ) /2σ
σ σ σ 2π
och µ ¶
x−µ
FX (x) = Φ .
σ
Bevis. Vi har
µ ¶
X −µ x−µ
FX (x) = P (X ≤ x) = P ≤
σ σ
µ ¶ µ ¶
x−µ x−µ
=P Z≤ =Φ .
σ σ
¡ ¢
Derivation ger fX (x) = σ1 ϕ x−µ
σ
. 2
6.1. Normalfördelningen 31
Sats 6.2 Om X är N (µ, σ)-fördelad så gäller

E(X) = µ och V (X) = σ 2 .
Bevis. Vi ska nu se hur listig vår definition är!

X = σZ + µ
E(X) = σE(Z) + µ = 0 + µ = µ
V (X) = σ 2 V (Z) + 0 = σ 2 .
2
Sats 6.3 Låt X vara N (µ, σ)-fördelad och sätt Y = aX + b. Då gäller det att
Y är N (aµ + b, |a|σ)-fördelad.
Bevis. Från definitionen följer att X = µ + σZ där Z är N (0, 1)-fördelad.

Detta ger
Y = aX + b = a(µ + σZ) + b = aµ + b + aσZ
Y − (aµ + b)
= Z.
aσ
Om a > 0 följer satsen. Om a < 0 utnyttjar vi att Z och −Z har samma
fördelning. 2
Sats 6.4 Om X är N (µX , σX )-fördelad, Y är N (µY , σY )-fördelad och X och
Y är oberoende så gäller att
µ q ¶
2 2
X + Y är N µX + µY , σX + σY -fördelad
och µ q ¶
2
X − Y är N µX − µY , σX + σY2 -fördelad.
Denna sats tycks inte kunna bevisas på annat sätt än genom faltning.
Sats 6.5 Låt X1 , . . . , Xn vara oberoende och N (µ1 , σ1 ), . . . , N (µn , σn ). Då gäller
att  v 
n n u n
X X uX
ck Xk är N  c k µk , t c2k σk2  -fördelad.
k=1 k=1 k=1
Allmän regel : Linjärkombinationer av oberoende normalfördelade stokastiska

variabler är normalfördelade med rätt väntevärde och rätt standardavvikelse.
Följdsats 6.1 Låt X1 , X2 , . . . , Xn vara oberoende och N (µ, σ)-fördelade s.v.

Då gäller att µ ¶
σ
X är N µ, √ -fördelad.
n
6.2 Centrala gränsvärdessatsen
Vi har sett några exempel på att normalfördelningen har trevliga statistiska
egenskaper. Detta skulle vi inte ha så stor glädje av, om normalfördelningen
inte dessutom var vanligt förekommande. Centrala gränsvärdessatsen CGS,
som är den huvudsakliga motiveringen för normalfördelningen, kan utan vidare
sägas vara ett av sannolikhetsteorins och statistikens allra viktigaste resultat.
Sats 6.6 (CGS) Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med
väntevärde µ och standardavvikelse σ. Då gäller att
µPn ¶
i=1 Xi − nµ
P √ ≤ x → Φ(x) då n → ∞.
σ n
Ofta uttrycker man slutsatsen i CGS som att

Pn
i=1 Xi − nµ
√ är approximativt N (0, 1)-fördelad
σ n
eller att n
X ¡ √ ¢
Xi är approximativt N nµ, σ n -fördelad.
i=1
En, för statistiken mycket vanlig användning av CGS är följande:
Följdsats 6.2 Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde
µ och standardavvikelse σ. Då gäller att
µ ¶ µ ¶
b−µ a−µ
P (a < X ≤ b) ≈ Φ √ −Φ √
σ/ n σ/ n
om n är tillräckligt stort.
Det är tyvärr inte möjligt att ge några generella och enkla tumregler om hur
stort n måste vara för att normalapproximationen ska vara användbar. Detta
beror på hur ”normalliknande” de enskilda variablerna Xk är. Om Xk na är
normalfördelade så ”gäller” ju CGS för alla n. En tumregel är att om Xk na
är någorlunda symmetriskt fördelade så räcker ganska små n, säg något tiotal.
Om Xk na är påtagligt skevt fördelade så behöver n var något eller i värsta fall
några hundratal.
Det är svårt att formulera strikt, men det räcker i CGS att Xk na är någorlunda
oberoende och någorlunda lika fördelade. Med ”någorlunda lika fördelade”
menas framförallt att det inte finns vissa Xk som är mycket dominerande.
Detta innebär att mätfel i välgjorda försök kan anses vara approximativt nor-
malfördelade. I mindre välgjorda försök kan det däremot mycket väl finnas
någon dominerande felkälla som inte alls behöver vara approximativt nor-
malfördelad.
Föreläsning 7
7.1 Binomialfördelningen och dess släktingar
Vi påminner om urnmodellerna. Vi hade en urna med kulor av två slag: v vita

och s svarta. Vi drog n kulor ur urnan slumpmässigt.
Sätt A = ”Man får k vita kulor i urvalet”.
Dragning utan återläggning:
¡v ¢¡ s
¢
k n−k
P (A) = ¡v+s¢ .
n
Dragning med återläggning:

µ ¶µ ¶k µ ¶n−k
n v s
P (A) = .
k v+s v+s
Hypergeometrisk fördelning
Antag att vi har N enheter, där proportionen p, dvs N p stycken, har egenska-
pen A. Drag ett slumpmässigt urval om n stycken enheter. Sätt
X = antalet enheter i urvalet med egenskapen A.
I termer av urnmodellen för dragning utan återläggning gäller N p = v och
N (1 − p) = s om A = ”vit kula”. Således fås
¡N p¢¡N (1−p)¢
k
pX (k) = P (X = k) = ¡Nn−k
¢ ,
n
för 0 ≤ k ≤ N p och 0 ≤ n − k ≤ N (1 − p).

Man säger att X är Hyp(N, n, p)-fördelad.
Man kan visa att
N −n
E(X) = np och V (X) = np(1 − p).
N −1
33
Vi skall återkomma något till detta.

Binomialfördelningen
Antag att vi gör ett försök där en händelse A, med sannolikheten p = P (A),
kan inträffa. Vi upprepar försöken n gånger, där försöken är oberoende. Sätt
X = antalet gånger som A inträffar i de n försöken.
Vi säger då att X är binomialfördelad med parametrarna n och p, eller kortare
att X är Bin(n, p)-fördelad.
Vi har µ ¶
n k n−k
pX (k) = p q , för k = 0, . . . , n,
k
där q = 1 − p.
Låt U1 , . . . , Un vara s.v. definierade av
(
0 om A∗ inträffar i försök nummer i,
Ui =
1 om A inträffar i försök nummer i.
Lite eftertanke ger att U1 , . . . , Un är oberoende och att

X = U1 + . . . + Un .
Då
E(Ui ) = 0 · (1 − p) + 1 · p = p
och
V (U1 ) = E(Ui2 ) − E(Ui )2 = E(Ui ) − E(Ui )2 = p − p2 = p(1 − p)
så följer
E(X) = nE(Ui ) = np och V (X) = nV (Ui ) = npq.
Diskutera motsv. för den hypergeometriska fördelningen.
Definition 7.1 En diskret s.v. X säges vara Poissonfördelad med parameter

µ, Po(µ)-fördelad, om
µk −µ
pX (k) = e , för k = 0, 1 . . . .
k!
Vi påminner om att om X är Po(µ)-fördelad, så gäller

E(X) = µ och V (X) = µ.
Poissonfördelningen är den viktigaste diskreta fördelningen, och har t.ex. följande
trevliga egenskap.
7.2. Approximationer 35
Sats 7.1 Om X och Y vara oberoende Po(µX )- resp. Po(µY )-fördelade s.v.
Då gäller att X + Y är Po(µX + µY )-fördelad.
Bevis.
k
X k
X (k−i)
µi X µY
P (X + Y = k) = P (X = i)P (Y = k − i) = e−µX e−µY
i=0 i=0
i! (k − i)!
Xk (k−i)
µiX µY
= e−(µX +µY )
i=0
i!(k − i)!
k µ ¶µ ¶i µ ¶(k−i)
−(µX +µY ) (µX + µY )k X k µX µY
=e .
k! i µ X + µ Y µ X + µ Y
|i=0 {z }
= 1, jmf. Bin-förd.
2
7.2 Approximationer
Hyp(N, n, p)
Om n/N är någolunda liten, så verkar det troligt att det inte spelar så stor
roll om vi drar med återläggning eller ej.
Vi har
¡N p¢¡N (1−p)¢
k N p! N (1 − p)! n!(N − n)!
¡Nn−k
¢ =
n
k!(N p − k)! (n − k)![N (1 − p) − (n − k)]! N!
n! N p!(N (1 − p)!(N − n)!

=
k!(n − k)! (N p − k)![N (1 − p) − (n − k)]!N !
µ ¶
n! (N p)k (N (1 − p))n−k n k n−k
≈ = p q .
k!(n − k)! Nn k
2
Sats 7.2 Om X är Hyp(N, n, p)-fördelad med n/N ≤ 0.1 så är X approxima-
tivt Bin(n, p)-fördelad.
Bin(n, p)
Av Xs representation som en summa följer att CGS kan tillämpas.
Sats 7.3 Om X är Bin(n, p)-fördelad med npq ≥ 10 så är X approximativt
√
N (np, npq)-fördelad.
Detta innebär att ) µ ¶

P (X ≤ k) k − np
≈Φ √ .
P (X < k) npq
Med halvkorrektion menas att vi använder följande approximation:
µ ¶
k + 21 − np
P (X ≤ k) ≈ Φ √ ,
npq
µ ¶
k − 12 − np
P (X < k) ≈ Φ √ .
npq
Trots att halvkorrektionen påtagligt kan höja noggrannheten, tar vi rätt lätt
på den.
√
Av detta följer att Hyp(N, n, p) ≈ N (np, npq) om n/N ≤ 0.1 och npq ≥ 10.
Det räcker dock att kräva N −n
N −1
np(1 − p) ≥ 10.
Vi införde ju Poissonfördelningen som en approximation av binomialfördel-
ningen. Detta kan vi formalisera till följande sats.
Sats 7.4 Om X är Bin(n, p)-fördelad med p ≤ 0.1 så är X approximativt
Po(np)-fördelad.
I vår approximation antog vi även att n var stor. Detta är inte nödvändigt,
men vårt enkla resonemang fungerar inte utan denna extra förutsättning. Man
kan visa att om X är Bin(n, p) och Y är Po(np) så gäller att
|P (X = k) − P (Y = k)| ≤ np2 .
Po(µ)
Om bägga villkoren p ≤ 0.1 och npq ≥ 10 är uppfyllda kan vi välja om vi vill
Poissonapproximera eller normalapproximera. Detta är ingen motsägelse, som
följande sats visar.
Sats 7.5 Om X är Po(µ)-fördelad med µ ≥ 15 så är X approximativt

√
N (µ, µ)-fördelad.
7.2. Approximationer 37
Sammanfattning
npq≥10
z}|{ √
≈ N (np, npq)
n/N ≤0.1
z}|{
Hyp(N, n, p) ≈ Bin(n, p)
N −n
N −1
np(1−p)≥10 p≤0.1 µ≥15
z}|{ z}|{ z}|{ √
≈ ≈ Po( np ) ≈ N (µ, µ)
|{z}
=µ
√
N (np, npq)
Föreläsning 8
8.1 Punktskattning
Exempel
På en laboration vill man bestämma den fysikaliska konstanten µ. Vi gör upp-
repade mätningar av µ och erhåller följande mätvärden:
x1 , x 2 , . . . , x n
Problem
Hur skall vi skatta µ så bra som möjligt.
Modell
Vi uppfattar mätvärdena som utfall av n st. oberoende och lika fördelade s.v.
X1 , X2 , . . . , Xn med E(Xi ) = µ och V (Xi ) = σ 2 .
En punktskatting µ∗obs av µ är en funktion av mätvärdena: µ∗ (x1 , . . . , xn ).
När vill vill analysera en skatting ersätter vi observationerna med de un-
derliggande stokastiska variablerna. Vi säger då att µ∗ = µ∗ (X1 , . . . , Xn ) är
en stickprovsvariabel. Stickprovsvariabeln är själv en stokastisk variabel, vars
fördelning beror av fördelningen för X1 , X2 , . . . , Xn och därmed av µ.
Om viP inte använder någon statistisk teori så väljer vi antagligen µ∗obs =
1
x = n xi . För motsvarande stickprovsvariabel X gäller att E(X) = µ och
V (X) = σ 2 /n.
Allmänt
Vi har en uppsättning data
x1 , x 2 , . . . , x n
som ses som utfall av s.v.
X1 , X2 , . . . , Xn .
Dessa variabler antages vara oberoende och likafördelade och deras gemensam-
ma fördelning beror av en okänd parameter θ, t.ex. N (θ, σ), Po(θ), N (θ1 , θ2 ),
osv.
∗
En punktskatting θobs av θ är en funktion θ∗ (x1 , . . . , xn ) och motsvarande stick-
provsvariabel θ∗ är θ∗ (X1 , . . . , Xn )
39
Vad menas med en bra skattning?
Definition 8.1
∗
1) En punktskattning θobs av θ är väntevärdesriktig om
∗
E(θ (X1 , . . . , Xn )) = θ.
∗
2) En punktskattning θobs av θ är konsistent om
∗
P (|θ (X1 , . . . , Xn ) − θ| > ε) → 0 då n → ∞.
∗ ∗∗
3) Om θobs och θobs är väntevärdesriktiga skattningar av θ så säger man att
∗ ∗∗
θobs är effektivare än θobs om V (θ∗ (X1 , . . . , Xn )) < V (θ∗∗ (X1 , . . . , Xn )).
Skattning av väntevärdet µ
1
Pn
Sats 8.1 Stickprovsmedelvärdet x = n i=1 xi som skattning av väntevärdet
µ är
1) Väntevärdesriktig;
2) Konsistent;
3) Ej nödvändigtvis effektiv, dvs. den effektivaste möjliga skattningen.
Bevis.
1) E(X) = µ.
2) V (X) = σ 2 /n och stora talens lag gäller.
3) Motexempel: Låt Xi vara U (0, 2µ), dvs,
(
1
2µ
om x ∈ (0, 2µ),
fX (x) =
0 annars.
µ2
Då gäller E(X) = µ och V (X) = 3n
.
(Om Y är U (a, b) så gäller V (Y ) = (b − a)2 /12.
Betrakta
n+1
µ∗ = max Xi .
2n 1≤i≤n
Då gäller
∗ µ2 ∗ µ2
E(µ ) = µ och V (µ ) = ≤ .
n(n + 2) 3n
8.1. Punktskattning 41
För att visa detta sätter vi Y = max1≤i≤n Xi . Då fås



0 om x ≤ 0,
xn
FY (x) = (2µ) n om x ∈ (0, 2µ),


1 om x ≤ 0,
eller (
nxn−1
(2µ)n
om x ∈ (0, 2µ),
fY (x) =
0 annars.
Detta ger Z 2µ
nxn n
E(Y ) = n
dx = 2µ
0 (2µ) n+1
Z 2µ
nxn+1 n
E(Y 2 ) = n
dx = (2µ)2
0 (2µ) n + 2
µ ¶
n n2 n
V (Y ) = − 2
(2µ)2 = 2
(2µ)2 .
n + 2 (n + 1) (n + 2)(n + 1)
Detta ger
n+1 n
E(µ∗ ) = · · 2µ = µ
2n n+1
och µ ¶2
∗ n+1 1 µ2
V (µ ) = V (Y ) = (2µ)2 = .
2n 4n(n + 2) n(n + 2)
2
Skattning av σ 2
1
Pn
Sats 8.2 Stickprovsvariansen s2 = n−1 i=1 (xi − x)2 som skattning av σ 2 är
1) Väntevärdesriktig;
2) Konsistent;
3) Ej nödvändigtvis effektiv.
1) används ofta som motivering för att man dividerar med n − 1, men det är
en dålig motivering, eftersom man oftast vill skatta σ. s som skattning av σ är
dock ej väntevärdesriktig.
Maximum-likelihood-metoden
Vi ska nu studera en systematisk metod att hitta skattningar. Idén är att
skatta θ så att utfallet blir så ”troligt” som möjligt.
Antag att Xi har täthetsfunktionen f (x, θ), θ okänd.
Definition 8.2
L(θ) = f (x1 , θ) · · · · · f (xn , θ)
kallas L-funktionen.
(För diskreta fallet hänvisas till boken.)
∗
Definition 8.3 Det värde θobs för vilket L(θ) antar sitt största värde kallas
ML-skattningen av θ.
För stora stickprov är denna skattning i allmänhet mycket bra.

Exempel
Xi är N (θ, σ), dvs.
1 1 x−θ 2
f (x, θ) = √ e− 2 ( σ ) .
σ 2π
Vi observerar x1 , . . . , xn . Då fås
1 P xi −θ 2
1( σ )
− 21 n
L(θ) = e
σ n (2π)n/2
n
1 X
log L(θ) = − log(σ n (2π)n/2 ) − (xi − θ)2
2σ 2 1
n
d log L(θ) 1 X
= 2 2(xi − θ).
dθ 2σ 1
d log L(θ) Pn ∗
dθ
= 0 ger 1 xi = nθ, dvs. θobs = x.
∗
I detta fall är θobs effektiv !
Minsta-kvadrat-metoden
Om vi inte känner fördelningen helt kan inte ML-metoden användas. Ibland
ger den även svåra matematiska problem. Man kan då gå tillväga på följande
sätt:
Låt x1 , . . . , xn vara ett stickprov från en fördelning med E(X) = µ(θ) där µ(θ)
är en känd funktion av en okänd parameter θ.
P
Sätt Q(θ) = ni=1 (xi − µ(θ))2 och minimera Q(θ) map. θ. Lösningen θobs ∗
till
detta problem kallas MK-skattningen av θ.
Föreläsning 9
9.1 Intervallskattning
Exempel
Vi återgår till vår fysikaliska konstant µ, dvs. vi uppfattar mätvärdena som
utfall av n st. oberoende och lika fördelade s.v. X1 , X2 , . . . , Xn med E(Xi ) = µ
och V (Xi ) = σ 2 .
Oftast är vi inte nöjda med att ange X, utan vi vill ha en uppfattning om
precisionen i skattningen. Visserligen vet vi att
σ
E(X) = µ och D(X) = √ ,
n
men vi vill ha en mera informativ och lättbegriplig beskrivning av precisionen

av vårt uttalande. Vi leds då till begreppet konfidensintervall.
Definition 9.1 Låt x1 , x2 , . . . , xn vara utfall av X1 , X2 , . . . , Xn vars fördelning

beror av en okänd parameter θ. Intervallet
Iθ = (a1 (x1 , . . . , xn ), a2 (x1 , . . . , xn ))
kallas ett konfidensintervall för θ med konfidensgrad 1 − α om
P (a1 (X1 , . . . , Xn ) < θ < a2 (X1 , . . . , Xn )) = 1 − α.
Ett stickprov, konfidensintervall för µ

Normalfördelning
a) σ känt
Vi antar nu att våra mätningar kommer från en normalfördelning, dvs. att
X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade.
Detta innebär att
X−µ
√ är N (0, 1)-fördelad.
σ/ n
43
Således gäller att

µ ¶
X−µ
P −λα/2 < √ < λα/2 = 1 − α.
σ/ n
Rita figur och påminn om att λα/2 !

Detta ger µ ¶
X−µ
P −λα/2 < √ < λα/2 = 1 − α.
σ/ n
m
¡ √ √ ¢
P −λα/2 σ/ n < X − µ < λα/2 σ/ n = 1 − α
m
¡ √ √ ¢
P −λα/2 σ/ n < µ − X < λα/2 σ/ n = 1 − α
m
¡ √ √ ¢
P X − λα/2 σ/ n < µ < X + λα/2 σ/ n = 1 − α.
Jmf. vi definitionen av konfidensintervall så inser vi att
√
Iµ = x ± λα/2 σ/ n
har konfidensgrad 1 − α. En vanlig konfidensgrad är 95%. Då är λ0.025 = 1.96.
b) σ okänt
Vi utgår nu från
X−µ
√ ,
S/ n
där
n
2 1 X
S = (Xi − X)2 .
n − 1 i=1
Man kan beräkna fördelningen för denna variabel.
Man säger att
X−µ
√
S/ n
är t-fördelad med n − 1 frihetsgrader, eller att den är t(n − 1)-fördelad.
t-fördelningen finns tabulerad. Fördelning är symmetrisk, och för stora värden
på n, lik N (0, 1)-fördelningen. Vi återkommer till t-fördelningen.
På samma sätt som i a) fås nu att
√
Iµ = x ± tα/2 (n − 1)s/ n
är ett konfidensintervall för µ med konfidensgrad 1 − α.

9.1. Intervallskattning 45
I fallet med n = 10 gäller t0.025 (9) = 2.26, vilket kan jämföras med λ0.025 = 1.96.
Ett stickprov, konfidensintervall för σ
Vi ska börja med ett par sannolikhetsteoretiska resultat.
Definition 9.2 Om Z1 , . . . , Zn är oberoende och N (0, 1)-fördelade, så är

n
X
Zi2
i=1
χ2 (n)-fördelad.
Sats 9.1 Om X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade så är

n
1 X 2 (n − 1)S 2
(Xi − X) =
σ 2 i=1 σ2
χ2 (n − 1)-fördelad.
Detta är den ”riktiga” motiveringen till att man i s2 dividerar med n − 1.
Vi är nu i en lite besvärligare situation än för µ, eftersom χ2 -fördelningen
inte är symmetrisk. I normal- respektive t-fallet utnyttjade vi att symmetrin
medförde att λ1−α = −λα resp. t1−α (n − 1) = −tα (n − 1).
Låt nu χ2α (n − 1) vara α-kvantilen i χ2 (n − 1)-fördelningen. Då gäller
µ ¶
(n − 1)S 2
P χ21−α/2 (n − 1) < 2
< χα/2 (n − 1) = 1 − α
σ2
m
Ã !
χ21−α/2 (n − 1) S2 χ2α/2 (n − 1)
P < 2 < =1−α
n−1 σ n−1
m
Ã !
n−1 σ2 n−1
P 2
< 2
< 2 =1−α
χα/2 (n − 1) S χ1−α/2 (n − 1)
m
Ã !
(n − 1)S 2 2 (n − 1)S 2
P < σ < =1−α
χ2α/2 (n − 1) χ21−α/2 (n − 1)
m
Ãs s !
(n − 1)S 2 (n − 1)S 2
P <σ< = 1 − α.
χ2α/2 (n − 1) χ21−α/2 (n − 1)
Detta ger att Ã !
(n − 1)s2 (n − 1)s2
Iσ2 = ,
χ2α/2 (n − 1) χ21−α/2 (n − 1)
resp. Ãs s !
(n − 1)s2 (n − 1)s2
Iσ = ,
χ2α/2 (n − 1) χ21−α/2 (n − 1)
är konfidensintervall för σ 2 resp. σ med konfidensgrad 1 − α.

t-fördelningen
Vi återgår nu lite till t-fördelningen.
Definition 9.3 Om X är N (0, 1)-fördelad, Y är χ2 (f )-fördelad, och X och Y

är oberoende, så är
X
p
Y /f
t(f )-fördelad.
Sats 9.2 Om X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade så är X och
S 2 oberoende.
Denna sats karakteriserar normalfördelningen! Den är således inte sann för
någon annan fördelning.
Av detta följer nu att r
X−µ X − µ . S2
√ = √
S/ n σ/ n σ2
är t(n − 1)-fördelad.
Två stickprov, konfidensintervall för skillnad mellan väntevärden.
Normalfördelning
Modell:
X1 , X2 , . . . , Xn1 är N (µ1 , σ1 ) (stickprov 1)
Y1 , Y2 , . . . , Yn2 är N (µ2 , σ2 ) (stickprov 2)
där alla Xen och Y na är oberoende.
a) σ1 och σ2 kända
Vi vill nu skaffa oss ett konfidensintervall för µ1 − µ2 . En naturlig skattning
av µ1 − µ2 är X − Y . Eftersom den är en linjärkombination av oberoende
normalfördelade variabler, så gäller att
(X − Y ) − (µ1 − µ2 )
q 2
σ1 σ2
n1
+ n22
är N (0, 1)-fördelad. Av detta leds vi till

s
σ12 σ22
Iµ1 −µ2 = x − y ± λα/2 + .
n1 n2
Om σ1 = σ2 = σ reduceras detta till att
(X − Y ) − (µ1 − µ2 )
q
σ n11 + n12
är N (0, 1)-fördelad och

r
1 1
Iµ1 −µ2 = x − y ± λα/2 σ + .
n1 n2
b) σ1 = σ2 = σ okänd
Vi betraktar nu fallet då σ1 = σ2 = σ, men där σ är okänd. Detta skattas med
s där s2 är den sammanvägda stickprovsvariansen.
Man kan visa att man skall välja
(n1 − 1)s21 + (n2 − 1)s22

s2 =
n1 + n2 − 2
och att
(X − Y ) − (µ1 − µ2 )
q
S n11 + n12
är t(n1 + n2 − 2)-fördelad.

Vi får r
1 1
Iµ1 −µ2 = x − y ± tα/2 (n1 + n2 − 2)s + .
n1 n2
Stickprov i par
Exempel
På ett bryggeri gör man varje dag analyser av alkoholhalten i öl. Dessa ana-
lyser utförs av två kemister A och B. Man vill undersöka om det finns någon
systematisk skillnad mellan As och Bs mätningar. Varje dag, under n dagar
låter man A och B, oberoende av varandra, analysera samma prov.
Vi leds då till följande modell:
X1 , X2 , . . . , Xn är N (µi , σA ) (As analyser)

Y1 , Y2 , . . . , Yn är N (µi + ∆, σB ) (Bs analyser)
där alla Xen och Y na är oberoende. Vi menar här att Xi är N (µi , σA )-fördelad
och att Yi är N (µi + ∆, σB )-fördelad.
Knepet är nu att bilda
Zi = Yi − Xi
som är N (∆, σ)-fördelad, med
µ q ¶
σ = σA2 + σA2 .
Vi har nu återfört problemet till fallet med ett stickprov, och kan ge konfi-
densintervall eller genomföra test för ∆ på samma sätt som vi gjorde för µ,
dvs. √
I∆ = z ± λα/2 σ/ n
om σ känd och √
I∆ = z ± tα/2 (n − 1)s/ n
om σ okänd, där
n
2 1 X
s = (zi − z)2 .
n − 1 i=1
Approximativa konfidensintervall
Ett stickprov, konfidensintervall för µ
Modell: X1 , X2 , . . . , Xn antages vara oberoende och likafördelade s.v. med
E(Xi ) = µ och V (Xi ) = σ 2 .
Om n är någolunda stort, så gäller enligt CGS att
X−µ
√ är approximativt N (0, 1)-fördelad,
σ/ n
och helt analogt med normalfördelningsfallet får vi att

∗
√
Iµ = x ± λα/2 σobs / n
∗
har approximativ konfidensgrad 1 − α. Här förutsättes σobs vara en bra skatt-
ning av σ, vanligen s.
För fallet med två stickprov, där nu σ1 = σ2 ej behöver antas, hänvisar vi till
Blom m.fl. 12.4.
Binomialfördelning
Antag nu att vi observerar ett utfall x av en s.v. X som är Bin(n, p)-fördelad,
där p är okänt. En naturlig skattning av p är
x
p∗obs = .
n
Då gäller, om np(1 − p) ≥ 10, och det kan vi anta om np∗obs (1 − p∗obs ) ≥ 10
”med lite råge”, att
p∗ − p
p
p(1 − p)/n
är approximativt N (0, 1)-fördelad. Här är en viktig skillnad från tidigare,
nämligen att väntevärde och varians inte är ”fria” parametrar. Det enklas-
te, och förmodligen det vanligaste, är att man skattar variansen med hjälp av
p∗obs , och således leds man till det approximativa konfidensintervallet
q
∗
Ip = pobs ± λα/2 p∗obs (1 − p∗obs )/n .
Föreläsning 10
10.1 Hypotesprövning
Låt oss börja i den allmänna situationen, dvs.:

Vi har en uppsättning data x1 , x2 , . . . , xn som ses som utfall av s.v.
X1 , X2 , . . . , Xn .
Dessa variabler antages vara oberoende och likafördelade och deras gemensam-
ma fördelning beror av en okänd parameter θ.
En hypotes om verkligheten är i detta sammanhang en mängd av θ-värden.
Formaliserat betyder detta att vi vill testa en nollhypotes
H0 : θ ∈ H0
mot ett alternativ (eller en mothypotes)
H1 : θ ∈ H1 .
Eftersom detta blir lite abstrakt, så exemplifierar vi steg för steg med fallet då
X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade där µ och σ är okända.
Exempel
H 0 : µ = µ0
mot
H1 : µ 6= µ0 .
Att testa H0 är detsamma som att avgöra om våra data är ”förenliga” med
H0 . Om H0 ej är sann vill vi förkasta H0 till förmån för H1 . Vi bildar därför
en teststorhet T = T (x1 , . . . , xn ) och ett kritiskt område C. (För ögonblicket
bekymrar vi oss inte för hur T och C lämpligen bildas.)
Test: Förkasta H0 om T ∈ C.
I praktiken bestäms T av situationen och C av signifikansnivån (eller felrisken)
α:
signifikansnivån = α ≥ P (H0 förkastas om H0 sann)
51
= P (T (X1 , . . . , Xn ) ∈ C om H0 sann).
Med risknivån garderar vi oss således mot felet att förkasta H0 då H0 är sann.
Vi bör välja H0 så att detta är det allvarligase felet. Det andra möjliga felet
är att ej förkasta H0 då H0 är falsk. Vi bildar styrkefunktionen
h(θ) = P (H0 förkasta) om θ är det sanna värdet.
För θ ∈ H0 gäller således att h(θ) ≤ α. Ett test är ”bra” om h(θ) är stor då
θ ∈ H1 .
Vi håller oss tills vidare till exemplet.
Här verkar det rimligt att utgå från
X − µ0
T (X1 , . . . , Xn ) = √ ,
s/ n
som under H0 är t(n − 1)-fördelad, och att förkasta H0 om |T (x1 , . . . , xn )| är
för stor.
Vi får då
α = P (|T (X1 , . . . , Xn )| > c om H0 sann),
vilket ger c = tα/2 (n − 1).
Vi kan nu binda ihop hypotesprövning med konfidensintervall, genom att kon-
statera att testet är exakt detsamma som följande:
Bilda ett konfidensintervall Iµ och förkasta H0 om
Iµ 63 µ0 .
Detta verkar ju högst rimligt. Iµ ger ju de ”troliga” värdena på µ, och om the
hypotetiska värdet inte hör dit, så bör ju H0 förkastas.
Om vi förkastar H0 säger vi att ”µ är signifikant skilt från µ0 . Ordet signifikant
är egentligen inte så bra, eftersom det ofta tolkas som att skillnaden är ”viktig”,
men det betyder i själva verket endast ett ”skillnaden förmodligen inte är
slumpmässig”.
En god regel, om vi är intresserade av µs eventuella avvikelse från µ0 , är att
först göra en hypotesprövning. Om µ är signifikant skilt från µ0 , kan vi ta detta
som ”alibi” för att diskutera storleken på avvikelsen. Detta görs lämpligen
genom att vi betraktar Iµ . På detta sätt minskar vi risken för att göra en ”stor
sak” av rent slumpmässig skillnad.
10.2. χ2 -test 53
Ensidiga test
Vi betraktar nu följande situation:
H 0 : µ = µ0
mot
H1 : µ > µ0 (resp. µ < µ0 ).
Låt oss anta att stort värde på µ är en önskad egenskap. Det kan vara naturligt
att vi gör en åtgärd, t.ex. köper någon ny utrustning, som bör öka värdet på
µ. Det är naturligt att vi endast vill köpa denna nya utrustning om vi är
någolunda säkra på att den verkligen ger ett högre värde på µ än µ0
Det är då naturligt att testa
H 0 : µ = µ0
mot
H1 : µ > µ0 .
Testet blir då att vi förkastar H0 om T (x1 , . . . , xn ) är för stor, eller mera precist
om √
T > tα (n − 1) eller om x̄ > µ0 + tα (n − 1)s/ n.
Tolkningen är att vi kräver, för att förkasta H0 , att x̄ är tillräckligt mycket
större än µ0 för att det inte ska vara troligt att skillnaden är slumpmässig.
Det är egentligen inte en statistisk fråga hur man skall välja H1 . Ofta kan det
vara enklare att titta på testet, för att övertyga sig att man ”garderar” sig åt
”rätt håll”. Viktigt är dock att man bestämmer sig innan man har studerat
data, för annars blir signifikansnivån fel.
Grundregeln är dock att det vi vill påstå skall sättas som H1 , eftersom vi bara
kan dra två slutsatser av ett test:
”H0 förkastas ej”, vilket inte betyder att vi visat att den är sann;
”H0 förkastas”.
Givetvis skulle vi mycket väl kunna vilja påstå att µ = µ0 , och då skulle vi
ju vilja testa H0 : µ 6= µ0 mot H1 : µ = µ0 . Detta går inte, eftersom inga
observationer i världen skulle kunna få oss att förkasta detta H0 .
Den som gör ett test, ”vill” därför ofta att H0 ska förkastas. Det är nog detta
som gör att begreppet signifikant misstolkas.
10.2 χ2-test
χ2 -testet är ett så kallat ”goodness of fit”-test.

Vi börjar med den enklaste situationen:

Ett försök kan utfalla på r olika sätt: A1 , A2 , . . . , Ar . Låt x1 , x2 , . . . , xr vara
antalet gånger som alternativen A1 , A2 , . . . , Ar förkommer i n försök.
P
Låt p1 , p2 , . . . , pr vara givna sannolikheter, dvs ri=1 pi = 1. Vi vill testa
H0 : P (Ai ) = pi för i = 1, . . . , r
mot
H1 : ej alla P (Ai ) = pi .
För att göra detta bildar vi
r
X (xi − npi )2
Qobs = .
i=1
npi
Man kan visa att Q är approximativt χ2 (r − 1)-fördelad under H0 . (Vi tillåter
oss här att slarva lite med s.v. och dess utfall.)
För att göra resultatet troligt, betraktar vi r = 2. Då gäller, med X = X1 och
p = p1 att
(X1 − np1 )2 (X2 − np2 )2 (X − np)2 (n − X − n(1 − p))2

Q= + = +
np1 np2 np n(1 − p)
(X − np)2 (X − np))2 (X − np)2

= + = .
np n(1 − p) np(1 − p)
Eftersom X är Bin(n, p) så gäller att √X−np är appr. N (0, 1). Således följer
np(1−p)
(X−np)2
att np(1−p)
är appr. χ2 (1).
Vi gör nu följande test:
Förkasta H0 om Qobs > χ2α (r − 1).
Ofta vill vi låta sannolikheterna p1 , p2 , . . . , pr bero av en okänd parameter
θ = (θ1 , . . . , θs ), och testa hypotesen
H0 : P (Ai ) = pi (θ), för i = 1, . . . , r,
och för något värde på θ.

Skattar vi θ med ML-metoden, och bildar
Xr ∗
(xi − npi (θobs ))2
Qobs = ∗
,
i=1
npi (θobs )
så är Q approximativt χ2 (r − s − 1)-fördelad under H0 .

Detta resultat kallas ibland för stora χ2 -satsen.
10.2. χ2 -test 55
Grundregeln är att antalet frihetsgrader fås av
antalet fria kvadratsummor − antalet skattade parametrar.
En vanlig tillämpning är att vi vill testa om ett stickprov kommer från en viss
fördelning, eller en viss klass av fördelningar. Man klassindelar då observatio-
nerna, t.ex. enl följande:
A1 = [g1 , g2 ), A2 = [g2 , g3 ), . . . , Ar = [gr , gr+1 ),
där man kan ha g1 = −∞ och/eller gr+1 = ∞.

Fördelen med χ2 -testet är att man kan skatta okända parametrar, nackdelen
är att klassindelningen ger viss subjektivitet.
∗
En vanlig tumregel är att kräva att alla npi eller npi (θobs ) är större än 5.
Homogenitetstest
Vi återgår nu till exemplet i början, med ett försök som kan utfalla på r
olika sätt: A1 , A2 , . . . , Ar . Antag nu att vi har s försöksserier om n1 , . . . , ns
försök vardera. Låt xij vara antalet gånger som alternativet Aj förkommer i
ite försöksserien.
Serie Antal observationer av Antal försök

A1 A2 . . . Ar
1 x11 x12 . . . x1r n1

2 x21 x22 . . . x2r n2
.. .. ..
. . .
s xs1 xs2 . . . xsr ns
Vi anser att serierna är homogena om hypotesen
H0 : P (Ai ) = pi , för i = 1, . . . , r i alla serierna.
För att testa H0 bildar vi
Xs X r
(xij − ni p∗j )2
Qobs = ∗
,
i=1 j=1
n i pj
där Ps
xij
p∗j = (p∗j )obs = Pi=1
s .
i=1 ni
Man kan visa att Q är approximativt χ2 ((r − 1)(s − 1))-fördelad under H0 .
Frihetsgraderna fås på följande sätt:
antalet fria kvadratsummor − antalet skattade parametrar
= s · (r − 1) − (r − 1) = (r − 1)(s − 1).
Oberoendetest
Vi tar nu ett stickprov om n enheter, där varje enhet klassifiseras efter två
egenskaper, A och B. Vi kan skriva detta i en kontingenstabell, lik den tabell
vi hade i hogenitetstestet.
Egenskap A1 A2 . . . Ar Total
B1 x11 x12 . . . x1r x1·

B2 x21 x22 . . . x2r x2·
.. .. ..
. . .
Bs xs1 xs2 . . . xsr xs·
Total x·1 x·2 . . . x·r n
Vi vill nu testa hypotesen
H0 : P (Aj ∩ Bi ) = P (Aj )P (Bi ), för alla i och j.
För att testa H0 bildar vi

Xs X r
(xij − np∗i· p∗·j )2
Q= ,
i=1 j=1
np∗i· p∗·j
där
xi· x·j
p∗i· = (p∗i· )obs = och p∗·j = (p∗·j )obs = .
n n
Man kan även här visa att Q är approximativt χ2 ((r−1)(s−1))-fördelad under
H0 .
Frihetsgraderna fås på följande sätt:
antalet fria kvadratsummor − antalet skattade parametrar
= (sr − 1) − [(r − 1) + (s − 1)] = sr − r − s + 1 = (r − 1)(s − 1).

OBSERVERA! Även om homogenitetstestet och kontingenstabellen numeriskt
och statistiskt är lika, så är det olika test.
Föreläsning 11
11.1 Regressionsanalys
Exempel
Vi vill undersöka hur en termometer mäter temperatur. Vi prövar därför ter-
mometern i vätskor med olika temperaturer x1 , . . . , xn . Dessa temperaturer
anser vi helt kända. Motsvarande mätvärden y1 , . . . , yn antar vi är ungefär
en linjär funktion av den verkliga temperaturen: yk ≈ α + βxk . Som vanligt
uppfattas mätvärdena y1 , . . . , yn som utfall av s.v. Y1 , . . . , Yn .
Modell:
Yk = α + βxk + εk ,
där ε1 , . . . , εn är oberoende och εk är N (0, σ)-fördelad. Observera att σ förutsätts
att ej bero av x, vilket ofta är det kritiska antagandet.
Det är vanligt att modellen skrivs på formen
Yk = α0 + β(xk − x) + εk ,
dvs. α ersätts med α0 − βx.
Vi skattar parametrarna α och β med Minsta-Kvadratmetoden, dvs. vi mini-
merar n
X
Q(α, β) = (yi − α − βxi )2
i=1
∗ ∗
m.a.p. α och β. De värden αobs och βobs som ger minimum kallas MK-skattningarna
av α och β.
Vi får nu:
X n
∂Q
= −2 (yi − α − βxi ) = −2n(y − α − βx)
∂α i=1
X n
∂Q
= −2 xi (yi − α − βxi ).
∂β i=1
Sätter vi derivatorna = 0, så fås av första ekvationen

α = y − βx,
57
vilket insatt i andra ekv. ger

n
X n
X
0= xi (yi − y − β(xi − x)) = (xi − x)(yi − y − β(xi − x)).
i=1 i=1
Sätter vi ihop detta så får vi

Pn
(x − x)(yi − y)
∗
αobs =y− ∗
βobs x och ∗
βobs Pn i
= i=1 2
.
i=1 (xi − x)
σ 2 skattas med
Q0
s2 = ,
n−2
där
n
X
∗ ∗ ∗ ∗
Q0 = Q(αobs , βobs ) = (yi − αobs − βobs xi )2 .
i=1
Linjen
∗ ∗
y = αobs + βobs x.
kallas den skattade regressionslinjen.
Eftersom både α∗ och β ∗ är linjära funktioner i Y -variablerna, kom ihåg att
xen är givna tal, så är de normalfördelade.
Sats 11.1 Vi har

µ ¶
∗ ∗ 21 x2
E(α ) = α V (α ) = σ + Pn 2
n i=1 (xi − x)
σ2
E(β ∗ ) = β V (β ∗ ) = Pn 2
.
i=1 (xi − x)
Skattningarna α∗ och β ∗ är normalfördelade.

Vidare gäller att, här betyder Q0 stickprovsvariabeln Q(α∗ , β ∗ ),
Q0 (n − 2)S 2
=
σ2 σ2
är χ2 (n − 2)-fördelad och att S 2 är oberoende av α∗ och β ∗ .
Detta gör att vi kan konstruera konfidensintervall och test som förut, både
då σ är känt och okänt. För att inte behöva skriva alla intervall två gånger så
betraktar vi fallet då σ är okänd. Eftersom α nu förekommer som en parameter,
så ger vi konfidensintervall med konfidensgrad 95%. Metoden är definiera ett
θ och sedan bilda
∗
Iθ = θobs ± t0.025 (n − 2)d(θ∗ ),
där d(θ∗ ) är skattningen av D(θ∗ ).
11.1. Regressionsanalys 59
θ = α + βx = α0
σ2
Vi har V (θ∗ ) = V (Y − β ∗ x + β ∗ x) = V (Y ) = n
, vilket ger
r
1
Iα+βx = y ± t0.025 (n − 2)s .
n
Man kan visa att Y och β ∗ är oberoende, vilket är skälet till att modellen ofta
skrivs på formen med α0 .
θ=β
2
Vi har V (β ∗ ) = Pn σ 2, vilket ger
i=1 i −x)
(x
∗ s
Iβ = βobs ± t0.025 (n − 2) pPn .
(x − x)2
i=1 i
θ = α + βx0 = α0 + β(x0 − x)
Vi har V (α∗ + β ∗ x0 ) = V (Y + β ∗ (x0 − x)) = V (Y ) + (x0 − x)2 V (β ∗ ) =

2 σ2
σ2
n
+ P(xn0 −x)
(xi −x)2
, vilket ger
i=1
s
∗ ∗ 1 (x0 − x)2
Iα+β(x0 −x) = αobs + βobs (x0 − x) ± t0.025 (n − 2)s + Pn 2
.
n i=1 (xi − x)

Sanstat KTH

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sanstat KTH

Uploaded by

Copyright:

Available Formats

Föreläsningsanteckningar i

Dessa anteckningar gjordes för mitt privata bruk av föreläsningsmanuskript

Några beteckningar i Matematisk Statistik iii

från resultatet av analysen av stickprovet dra slutsatser om populationen?

1.2 Grundläggande sannolikhetsteori

Definition 1.2 Mängden av alla utfall, eller resultat, kallar vi utfallsrummet

Definition 1.3 En händelse A är en mängd av utfall, dvs en delmängd av Ω,

”A och B inträffar” eller ”A snitt B inträffar”, A ∩ B

{vi får en sexa}.

antalet gånger A inträffar

Vad är nu en sannolikhet?

(c) om A1 , A2 , . . . är disjunkta händelser, så gäller

Sats 1.1 P (A∗ ) = 1 − P (A).

P (A) + P (A∗ ) = P (Ω) = 1 ⇒ P (A∗ ) = 1 − P (A).

Sats 1.2 P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Bevis. Satsen följer med hjälp av Venn-diagram, och observationen att

Dragning med återläggning

2.1 Betingad sannolikhet

Vi påminner om relativa frekvensers stabilitet:

antalet gånger A inträffar

Exempel (Kast med röd och vit tärning)

Mera systematiskt gäller följande sats

Sats 2.1 (Lagen om total sannolikhet)

P (A) = P (A ∩ Ω) = P (A ∩ (H1 ∪ . . . ∪ Hn )) = P ((A ∩ H1 ) ∪ . . . ∪ (A ∩ Hn ))

2.2 Oberoende händelser

Intiuitivt är två händelser A och B oberoende om inträffandet av A inte ger

Definition 2.2 Två händelser A och B är oberoende om

Definitionen ovan kräver inget villkor om positiva sannolikheter.

Definition 2.3 Tre händelser A, B och C är oberoende om

Endast P (A ∩ B ∩ C) = P (A)P (B)P (C) räcker inte, vilket inses om vi sätter

P (B) = 1 − (1 − P (A1 ))(1 − P (A2 )) . . . (1 − P (An )).

2.3 Stokastiska variabler

I nästan alla situationer som vi betraktar, kommer resultaten av slumpförsöken

Definition 2.4 En stokastisk variabel s.v. (eller en slumpvariabel) X är en

Definition 2.5 Fördelningsfunktionen FX (x) till en s.v. X definieras av

En fördelningsfunktion FX (x) har följande egenskaper:

1) FX (x) är icke-avtagande;

3) FX (x) → 0 då x → −∞;

4) FX (x) är högerkontinuerlig.

3.1 Stokastiska variabler

Definition 3.2 För en diskret s.v. definieras sannolikhetsfunktionen pX (k)

Om X beskriver ett tärningskast gäller således

Gör vi nu slumpförsöket att på måfå dra en av 6 lappar med talen 1, 2, 3, 4,

Det följer av detta att

Definition 3.3 En diskret s.v. X säges vara binomialfördelad med paramet-

Definition 3.4 En diskret s.v. X säges vara Poissonfördelad med parameter

Kontinuerlig stokastisk variabel

Definition 3.5 En s.v. X säges vara kontinuerlig om dess fördelningsfunktion

för någon funktion fX (x). Funktionen fX (x) kallas täthetsfunktionen för X.

Omvänt gäller att fX (x) = FX0 (x).

Ett par begrepp:

Definition 3.6 Lösningen till ekvationen 1 − FX (x) = α kallas α-kvantilen

3.2 Flerdimensionella stokastiska variabler

FX,Y (x, y) = P (X ≤ x, Y ≤ y) kallas (den simultana) fördelningsfunktionen

Definition 3.7 X och Y är oberoende stokastiska variabler om

FX,Y (x, y) = FX (x)FY (y)

Definition 3.8 (X1 , X2 , . . . , Xn ) är oberoende stokastiska variabler om

FX1 ,...,Xn (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )

= FX1 (x1 ) · · · FXn (xn ).

4.1 Funktioner av stokastiska variabler

Största och minsta värdets fördelning

FY (y) = P (Y ≤ y) = P (alla Xi ≤ y) = FX1 (y) · · · FXn (y)

FZ (z) = P (X + Y ≤ z) = P ((X, Y ) ∈ {(x, y); x + y ≤ z})