Professional Documents
Culture Documents
Sanstat KTH
Sanstat KTH
Matematisk Statistik
Jan Grandell
2
Förord
Jan Grandell
i
ii Kapitel 0. Förord
Några beteckningar i
Matematisk Statistik
Grundläggande sannolikhetsteori
ω utfall av ett slumpförsök
Ω utfallsrummet
∅ tomma mängden, omöjliga händelsen
A, Ak , B, . . . händelser
∩ snitt; A ∩ B = A och B inträffar
∪ union; A ∪ B = A och/eller B inträffar, minst en av A eller B inträffar
A∗ komplementet till A, A inträffar ej
P (A) sannolikheten för A
P (B | A) sannolikheten för B betingat av att A inträffat
Stokastiska variabler
X, Xk , Y, . . . stokastiska variabler
x, xk , y, . . . utfall av stokastiska variabler
FX (x) = P (X ≤ x) fördelningsfunktion
fX (x) täthetsfunktion (för en kontinuerlig s.v.)
pX (x) = P (X = k) sannolikhetsfunktion (för en diskret s.v.)
µ = µX = E(X) väntevärde, förväntat värde
σ 2 = σX 2
= V (X) varians
σ = σX = D(X) standardavvikelse
C(X, Y ) kovariansen mellan X och Y
ρ = ρ(X, Y ) korrelationskoefficienten mellan X och Y
Statistik
x1 , x2 , . . . , xn utfall av X1 , X2 , . . . , Xn
θ parameter
∗
θobs = θ∗ (x1 , . . . , xn ) punktskattning
θ∗ = θ∗ (X1 , . . . , Xn ) stickprovsvariabel
x̄ stickprovsmedelvärde
s2 stickprovsvarians
Iθ konfidensintervall för θ
λα , tα (f ), χ2α (f ) α-kvantiler för normal-, t- resp. χ2 -fördelningarna
H0 nollhypotes
H1 alternativ hypotes, mothypotes
iii
iv Kapitel 0. Några beteckningar i Matematisk Statistik
Innehåll
Förord i
Föreläsning 1 1
1.1 Inledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Grundläggande sannolikhetsteori . . . . . . . . . . . . . . . . . 2
Föreläsning 2 7
2.1 Betingad sannolikhet . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Oberoende händelser . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Stokastiska variabler . . . . . . . . . . . . . . . . . . . . . . . . 11
Föreläsning 3 13
3.1 Stokastiska variabler . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Flerdimensionella stokastiska variabler . . . . . . . . . . . . . . 16
Föreläsning 4 19
4.1 Funktioner av stokastiska variabler . . . . . . . . . . . . . . . . 19
4.2 Väntevärden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Föreläsning 5 25
5.1 Kovarians och korrelationskoefficient . . . . . . . . . . . . . . . 25
5.2 Mer om väntevärden . . . . . . . . . . . . . . . . . . . . . . . . 26
Föreläsning 6 29
6.1 Normalfördelningen . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2 Centrala gränsvärdessatsen . . . . . . . . . . . . . . . . . . . . . 32
Föreläsning 7 33
7.1 Binomialfördelningen och dess släktingar . . . . . . . . . . . . . 33
7.2 Approximationer . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Föreläsning 8 39
8.1 Punktskattning . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Föreläsning 9 43
9.1 Intervallskattning . . . . . . . . . . . . . . . . . . . . . . . . . . 43
v
vi Innehåll
Föreläsning 10 51
10.1 Hypotesprövning . . . . . . . . . . . . . . . . . . . . . . . . . . 51
10.2 χ2 -test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Föreläsning 11 57
11.1 Regressionsanalys . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Föreläsning 1
1.1 Inledning
Vi ska först ge några exempel på situationer där matematisk statistik kommer
in på ett naturligt och viktigt sätt
Sannolikhetsteori:
Sannolikhetsteori handlar om att göra modeller för verkligheten.
Exempel (S)
Man vill dimensionera trafikljussystemet på en genomfartsled med angränsan-
de tvärgator i en stad. Hur långa grön-röd faser ska man ha för att minimera
risken för allt för besvärande köbildning i rusningstrafik? Biltrafik är underkas-
tad slumpmässiga fluktuationer. Vi måste formulera någon slags slumpmodell.
Hur skall den se ut?
Exempel (D)
Man vill dimensionera ett datasystem på ett företag. Hur ska man göra detta,
under en given kostnadsram, för att minimera risken för allt för besvärande
köbildning i rusningstrafik? Datatrafik är underkastad slumpmässiga fluktua-
tioner. Vi måste formulera någon slags slumpmodell. Hur skall den se ut?
Statistik:
Många tänker nog på tabeller när de hör ordet ”statistik”. Vi menar dock med
statistik läran om hur man från observationer eller analyser under osäkerhet
drar slutsatser och beskriver dessa slutsatser på ett korrekt sätt.
Exempel Låt oss säga att vi vill mäta halten av ett ämne i en kemisk förening.
Hur skall vi göra detta? Det är en kemisk fråga som inte jag tänker gå in på.
Hur vi ska analysera resultaten är däremot en statistisk fråga!
Vi kan t.ex. ha 2000 enheter som vi är intresserade av. Detta är vår population,
och det är bara dom enheterna som intresserar oss. Det är alldeles för mycket
arbete att analysera alla enheterna! Det naturliga är att göra ett urval av dessa,
eller – som man brukar säga – ta ett stickprov. Med ett stickprov menar vi i
regel en uppsättning analysdata. Hur ska vi välja stickprovet, och hur kan man
1
2 Föreläsning 1
Händelser
Vi betraktar nu ett slumpförsök.
Definition 1.1 Varje möjligt resultat ω av ett slumpförsök kallas ett utfall,
eller en elementarhändelse.
Låt oss nu anta att vi är intresserade av två händelser A och B definierade
på samma försök. Här är några exempel på vad som kan inträffa, och hur vi
matematiskt kan uttrycka detta:
”A inträffar”, A
”A inträffar inte”, A∗ .
Om A och B utesluter varandra, dvs. omöjligt kan inträffa samtidigt, så säger
vi att A och B är disjunkta eller oförenliga, dvs. A ∩ B = ∅ där ∅ är ”tomma
mängden” eller ”den omöjliga händelsen”.
1.2. Grundläggande sannolikhetsteori 3
Har vi många händelser kan vi, precis som med summa- och produkt-tecken,
använda ett förkortat skrivsätt:
n
[ n
\
Ai = A1 ∪ A2 ∪ . . . ∪ An och Ai = A1 ∩ A2 ∩ . . . ∩ An
1 1
Låt oss säga att vi kastar en tärning, och är intresserade av händelsen
Alla håller nog med om att, om det är en just tärning, att den sannolikheten
är 16 . Symboliskt kan vi skriva
1
A = {vi får en sexa} och P (A) = .
6
Är det överhuvudtaget meningsfullt att tala om sannolikheter, och om så är
fallet, hur skall man tolka dessa?
Vi skall tolka detta som att om man kastar tärningen många gånger, så blir
den relativa frekvensen 6or ungefär 16 . Allmänt sett, om vi har ett försök och
en händelse A och gör försöket n gånger, så gäller
(a) 0 ≤ P (A) ≤ 1;
(b) P (Ω) = 1;
(a) och (b) kan ses som en kalibrering så att P stämmer med intuitionen (det
blir lättare då) och (c) (som är det ”viktiga” axiomet) betyder att P är ett
mått.
Bevis. Vi ska ge ett mycket formellt bevis, för att illustrera axiomsystemet:
Eftersom A och A∗ disjunkta och A ∪ A∗ = Ω, så fås
n! = n · (n − 1) . . . 2 · 1
olika sätt.
Det finns µ ¶
n n!
=
k k!(n − k)!
olika sätt att plocka ut k st. av dessa om vi ej tar hänsyn till i vilken ordning
de plockas ut.
Det finns nk olika sätt att plocka ut k st. av dessa om varje föremål som har
plockats ut stoppas tillbaka och om vi tar hänsyn till i vilken ordning de plockas
ut.
1.2. Grundläggande sannolikhetsteori 5
Två urnmodeller
Dragning utan återläggning
I en urna finns kulor av två slag: v vita och s svarta. Drag n kulor ur urnan
slumpmässigt och så att en kula som dragits inte stoppas tillbaka. dvs dragning
utan återläggning.
Sätt A = ”Man får k vita kulor i urvalet”.
Välj Ω: Alla uppsättningar om n kulor utan hänsyn till ordning.
Då fås: µ ¶ µ ¶µ ¶
v+s v s
m= och g =
n k n−k
och således ¡v ¢¡ s
¢
k n−k
P (A) = ¡v+s¢ .
n
m = (v + s)n .
¡n¢
Antag att vi valt ut k vita och n − k svarta kulor. Dessa kan placeras på k
platser:
v v v ······ v
Antal sätt att välja ut k vita = v k . Antal sätt att välja ut n − k svarta = sn−k .
¡ ¢
Detta ger g = nk v k sn−k och således får vi
¡ n¢ µ ¶µ ¶k µ ¶n−k
v k sn−k
k n v s
P (A) = = .
(v + s)n k v+s v+s
6 Föreläsning 1
Föreläsning 2
Låt A och B vara två händelser, dvs A, B ⊂ Ω. Vad är P (B | A), dvs sanno-
likheten för B då vi vet att A har inträffat?
Det borde gälla att
P (B | A)
antalet gånger A ∩ B inträffar
≈
antalet gånger A inträffar
antalet gånger A ∩ B inträffar antalet försök
= ·
antalet försök antalet gånger A inträffar
P (A ∩ B)
≈ .
P (A)
Detta leder oss till följande definition.
Definition 2.1 Låt A och B vara två händelser. Antag att P (A) > 0. Sanno-
likheten för B betingat av A betecknas med P (B | A) och definieras som
P (A ∩ B)
P (B | A) = .
P (A)
7
8 Föreläsning 2
Möjliga utfall, m, är 36: (v, r), v, r = 1, . . . 6, dvs (1, 1), (1, 2), . . . (6, 6).
Gynnsamma utfall för A, är 6: (1,1), (1,2), (1,3), (2,1), (2,2), (3,1).
Gynnsamma utfall för A ∩ Bk , är 4 − k: (v, r), v = k, r = 1, . . . 4 − k,
dvs (k, 1), (k, 2), . . . (k, 4 − k) om k < 4.
Klassiska sannolikhetsdefinitionen ger
6 4−k
P (A) = och P (A ∩ Bk ) = .
36 36
Detta ger, för k < 4,
3 = 1
k=1
4 − k 62 2
1
P (Bk | A) = = 6= k=2
6
1
3
6
k = 3.
Ofta är det lättare att ange värden till betingade sannolikheter än till obeting-
ade, och vi utnyttar definitionen ”baklänges”.
Exempel
En ohederlig person har två tärningar, en äkta och en falsk som alltid ger 6
ögon. Han väljer slumpmässigt den ena. Vad är sannolikheten för 5 resp. 6 ögon.
Låt oss betrakta fallet med sex ögon. Intiuitivt bör gälla att sannolikheten är
1 1 1 1 6 7
· + ·1= + = .
2 6 2 12 12 12
Bevis. Vi har
Sats 2.2 (Bayes’ sats) Under samma villkor som i lagen om total sannolik-
het gäller
P (Hi )P (A | Hi )
P (Hi | A) = Pn .
j=1 P (Hj )P (A | Hj )
Bevis.
P (Hi ∩ A) P (Hi ∩ A) P (Hi ) P (Hi )
P (Hi | A) = = · = P (A | Hi ) · .
P (A) P (Hi ) P (A) P (A)
Lagen om total sannolikhet tillämpad på P (A) ger resultatet. 2
Låt oss gå tillbaka till exemplet om falskspelaren. Sätt
A = 6 ögon.
H1 = äkta tärningen.
H2 = falska tärningen.
Då gäller
1 1 1 7
P (A) = P (H1 )P (A | H1 ) + P (H2 )P (A | H2 ) = · + ·1= ,
2 6 2 12
som i exemplet. Bayes’ sats ger vidare
P (H1 ∩ A) P (H1 ) 1 1 12 1
P (H1 | A) = = P (A | H1 ) · = =
P (A) P (A) 62 7 7
och
P (H2 ∩ A) P (H2 ) 1 12 6
P (H2 | A) = = P (A | H2 ) · =1· =
P (A) P (A) 2 7 7
vilket kanske inte är lika lätt att inse rent intiuitivt.
P (B | A) = P (B).
Allmänt gäller ju
P (A ∩ B)
P (B | A) = , om P (A) > 0.
P (A)
Multiplikation med P (A) leder oss till följande definition:
P (A ∩ B) = P (A)P (B).
10 Föreläsning 2
P (A ∩ B) = P (A)P (B)
P (A ∩ C) = P (A)P (C)
P (B ∩ C) = P (B)P (C)
P (A ∩ B ∩ C) = P (A)P (B)P (C).
1 1
P (A ∩ C) = P (A ∩ B) = P (A)P (B) = och P (A)P (C) = .
4 4
Således är A och C oberoende. Pss. följer att B och C är oberoende.
Eftersom A∩B ⇒ C vore det inte rimligt att anse att A, B och C är oberoende.
Allmänt: Oavsett vilka händelser vi plockar ut så skall sannolikheten för snittet
vara produkten av sannolikheterna.
Man kan visa att om A1 , . . . , An är oberoende, så är även A∗1 , . . . , A∗n oberoende.
Detta kan verka helt självklart, med är inte helt lätt att visa. Vi nöjer oss med
fallet n = 2.
Vi har
P (A∗ ∩ B ∗ ) = P ((A ∪ B)∗ ) = 1 − P (A ∪ B)
= 1 − P (A) − P (B) + P (A)P (B) = 1 − P (A) − P (B)(1 − P (A))
= (1 − P (A))(1 − P (B)) = P (A∗ )P (B ∗ ).
Sn
Sats 2.3 Låt händelserna A1 , . . . , An vara oberoende. Sätt B = 1 Ai , dvs.
minst en av händelserna A1 , . . . , An inträffar. Då gäller
Bevis.
Ãn ! n n
\ Y Y
∗
P (B) = 1 − P (B ) = 1 − P A∗i =1− P (A∗i ) =1− (1 − P (Ai )).
1 1 1
Lite löst kommer vi att uppfatta X som en beteckning för resultatet av ett
slumpförsök.
För ett tärningskast kan X anta ett av värdena 1, 2, 3, 4, 5 eller 6.
Låt X vara en stokastisk variabel. Det mest allmänna sättet att beskriva X,
dvs. hur X varierar, är att ange dess fördelningsfunktion.
FX (x) = P (X ≤ x).
2) FX (x) → 1 då x → ∞;
Det är lämpligt att skilja på fallen då vår stokastiska variabel representerar
kontinuerliga mätvärden eller antal.
Diskret stokastisk variabel
Vi ska nu betrakta fallet med antal.
Definition 3.1 En s.v. X säges vara diskret om den kan anta ett ändligt eller
uppräkneligt oändligt antal olika värden.
Det viktiga är att de möjliga värdena ligger i en ändlig eller högst uppräknelig
mängd. Oftast tar en diskret s.v. icke-negativa heltalsvärden ”räknar ett an-
tal”. Vi kommer att förutsätta detta, om vi inte explicit säger något annat.
och ¡ ¢
pX (k) = FX (k) − FX (k − 1) = FX (k + 21 ) − FX (k − 12 ) .
13
14 Föreläsning 3
Binomialfördelningen
Låt oss betrakta fallet ”dragning med återläggning”, och låt X vara antalet
v
vita kulor i urvalet om n kulor. Sätt p = v+s , dvs. p är sannolikheten för en
vit kula. Då fås
µ ¶
n k
pX (k) = p (1 − p)n−k , för k = 0, 1, . . . , n.
k
Nu är det inte alls nödvändigt att p är ett rationellt tal, utan vi kan allmännt
betrakta ett försök där en händelse A med p = P (A) kan inträffa, och låta
X vara antaltet gånger som A inträffar i n oberoende upprepningar av detta
försök.
Poissonfördelningen
Ofta när det är rimligt att anta att en s.v. X är Bin(n, p)-fördelad, så är det
även rimligt att anta att p är liten och att n är stor. Låt oss anta att p = µ/n,
där n är ”stor” men µ är ”lagom”. Då gäller
µ ¶
n k n−k n(n − 1) . . . (n − k + 1) ³ µ ´k ³ µ ´n−k
pX (k) = p (1 − p) = 1−
k k! n n
µk ³ µ ´n n(n − 1) . . . (n − k + 1) ³ µ ´−k µk −µ
= 1− k
1 − ≈ e .
k! | {zn }| n
{z }| {zn } k!
≈ e−µ ≈1 ≈1
Rita figur!
x0.5 kallas för medianen och är således det värde som överskrides med samma
sannolikhet som det underskrides.
Likformig fördelning U (a, b)
(
1
b−a
för a ≤ x ≤ b,
fX (x) =
0 annars.
0 för x ≤ a,
x−a
FX (x) = för a ≤ x ≤ b,
b−a
1 för x ≥ b.
Rita figur!
16 Föreläsning 3
Exponentialfördelningen Exp(λ)
(
λ e−λx för x ≥ 0,
fX (x) =
0 för x < 0.
(
1 − e−λx för x ≥ 0,
FX (x) =
0 för x < 0.
Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett
enkelt exempel:
Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa
gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara
tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter
x tidsenheter.
P (X > x) = (1 − p)nx ty nx personer har gått förbi.
Låt oss anta precis som då vi ”härledde” Poissonfördelningen, att p = µ/n,
där n är ”stor” men µ är ”lagom”. Då gäller
µ nx
P (X > x) = (1 − p)nx = (1 − ) ≈ e−µx .
n
Detta ger att FX (x) = 1 − P (X > x) ≈ 1 − e−µx , dvs X är approximativt
Exp(µ). Observera att väntevärdet (ännu ej definierat, men det kommer) är
1/µ!
Normalfördelningen.
1 2 2
fX (x) = √ e−(x−µ) /2σ
σ 2π
där µ godtycklig konstant och σ > 0.
Denna fördelning är mycket viktig, och vi skall återkomma till den. Man kan
inte analytiskt ge fördelningsfunktionen, vilket kan tyckas lite taskigt.
Ofta mäter vi i samma slumpförsök flera storheter, och då beskrivs resultatet
av en n-dimensionell stokastisk variabel (X1 , X2 , . . . , Xn ).
Exempel
Slumpförsöket är att vi väljer en person slumpmässigt här i rummet, och sätter
X = personens vikt;
Y = personens längd.
Vi nöjer oss med att ge detaljer i det två-dimensionella fallet. Låt (X,Y) vara
en två-dimensionell s.v.
3.2. Flerdimensionella stokastiska variabler 17
Vi kommer ihåg att för händelser så var det inte helt lätt att generlisera till
godtyckligt antal. För s.v. är det dock skenbart enklare.
Kommentera!
Omvänt gäller att om X1 , X2 , . . . , Xn är oberoende s.v. så fås den simultana
fördelningen enl. definitionen ovan.
18 Föreläsning 3
Föreläsning 4
och
FZ (z) = P (min(X1 , X2 , . . . , Xn ) ≤ z)
= 1 − P (min(X1 , X2 , . . . , Xn ) > z) = 1 − P (alla Xi > z)
= 1 − P (X1 > z) · · · P (Xn > z) = 1 − (1 − FX1 (z)) · · · (1 − FXn (z)).
Summans fördelning
Låt X och Y vara två oberoende kontinuerliga stokastiska variabler med tätheter
fX (x) och fY (y).
Sätt Z = X + Y . Då gäller
19
20 Föreläsning 4
Z ∞
= fX (x)FY (z − x) dx.
−∞
4.2 Väntevärden
Vi ska nu införa begreppet väntevärde för en s.v. Detta är den teoretiska
motsvarigveten till begreppet medelvärde för en talföljd.
Antag att vi har en lång talföljd x1 , . . . , xn , där talen är ganska små heltal.
Medelvärdet definierades av
n
1X
x̄ = xk .
n k=1
där
antalet {k; xk = i}
fi = .
n
När vi diskuterade tolkningen av begreppet sannolikhet, så sa vi att
antalet gånger A inträffar
→ P (A) då n växer.
n
För diskreta s.v. gäller då att fk → pX (k) då k → ∞. Vi leds av detta till
följande definition:
Väntevärdet ger samma information och samma brist på information för den
s.v. som melelvärdet ger för en talföljd.
Låt oss tänka på tärningskast igen. Hur mycket skulle ni vara villiga att betala
för följande spel: Jag kastar en tärning, och ni får lika många kronor som det
blir ögon?
Vi har (
1
6
för k = 1, 2, 3, 4, 5, 6
pX (k) =
0 för övriga värden på k,
vilket ger
∞
X X6
1
E(X) = kpX (k) = k = 3.5.
k=0 k=1
6
Poissonfördelningen
µk −µ
pX (k) = e , för k = 1, 2 . . . .
k!
∞
X ∞ ∞
µk −µ X µk −µ X µk
E(X) = k· e = k· e = e−µ
k=0
k! k=1
k! k=1
(k − 1)!
X∞ X∞
µk−1 −µ µi −µ
=µ e =µ e = µ.
k=1
(k − 1)! i=0
i!
Exponentialfördelningen
(
λ e−λx för x ≥ 0,
fX (x) =
0 för x < 0.
Z ∞ Z ∞ y = λx
E(X) = xfX (x) dx = xλ e−λx dx = x = y/λ
−∞ 0 dx = dy/λ
Z ∞ Z ∞
1 1£ ¤∞ 1 1 £ −y ¤∞ 1
= ye−y dy = −ye−y 0 + e−y dy = 0 − e 0 = .
λ 0 λ λ 0 λ λ
Antag att vi känner förd. för X, och vill beräkna E(Y ) där Y = g(X).
Följande, skenbart oskyldiga, sats är ordentligt svår att bevisa i det kontinu-
erliga fallet
Bevis. Blom m.fl. visar satsen i det diskreta fallet, så vi betraktar det konti-
nuerliga fallet. Vi begränsar oss dock till fallet då g är strikt växande. Denna
begränsning förenklar beviset högst avsevärt.
Låt g −1 (x) vara inversen till g. Då gäller
vilket ger
Av detta fås Z ∞
dg −1 (y)
E(Y ) = yfX (g −1 (y)) dy
−∞ dy
x = g −1 (y) Z ∞
−1 (y)
= dx = dy dy =
dg
g(x)fX (x) dx.
−∞
y = g(x)
2
Från denna sats följer bl.a. följande:
E(aX + b) = aE(X) + b.
Spridningsmått
Väntevärdet säger ingen om hur X varierar.
Diskutera
|X − µ| och (X − µ)2
och dess egenskaper!
Vi leds nu till följande definition.
Bevis.
V (X) = E[(X − µ)2 ] = E[X 2 + µ2 − 2µX]
= E[X 2 ] + µ2 − 2µE[X] = E(X 2 ) − µ2 .
2
21
I exemplet med tärningsspel har vi µ = 3.5 = 6
. Vidare har vi
∞
X 6
X
2 2 1 91
E(X ) = k pX (k) = k2 = = 15.16
k=−∞ k=1
6 6
Bevis.
Allmänt gäller:
D – rätt sort.
V – lättare att räkna med.
Exponentialfördelningen.
Z ∞ Z ∞
2 2 −λx 1 2
E(X ) = x λe dx = 2 y 2 e−y dy = part. int. = 2
0 λ 0 λ
⇔
2 1 1 1
V (X) = 2
− 2 = 2 ⇔ D(X) = .
λ λ λ λ
24 Föreläsning 4
Poissonfördelningen
∞
X ∞
µk −µ X µk −µ
E(X(X − 1)) = k(k − 1) · e = k(k − 1) · e
k=0
k! k=2
k!
∞
X X∞ X∞
µk −µ 2 µk−2 −µ 2 µi −µ
= e =µ e =µ e = µ2 .
k=2
(k − 2)! k=2
(k − 2)! i=0
i!
V (X) = E(X 2 ) − µ2 = µ2 + µ − µ2 = µ.
Föreläsning 5
Kovariansen kan sägas ha fel sort. Det verkar rimligt att ett mått på ett så
abstrakt begrepp som samvariation skall vara ”sortfritt”. Det vanligaste måttet
är korrelationskoefficienten.
25
26 Föreläsning 5
Man kan visa att |ρ| ≤ 1, där |ρ| = ±1 betyder att det finns ett perfekt linjärt
samband, dvs. Y = aX + b.
Sats 5.1 Om X och Y är oberoende så är de okorrelerade, dvs. ρ(X, Y ) = 0.
Rita!
Uppenbarligen är dessa variabler beroende. Av symmetrin följer att µX =
µY = 0. Variabeln XY tar alltid värdet 0. Således fås
C(X, Y ) = E(XY ) = 0.
= a2 V (X) + b2 V (Y ) + 2abC(X, Y ).
2
5.2. Mer om väntevärden 27
Följdsats 5.1 Låt X och Y vara två oberoende (okorrelerade räcker) s.v. Då
gäller
Sats 5.3 Låt X1 , . . . , Xn vara oberoende (okorrelerade räcker) s.v. och sätt
Y = c1 X1 + . . . + cn Xn .
Då gäller
E(Y ) = c1 E(X1 ) + . . . + cn E(Xn )
och
V (Y ) = c21 V (X1 ) + . . . + c2n V (Xn )
Arimetiskt medelvärde
Sats 5.4 Låt X1 , X2 , . . . , Xn vara oberoende och likafördelade s.v. med vänte-
värde µ och standardavvikelse σ. Då gäller att
σ2 σ
E(X) = µ, V (X) = och D(X) = √ .
n n
Z
2
≥ε fX (x) dx = ε2 P (|X − µ| > ε).
|x−µ|>ε
2
V (X) σ2
P (|X − µ| > ε) ≤ = →∞
ε2 nε2
då n → ∞. 2
Diskutera relationen till relativa frekvensers stabilitet.
Föreläsning 6
6.1 Normalfördelningen
Diskutera mätfel. Ofta beror mätfelen på att att oberoende fel av samma
storleksordning adderar sig. Erfarenheten visar att mätfel fördelar sig enl. figur.
Rita!
Vi ska återkomma till detta i slutet av föreläsningen.
Standardiserad normalfördelning
Ett problem är att fördelningsfunktionen inte kan ges på en analytisk form.
Det är dock lätt att numeriskt beräkna fördelningsfunktionen och i praktiken
använder man tabeller över Φ(x).
Vi observerar att ϕ(−z) = ϕ(z). Φ(z) är tabulerad endast för x ≥ 0. Vi har
dock Z −z Z z
Φ(−z) = ϕ(x) dx = [y = −x] = − ϕ(−y) dy
−∞ ∞
Z ∞
= ϕ(y) dy = 1 − Φ(z).
z
Om Z är N (0, 1)-fördelad, så kan man visa att
29
30 Föreläsning 6
1 − α = 1 − Φ(λ1−α )
⇔
α = Φ(λ1−α )
⇔
α = 1 − Φ(−λ1−α ),
vilket ger
λ1−α = −λα .
Allmän normalfördelning
Definition 6.2 En s.v. X säges vara N (µ, σ)-fördelad, där µ reell och σ > 0,
om
X −µ
Z= är N (0, 1)-fördelad.
σ
Bevis. Vi har
µ ¶
X −µ x−µ
FX (x) = P (X ≤ x) = P ≤
σ σ
µ ¶ µ ¶
x−µ x−µ
=P Z≤ =Φ .
σ σ
¡ ¢
Derivation ger fX (x) = σ1 ϕ x−µ
σ
. 2
6.1. Normalfördelningen 31
Sats 6.3 Låt X vara N (µ, σ)-fördelad och sätt Y = aX + b. Då gäller det att
Y är N (aµ + b, |a|σ)-fördelad.
Sats 6.4 Om X är N (µX , σX )-fördelad, Y är N (µY , σY )-fördelad och X och
Y är oberoende så gäller att
µ q ¶
2 2
X + Y är N µX + µY , σX + σY -fördelad
och µ q ¶
2
X − Y är N µX − µY , σX + σY2 -fördelad.
Denna sats tycks inte kunna bevisas på annat sätt än genom faltning.
Sats 6.5 Låt X1 , . . . , Xn vara oberoende och N (µ1 , σ1 ), . . . , N (µn , σn ). Då gäller
att v
n n u n
X X uX
ck Xk är N c k µk , t c2k σk2 -fördelad.
k=1 k=1 k=1
Vi har sett några exempel på att normalfördelningen har trevliga statistiska
egenskaper. Detta skulle vi inte ha så stor glädje av, om normalfördelningen
inte dessutom var vanligt förekommande. Centrala gränsvärdessatsen CGS,
som är den huvudsakliga motiveringen för normalfördelningen, kan utan vidare
sägas vara ett av sannolikhetsteorins och statistikens allra viktigaste resultat.
Sats 6.6 (CGS) Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med
väntevärde µ och standardavvikelse σ. Då gäller att
µPn ¶
i=1 Xi − nµ
P √ ≤ x → Φ(x) då n → ∞.
σ n
Följdsats 6.2 Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde
µ och standardavvikelse σ. Då gäller att
µ ¶ µ ¶
b−µ a−µ
P (a < X ≤ b) ≈ Φ √ −Φ √
σ/ n σ/ n
om n är tillräckligt stort.
Det är tyvärr inte möjligt att ge några generella och enkla tumregler om hur
stort n måste vara för att normalapproximationen ska vara användbar. Detta
beror på hur ”normalliknande” de enskilda variablerna Xk är. Om Xk na är
normalfördelade så ”gäller” ju CGS för alla n. En tumregel är att om Xk na
är någorlunda symmetriskt fördelade så räcker ganska små n, säg något tiotal.
Om Xk na är påtagligt skevt fördelade så behöver n var något eller i värsta fall
några hundratal.
Det är svårt att formulera strikt, men det räcker i CGS att Xk na är någorlunda
oberoende och någorlunda lika fördelade. Med ”någorlunda lika fördelade”
menas framförallt att det inte finns vissa Xk som är mycket dominerande.
Detta innebär att mätfel i välgjorda försök kan anses vara approximativt nor-
malfördelade. I mindre välgjorda försök kan det däremot mycket väl finnas
någon dominerande felkälla som inte alls behöver vara approximativt nor-
malfördelad.
Föreläsning 7
Hypergeometrisk fördelning
Antag att vi har N enheter, där proportionen p, dvs N p stycken, har egenska-
pen A. Drag ett slumpmässigt urval om n stycken enheter. Sätt
X = antalet enheter i urvalet med egenskapen A.
I termer av urnmodellen för dragning utan återläggning gäller N p = v och
N (1 − p) = s om A = ”vit kula”. Således fås
¡N p¢¡N (1−p)¢
k
pX (k) = P (X = k) = ¡Nn−k
¢ ,
n
33
34 Föreläsning 7
Sats 7.1 Om X och Y vara oberoende Po(µX )- resp. Po(µY )-fördelade s.v.
Då gäller att X + Y är Po(µX + µY )-fördelad.
Bevis.
k
X k
X (k−i)
µi X µY
P (X + Y = k) = P (X = i)P (Y = k − i) = e−µX e−µY
i=0 i=0
i! (k − i)!
Xk (k−i)
µiX µY
= e−(µX +µY )
i=0
i!(k − i)!
k µ ¶µ ¶i µ ¶(k−i)
−(µX +µY ) (µX + µY )k X k µX µY
=e .
k! i µ X + µ Y µ X + µ Y
|i=0 {z }
= 1, jmf. Bin-förd.
2
7.2 Approximationer
Hyp(N, n, p)
Om n/N är någolunda liten, så verkar det troligt att det inte spelar så stor
roll om vi drar med återläggning eller ej.
Vi har
¡N p¢¡N (1−p)¢
k N p! N (1 − p)! n!(N − n)!
¡Nn−k
¢ =
n
k!(N p − k)! (n − k)![N (1 − p) − (n − k)]! N!
Sats 7.2 Om X är Hyp(N, n, p)-fördelad med n/N ≤ 0.1 så är X approxima-
tivt Bin(n, p)-fördelad.
Bin(n, p)
Av Xs representation som en summa följer att CGS kan tillämpas.
Sats 7.3 Om X är Bin(n, p)-fördelad med npq ≥ 10 så är X approximativt
√
N (np, npq)-fördelad.
36 Föreläsning 7
Trots att halvkorrektionen påtagligt kan höja noggrannheten, tar vi rätt lätt
på den.
√
Av detta följer att Hyp(N, n, p) ≈ N (np, npq) om n/N ≤ 0.1 och npq ≥ 10.
Det räcker dock att kräva N −n
N −1
np(1 − p) ≥ 10.
Vi införde ju Poissonfördelningen som en approximation av binomialfördel-
ningen. Detta kan vi formalisera till följande sats.
Sats 7.4 Om X är Bin(n, p)-fördelad med p ≤ 0.1 så är X approximativt
Po(np)-fördelad.
I vår approximation antog vi även att n var stor. Detta är inte nödvändigt,
men vårt enkla resonemang fungerar inte utan denna extra förutsättning. Man
kan visa att om X är Bin(n, p) och Y är Po(np) så gäller att
|P (X = k) − P (Y = k)| ≤ np2 .
Po(µ)
Om bägga villkoren p ≤ 0.1 och npq ≥ 10 är uppfyllda kan vi välja om vi vill
Poissonapproximera eller normalapproximera. Detta är ingen motsägelse, som
följande sats visar.
Sammanfattning
npq≥10
z}|{ √
≈ N (np, npq)
n/N ≤0.1
z}|{
Hyp(N, n, p) ≈ Bin(n, p)
N −n
N −1
np(1−p)≥10 p≤0.1 µ≥15
z}|{ z}|{ z}|{ √
≈ ≈ Po( np ) ≈ N (µ, µ)
|{z}
=µ
√
N (np, npq)
38 Föreläsning 7
Föreläsning 8
8.1 Punktskattning
Exempel
På en laboration vill man bestämma den fysikaliska konstanten µ. Vi gör upp-
repade mätningar av µ och erhåller följande mätvärden:
x1 , x 2 , . . . , x n
Problem
Hur skall vi skatta µ så bra som möjligt.
Modell
Vi uppfattar mätvärdena som utfall av n st. oberoende och lika fördelade s.v.
X1 , X2 , . . . , Xn med E(Xi ) = µ och V (Xi ) = σ 2 .
En punktskatting µ∗obs av µ är en funktion av mätvärdena: µ∗ (x1 , . . . , xn ).
När vill vill analysera en skatting ersätter vi observationerna med de un-
derliggande stokastiska variablerna. Vi säger då att µ∗ = µ∗ (X1 , . . . , Xn ) är
en stickprovsvariabel. Stickprovsvariabeln är själv en stokastisk variabel, vars
fördelning beror av fördelningen för X1 , X2 , . . . , Xn och därmed av µ.
Om viP inte använder någon statistisk teori så väljer vi antagligen µ∗obs =
1
x = n xi . För motsvarande stickprovsvariabel X gäller att E(X) = µ och
V (X) = σ 2 /n.
Allmänt
Vi har en uppsättning data
x1 , x 2 , . . . , x n
som ses som utfall av s.v.
X1 , X2 , . . . , Xn .
Dessa variabler antages vara oberoende och likafördelade och deras gemensam-
ma fördelning beror av en okänd parameter θ, t.ex. N (θ, σ), Po(θ), N (θ1 , θ2 ),
osv.
∗
En punktskatting θobs av θ är en funktion θ∗ (x1 , . . . , xn ) och motsvarande stick-
provsvariabel θ∗ är θ∗ (X1 , . . . , Xn )
39
40 Föreläsning 8
Definition 8.1
∗
1) En punktskattning θobs av θ är väntevärdesriktig om
∗
E(θ (X1 , . . . , Xn )) = θ.
∗
2) En punktskattning θobs av θ är konsistent om
∗
P (|θ (X1 , . . . , Xn ) − θ| > ε) → 0 då n → ∞.
∗ ∗∗
3) Om θobs och θobs är väntevärdesriktiga skattningar av θ så säger man att
∗ ∗∗
θobs är effektivare än θobs om V (θ∗ (X1 , . . . , Xn )) < V (θ∗∗ (X1 , . . . , Xn )).
Skattning av väntevärdet µ
1
Pn
Sats 8.1 Stickprovsmedelvärdet x = n i=1 xi som skattning av väntevärdet
µ är
1) Väntevärdesriktig;
2) Konsistent;
Bevis.
1) E(X) = µ.
2) V (X) = σ 2 /n och stora talens lag gäller.
3) Motexempel: Låt Xi vara U (0, 2µ), dvs,
(
1
2µ
om x ∈ (0, 2µ),
fX (x) =
0 annars.
µ2
Då gäller E(X) = µ och V (X) = 3n
.
(Om Y är U (a, b) så gäller V (Y ) = (b − a)2 /12.
Betrakta
n+1
µ∗ = max Xi .
2n 1≤i≤n
Då gäller
∗ µ2 ∗ µ2
E(µ ) = µ och V (µ ) = ≤ .
n(n + 2) 3n
8.1. Punktskattning 41
eller (
nxn−1
(2µ)n
om x ∈ (0, 2µ),
fY (x) =
0 annars.
Detta ger Z 2µ
nxn n
E(Y ) = n
dx = 2µ
0 (2µ) n+1
Z 2µ
nxn+1 n
E(Y 2 ) = n
dx = (2µ)2
0 (2µ) n + 2
µ ¶
n n2 n
V (Y ) = − 2
(2µ)2 = 2
(2µ)2 .
n + 2 (n + 1) (n + 2)(n + 1)
Detta ger
n+1 n
E(µ∗ ) = · · 2µ = µ
2n n+1
och µ ¶2
∗ n+1 1 µ2
V (µ ) = V (Y ) = (2µ)2 = .
2n 4n(n + 2) n(n + 2)
2
Skattning av σ 2
1
Pn
Sats 8.2 Stickprovsvariansen s2 = n−1 i=1 (xi − x)2 som skattning av σ 2 är
1) Väntevärdesriktig;
2) Konsistent;
3) Ej nödvändigtvis effektiv.
1) används ofta som motivering för att man dividerar med n − 1, men det är
en dålig motivering, eftersom man oftast vill skatta σ. s som skattning av σ är
dock ej väntevärdesriktig.
Maximum-likelihood-metoden
Vi ska nu studera en systematisk metod att hitta skattningar. Idén är att
skatta θ så att utfallet blir så ”troligt” som möjligt.
Antag att Xi har täthetsfunktionen f (x, θ), θ okänd.
42 Föreläsning 8
Definition 8.2
L(θ) = f (x1 , θ) · · · · · f (xn , θ)
kallas L-funktionen.
∗
Definition 8.3 Det värde θobs för vilket L(θ) antar sitt största värde kallas
ML-skattningen av θ.
9.1 Intervallskattning
Exempel
Vi återgår till vår fysikaliska konstant µ, dvs. vi uppfattar mätvärdena som
utfall av n st. oberoende och lika fördelade s.v. X1 , X2 , . . . , Xn med E(Xi ) = µ
och V (Xi ) = σ 2 .
Oftast är vi inte nöjda med att ange X, utan vi vill ha en uppfattning om
precisionen i skattningen. Visserligen vet vi att
σ
E(X) = µ och D(X) = √ ,
n
43
44 Föreläsning 9
har konfidensgrad 1 − α. En vanlig konfidensgrad är 95%. Då är λ0.025 = 1.96.
b) σ okänt
Vi utgår nu från
X−µ
√ ,
S/ n
där
n
2 1 X
S = (Xi − X)2 .
n − 1 i=1
Man kan beräkna fördelningen för denna variabel.
Man säger att
X−µ
√
S/ n
är t-fördelad med n − 1 frihetsgrader, eller att den är t(n − 1)-fördelad.
t-fördelningen finns tabulerad. Fördelning är symmetrisk, och för stora värden
på n, lik N (0, 1)-fördelningen. Vi återkommer till t-fördelningen.
På samma sätt som i a) fås nu att
√
Iµ = x ± tα/2 (n − 1)s/ n
I fallet med n = 10 gäller t0.025 (9) = 2.26, vilket kan jämföras med λ0.025 = 1.96.
Ett stickprov, konfidensintervall för σ
Vi ska börja med ett par sannolikhetsteoretiska resultat.
χ2 (n)-fördelad.
χ2 (n − 1)-fördelad.
Detta är den ”riktiga” motiveringen till att man i s2 dividerar med n − 1.
Vi är nu i en lite besvärligare situation än för µ, eftersom χ2 -fördelningen
inte är symmetrisk. I normal- respektive t-fallet utnyttjade vi att symmetrin
medförde att λ1−α = −λα resp. t1−α (n − 1) = −tα (n − 1).
Låt nu χ2α (n − 1) vara α-kvantilen i χ2 (n − 1)-fördelningen. Då gäller
µ ¶
(n − 1)S 2
P χ21−α/2 (n − 1) < 2
< χα/2 (n − 1) = 1 − α
σ2
m
à !
χ21−α/2 (n − 1) S2 χ2α/2 (n − 1)
P < 2 < =1−α
n−1 σ n−1
m
à !
n−1 σ2 n−1
P 2
< 2
< 2 =1−α
χα/2 (n − 1) S χ1−α/2 (n − 1)
m
à !
(n − 1)S 2 2 (n − 1)S 2
P < σ < =1−α
χ2α/2 (n − 1) χ21−α/2 (n − 1)
m
46 Föreläsning 9
Ãs s !
(n − 1)S 2 (n − 1)S 2
P <σ< = 1 − α.
χ2α/2 (n − 1) χ21−α/2 (n − 1)
Detta ger att à !
(n − 1)s2 (n − 1)s2
Iσ2 = ,
χ2α/2 (n − 1) χ21−α/2 (n − 1)
resp. Ãs s !
(n − 1)s2 (n − 1)s2
Iσ = ,
χ2α/2 (n − 1) χ21−α/2 (n − 1)
Sats 9.2 Om X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade så är X och
S 2 oberoende.
Denna sats karakteriserar normalfördelningen! Den är således inte sann för
någon annan fördelning.
Av detta följer nu att r
X−µ X − µ . S2
√ = √
S/ n σ/ n σ2
är t(n − 1)-fördelad.
Två stickprov, konfidensintervall för skillnad mellan väntevärden.
Normalfördelning
Modell:
X1 , X2 , . . . , Xn1 är N (µ1 , σ1 ) (stickprov 1)
Y1 , Y2 , . . . , Yn2 är N (µ2 , σ2 ) (stickprov 2)
där alla Xen och Y na är oberoende.
a) σ1 och σ2 kända
Vi vill nu skaffa oss ett konfidensintervall för µ1 − µ2 . En naturlig skattning
av µ1 − µ2 är X − Y . Eftersom den är en linjärkombination av oberoende
9.1. Intervallskattning 47
(X − Y ) − (µ1 − µ2 )
q 2
σ1 σ2
n1
+ n22
(X − Y ) − (µ1 − µ2 )
q
σ n11 + n12
b) σ1 = σ2 = σ okänd
Vi betraktar nu fallet då σ1 = σ2 = σ, men där σ är okänd. Detta skattas med
s där s2 är den sammanvägda stickprovsvariansen.
Man kan visa att man skall välja
Stickprov i par
Exempel
På ett bryggeri gör man varje dag analyser av alkoholhalten i öl. Dessa ana-
lyser utförs av två kemister A och B. Man vill undersöka om det finns någon
systematisk skillnad mellan As och Bs mätningar. Varje dag, under n dagar
låter man A och B, oberoende av varandra, analysera samma prov.
48 Föreläsning 9
där alla Xen och Y na är oberoende. Vi menar här att Xi är N (µi , σA )-fördelad
och att Yi är N (µi + ∆, σB )-fördelad.
Knepet är nu att bilda
Zi = Yi − Xi
som är N (∆, σ)-fördelad, med
µ q ¶
σ = σA2 + σA2 .
Vi har nu återfört problemet till fallet med ett stickprov, och kan ge konfi-
densintervall eller genomföra test för ∆ på samma sätt som vi gjorde för µ,
dvs. √
I∆ = z ± λα/2 σ/ n
om σ känd och √
I∆ = z ± tα/2 (n − 1)s/ n
om σ okänd, där
n
2 1 X
s = (zi − z)2 .
n − 1 i=1
Approximativa konfidensintervall
Ett stickprov, konfidensintervall för µ
Modell: X1 , X2 , . . . , Xn antages vara oberoende och likafördelade s.v. med
E(Xi ) = µ och V (Xi ) = σ 2 .
Om n är någolunda stort, så gäller enligt CGS att
X−µ
√ är approximativt N (0, 1)-fördelad,
σ/ n
Binomialfördelning
Antag nu att vi observerar ett utfall x av en s.v. X som är Bin(n, p)-fördelad,
där p är okänt. En naturlig skattning av p är
x
p∗obs = .
n
Då gäller, om np(1 − p) ≥ 10, och det kan vi anta om np∗obs (1 − p∗obs ) ≥ 10
”med lite råge”, att
p∗ − p
p
p(1 − p)/n
är approximativt N (0, 1)-fördelad. Här är en viktig skillnad från tidigare,
nämligen att väntevärde och varians inte är ”fria” parametrar. Det enklas-
te, och förmodligen det vanligaste, är att man skattar variansen med hjälp av
p∗obs , och således leds man till det approximativa konfidensintervallet
q
∗
Ip = pobs ± λα/2 p∗obs (1 − p∗obs )/n .
50 Föreläsning 9
Föreläsning 10
10.1 Hypotesprövning
X1 , X2 , . . . , Xn .
Dessa variabler antages vara oberoende och likafördelade och deras gemensam-
ma fördelning beror av en okänd parameter θ.
En hypotes om verkligheten är i detta sammanhang en mängd av θ-värden.
Formaliserat betyder detta att vi vill testa en nollhypotes
H0 : θ ∈ H0
mot ett alternativ (eller en mothypotes)
H1 : θ ∈ H1 .
Eftersom detta blir lite abstrakt, så exemplifierar vi steg för steg med fallet då
X1 , X2 , . . . , Xn är oberoende och N (µ, σ)-fördelade där µ och σ är okända.
Exempel
H 0 : µ = µ0
mot
H1 : µ 6= µ0 .
Att testa H0 är detsamma som att avgöra om våra data är ”förenliga” med
H0 . Om H0 ej är sann vill vi förkasta H0 till förmån för H1 . Vi bildar därför
en teststorhet T = T (x1 , . . . , xn ) och ett kritiskt område C. (För ögonblicket
bekymrar vi oss inte för hur T och C lämpligen bildas.)
Test: Förkasta H0 om T ∈ C.
I praktiken bestäms T av situationen och C av signifikansnivån (eller felrisken)
α:
signifikansnivån = α ≥ P (H0 förkastas om H0 sann)
51
52 Föreläsning 10
= P (T (X1 , . . . , Xn ) ∈ C om H0 sann).
Med risknivån garderar vi oss således mot felet att förkasta H0 då H0 är sann.
Vi bör välja H0 så att detta är det allvarligase felet. Det andra möjliga felet
är att ej förkasta H0 då H0 är falsk. Vi bildar styrkefunktionen
För θ ∈ H0 gäller således att h(θ) ≤ α. Ett test är ”bra” om h(θ) är stor då
θ ∈ H1 .
Vi håller oss tills vidare till exemplet.
Här verkar det rimligt att utgå från
X − µ0
T (X1 , . . . , Xn ) = √ ,
s/ n
som under H0 är t(n − 1)-fördelad, och att förkasta H0 om |T (x1 , . . . , xn )| är
för stor.
Vi får då
α = P (|T (X1 , . . . , Xn )| > c om H0 sann),
vilket ger c = tα/2 (n − 1).
Vi kan nu binda ihop hypotesprövning med konfidensintervall, genom att kon-
statera att testet är exakt detsamma som följande:
Bilda ett konfidensintervall Iµ och förkasta H0 om
Iµ 63 µ0 .
Detta verkar ju högst rimligt. Iµ ger ju de ”troliga” värdena på µ, och om the
hypotetiska värdet inte hör dit, så bör ju H0 förkastas.
Om vi förkastar H0 säger vi att ”µ är signifikant skilt från µ0 . Ordet signifikant
är egentligen inte så bra, eftersom det ofta tolkas som att skillnaden är ”viktig”,
men det betyder i själva verket endast ett ”skillnaden förmodligen inte är
slumpmässig”.
En god regel, om vi är intresserade av µs eventuella avvikelse från µ0 , är att
först göra en hypotesprövning. Om µ är signifikant skilt från µ0 , kan vi ta detta
som ”alibi” för att diskutera storleken på avvikelsen. Detta görs lämpligen
genom att vi betraktar Iµ . På detta sätt minskar vi risken för att göra en ”stor
sak” av rent slumpmässig skillnad.
10.2. χ2 -test 53
Ensidiga test
Vi betraktar nu följande situation:
H 0 : µ = µ0
mot
H1 : µ > µ0 (resp. µ < µ0 ).
Låt oss anta att stort värde på µ är en önskad egenskap. Det kan vara naturligt
att vi gör en åtgärd, t.ex. köper någon ny utrustning, som bör öka värdet på
µ. Det är naturligt att vi endast vill köpa denna nya utrustning om vi är
någolunda säkra på att den verkligen ger ett högre värde på µ än µ0
Det är då naturligt att testa
H 0 : µ = µ0
mot
H1 : µ > µ0 .
Testet blir då att vi förkastar H0 om T (x1 , . . . , xn ) är för stor, eller mera precist
om √
T > tα (n − 1) eller om x̄ > µ0 + tα (n − 1)s/ n.
Tolkningen är att vi kräver, för att förkasta H0 , att x̄ är tillräckligt mycket
större än µ0 för att det inte ska vara troligt att skillnaden är slumpmässig.
Det är egentligen inte en statistisk fråga hur man skall välja H1 . Ofta kan det
vara enklare att titta på testet, för att övertyga sig att man ”garderar” sig åt
”rätt håll”. Viktigt är dock att man bestämmer sig innan man har studerat
data, för annars blir signifikansnivån fel.
Grundregeln är dock att det vi vill påstå skall sättas som H1 , eftersom vi bara
kan dra två slutsatser av ett test:
”H0 förkastas ej”, vilket inte betyder att vi visat att den är sann;
”H0 förkastas”.
Givetvis skulle vi mycket väl kunna vilja påstå att µ = µ0 , och då skulle vi
ju vilja testa H0 : µ 6= µ0 mot H1 : µ = µ0 . Detta går inte, eftersom inga
observationer i världen skulle kunna få oss att förkasta detta H0 .
Den som gör ett test, ”vill” därför ofta att H0 ska förkastas. Det är nog detta
som gör att begreppet signifikant misstolkas.
10.2 χ2-test
H0 : P (Ai ) = pi för i = 1, . . . , r
mot
H1 : ej alla P (Ai ) = pi .
För att göra detta bildar vi
r
X (xi − npi )2
Qobs = .
i=1
npi
Man kan visa att Q är approximativt χ2 (r − 1)-fördelad under H0 . (Vi tillåter
oss här att slarva lite med s.v. och dess utfall.)
För att göra resultatet troligt, betraktar vi r = 2. Då gäller, med X = X1 och
p = p1 att
En vanlig tillämpning är att vi vill testa om ett stickprov kommer från en viss
fördelning, eller en viss klass av fördelningar. Man klassindelar då observatio-
nerna, t.ex. enl följande:
Xs X r
(xij − ni p∗j )2
Qobs = ∗
,
i=1 j=1
n i pj
där Ps
xij
p∗j = (p∗j )obs = Pi=1
s .
i=1 ni
Man kan visa att Q är approximativt χ2 ((r − 1)(s − 1))-fördelad under H0 .
56 Föreläsning 10
= s · (r − 1) − (r − 1) = (r − 1)(s − 1).
Oberoendetest
Vi tar nu ett stickprov om n enheter, där varje enhet klassifiseras efter två
egenskaper, A och B. Vi kan skriva detta i en kontingenstabell, lik den tabell
vi hade i hogenitetstestet.
Egenskap A1 A2 . . . Ar Total
där
xi· x·j
p∗i· = (p∗i· )obs = och p∗·j = (p∗·j )obs = .
n n
Man kan även här visa att Q är approximativt χ2 ((r−1)(s−1))-fördelad under
H0 .
Frihetsgraderna fås på följande sätt:
11.1 Regressionsanalys
Exempel
Vi vill undersöka hur en termometer mäter temperatur. Vi prövar därför ter-
mometern i vätskor med olika temperaturer x1 , . . . , xn . Dessa temperaturer
anser vi helt kända. Motsvarande mätvärden y1 , . . . , yn antar vi är ungefär
en linjär funktion av den verkliga temperaturen: yk ≈ α + βxk . Som vanligt
uppfattas mätvärdena y1 , . . . , yn som utfall av s.v. Y1 , . . . , Yn .
Modell:
Yk = α + βxk + εk ,
där ε1 , . . . , εn är oberoende och εk är N (0, σ)-fördelad. Observera att σ förutsätts
att ej bero av x, vilket ofta är det kritiska antagandet.
Det är vanligt att modellen skrivs på formen
Yk = α0 + β(xk − x) + εk ,
dvs. α ersätts med α0 − βx.
Vi skattar parametrarna α och β med Minsta-Kvadratmetoden, dvs. vi mini-
merar n
X
Q(α, β) = (yi − α − βxi )2
i=1
∗ ∗
m.a.p. α och β. De värden αobs och βobs som ger minimum kallas MK-skattningarna
av α och β.
Vi får nu:
X n
∂Q
= −2 (yi − α − βxi ) = −2n(y − α − βx)
∂α i=1
X n
∂Q
= −2 xi (yi − α − βxi ).
∂β i=1
57
58 Föreläsning 11
σ 2 skattas med
Q0
s2 = ,
n−2
där
n
X
∗ ∗ ∗ ∗
Q0 = Q(αobs , βobs ) = (yi − αobs − βobs xi )2 .
i=1
Linjen
∗ ∗
y = αobs + βobs x.
kallas den skattade regressionslinjen.
Eftersom både α∗ och β ∗ är linjära funktioner i Y -variablerna, kom ihåg att
xen är givna tal, så är de normalfördelade.
Q0 (n − 2)S 2
=
σ2 σ2
är χ2 (n − 2)-fördelad och att S 2 är oberoende av α∗ och β ∗ .
Detta gör att vi kan konstruera konfidensintervall och test som förut, både
då σ är känt och okänt. För att inte behöva skriva alla intervall två gånger så
betraktar vi fallet då σ är okänd. Eftersom α nu förekommer som en parameter,
så ger vi konfidensintervall med konfidensgrad 95%. Metoden är definiera ett
θ och sedan bilda
∗
Iθ = θobs ± t0.025 (n − 2)d(θ∗ ),
där d(θ∗ ) är skattningen av D(θ∗ ).
11.1. Regressionsanalys 59
θ = α + βx = α0
σ2
Vi har V (θ∗ ) = V (Y − β ∗ x + β ∗ x) = V (Y ) = n
, vilket ger
r
1
Iα+βx = y ± t0.025 (n − 2)s .
n
Man kan visa att Y och β ∗ är oberoende, vilket är skälet till att modellen ofta
skrivs på formen med α0 .
θ=β
2
Vi har V (β ∗ ) = Pn σ 2, vilket ger
i=1 i −x)
(x
∗ s
Iβ = βobs ± t0.025 (n − 2) pPn .
(x − x)2
i=1 i
θ = α + βx0 = α0 + β(x0 − x)
s
∗ ∗ 1 (x0 − x)2
Iα+β(x0 −x) = αobs + βobs (x0 − x) ± t0.025 (n − 2)s + Pn 2
.
n i=1 (xi − x)