Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

FORMEL- OCH TABELLSAMLING

för kursen

7778 STATISTISK ANALYS

HANKEN
INSTITUTIONEN FÖR FINANSIELL EKONOMI OCH EKONOMISK STATISTIK
VASA, JANUARI 2016
1

INNEHÅLLSFÖRTECKNING

FORMLER

Sannolikhetsteori…………………………………………….. 2
Diskreta sannolikhetsfördelningar…………………………. 2
Kontinuerliga sannolikhetsfördelningar……………………. 3
Deskriptiv statistik……………………………………………. 3
Stickprovsteori................................................................... 4
Parametriska hypotestest och konfidensintervall............... 5
Variansanalys.................................................................... 6
Korrelation och Kovarians………………………………….. 6
Regressionsanalys............................................................ 7
Multipel regression............................................................ 8
Icke-parametriska hypotestest........................................... 9

TABELLER
(H. R. Neave: Statistics Tables for mathematicians, engineers, economists
and the behavioural and management sciences, George Allen & Unwin,
1978)

Binomialfördelning (1.1).................................................... 10-13


Normalfördelning (2.1-2.5)................................................ 14-16
Student's t-fördelning (3.1)................................................ 16
2-fördelning (3.2)............................................................. 18
F-fördelning (3.3)............................................................... 18-19
Wilcoxon's test (5.1).......................................................... 20
Kolmogorov-Smirnov test (5.2).......................................... 20
Mann-Whitney's U-test (5.3).............................................. 21
Kruskal-Wallis test (4.2)..................................................... 21
Spearman's rangkorrelation (6.4)....................................... 22
Wald-Wolfowitz runtest (5.5).............................................. 22
von Neuman ratio (6.7)...................................................... 23
Durbin-Watson (6.8).......................................................... 23
2
SANNOLIKHETSTEORI

Union: P(A eller B eller båda) = P(AB) = P(A)+P(B)–P(AB)


Snitt: P(A och B) = P(AB)=P(A)P(B) om A och B är oberoende, annars:
P(AB)=P(A)P(B|A)

P ( A1 och B ) P ( A1 )P ( B | A1 )
Bayes sats: P ( A1 | B )  
P( B ) P ( A1 )P ( B | A1 )  P ( A2 )P ( B | A2 )    P ( An )P ( B | An )

Kombinatorik Formel På räknaren


Antal permutationer (ordningsföljder) av n element n! = n·(n-1)·(n-2)· ... 1 n!
Antal permutationer av urval (urval med ordningsföljd) n!
då r element väljs ur en mängd av n element Prn  nPr
( n  r )!
Antal kombinationer av urval då r element väljs ur en n n!
mängd av n element (oberoende av ordning) Crn     nCr
 r  r ! ( n  r )!
Antal kombinationer av urval då r element väljs ur en ( n  r  1)! nCr, där n ges
mängd av n element med upprepning C r' n 
r ! ( n  1)! värdet n+r-1

DISKRETA SANNOLIKHETSFÖRDELNINGAR (ALLMÄNT)

En diskret stokastisk variabel X antar värden x1, x2, ... ,xn med sannolikheterna p1, p2, ...,
pn.
n
 Totalsannolikhet  P( X  x )  1
i 1
i

n
 Väntevärde E(x):    P ( X  x i )  x i
i 1
n
 Varians V(x):    P( X  x i )  ( x i   ) 2
2

i 1

 Standardavvikelse    2

Fördelning Definitionsmängd Diskret sannolikhet Väntevärde Varians


n
Binomial- XBin(n, ) P ( X  r )      r  ( 1   ) n r n n (1-)
r 
fördelning r = 0, 1, ..., n
 N   N  N  N n
     n    (1   ) 
XHyp(N, N, n)  n  r   n 
P( X  r )    N 1
Hypergeo- r
metrisk r = 0, 1, ..., n N  N N
fördelning   där   där  
N N
n 
Poisson- XPo() r  
P( X  r )  e  
fördelning r = 0, 1, 2, ... r!
3
KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR (ALLMÄNT)

Om en kontinuerlig stokastisk variabel X är definierad i utfallsrummet  = [a, b], där


delintervall utgör händelser, t.ex. c X d där [c,d], så gäller för dess täthetsfunktion
f(x):

 f(x) > 0 för alla x


b 

 Totalsannolikhet  f ( x )dx  1 då x  [a,b]


a
(om  = 
, så är f ( x )dx  1)

x
 Fördelningsfunktion F ( x )  P ( X  x )   f (t ) dt
a
d
 Sannolikhet för en händelse P ( A)  P (c  X  d )   f ( x ) dx  F (d )  F (c )
c
b
 Väntevärde E(x):    f ( x )  x dx då x  [a,b]
a
b
 Varians V(x):  2   f ( x )  ( x   ) 2 dx då x  [a,b]
a

 Standardavvikelse    2

Fördelning Definitionsmängd Kontinuerlig sannolikhet (intervall) Väntevärde Varians


Den kumulativa sannolikheten:
Normal- XN(, 2) x  μ 2
P( X  x 0 )  P( Z  0 )  (z 0 )
fördelning X 

DESKRIPTIV STATISTIK

Lägesmått för stickprov


 Modus, typvärde: Mo = värdet med den största frekvensen f(x)
 Median: Md = värdet på den mittersta observationen i ett storleksordnat material. Om
antalet observationer är jämnt är Md ett genomsnitt av de två mittersta värdena.
n

x i
x1  x 2  ...  x n
Medeltal: x  i 1

n n
k

f  xi
f1  x1  f2  x 2  ...  f k x k
i
Medeltal räknat på frekvenstabell: x  i 1

n n
Vid klassindelat material används i regel klassmittarna i beräkningarna.

Spridningsmått för stickprov


Q 3  Q1
 Kvartilavvikelse: Q = = ett halvt kvartilavstånd => medelavståndet mellan
2
värdena på de observationer för vilka P(x)=25 % och P(x)=75 % i ett storleksordnat
material.
 Variationsvidd, variationsbredd (eng. range): R=xmax−xmin
n

( x i  x )2
 Varians: s 2  i 1
. Standardavvikelse: s= s 2
n 1
4

STICKPROVSTEORI inkl. konfidensintervall vid ändlig population N


Obundet slumpmässigt urval (OSU):
1 
ˆ  x   x i 
n
 konf.int. för  : x  z  s x
s n 
s x  (1  f) , där f 
n N 
nA 
ˆ  p  
n 
 konf.int. för  : p  z  s p
p(1 - p) 
s p  (1  f)
(n  1) 

Stratifierat slumpmässigt urval (SSU):


1 Nh 
ˆ *  x    Nh x h   Wh x h , där Wh  
N N 
 konf.int. för  * : x   z  s x *
s2 n 
s x*   Wh2 (1  fh ) h , där fh  h
nh Nh 

ˆ *  p    Whp h 

p (1 - p h )  konf.int. för  * : p   z  s p*
s p*   W (1  fh ) h
2
h 
(nh  1) 

SSU med proportionell allokering: SSU med Neyman allokering:


Wh s h
n h  Wh  n nh  n
 Wh s h
SSU med optimal allokering:

C   nhCh där C h anger kostnaden att undersöka en enhet i stratum h


Wh s h Ch
nh  n
W s h h Ch
5
PARAMETRISKA HYPOTESTEST OCH KONFIDENSINTERVALL
I varje fält finns teststatistikan ovanför och konfidensintervallet under.

Parameter Då variansen 2 okänd 1) Då variansen 2 känd Förklaringar


 x - 0 x - 0
t= z=
s 
medelvärdet i en
n df = n-1
n
population
x  t 1- (df)  s x  z 1-  
2 n 2 n
1−2 x1  x 2  D0 x1  x 2  D0
t z
(n1  1)s  (n 2  1)s
2 2
1 1  12  22 df  n 1  n 2  2
skillnad mellan 1 2
 
medelvärden i n1  n 2  2 n1 n 2 n1 n2
D0=differensen som
två oberoende
anges i H0
grupper x 1  x 2  t 1  2 (df)  s vägd 
1

1  12  22
x 1  x 2  z 1-  2  
då  12   22 n1 n 2 n1 n2

1−2 x1  x 2  D0 x1  x 2  D0
t z  s12 s22 
2

skillnad mellan s12 s 22  12  22   


  df   n1 n2 
medelvärden i n1 n 2 n1 n2 2
 s12   1   s22   1 
2

 n   n  1    n   n  1 
 1  1   2  2 
två oberoende
grupper s12 s 22  12  22
x 1  x 2  t 1  2 (df)   x 1  x 2  z 1-  2   D0=differensen som
då  12   22 n1 n 2 n1 n2
anges i H0

d x d  D0 x d  D0 df = n-1
t z
sd d
medelskillnad
n n
för matchade
sd x d  z1 2 
d D0=differensen som
par
x d  t 1 2 (df)  n anges i H0
n
df  (n s  1, n m  1)
12−22
F  ss2 sm2 s 2s  större varians,
skillnad mellan
s 2m  mindre varians
två varianser
(dubbelsidigt test)

1) om du har litet stickprov kräver användning av t-fördelning att materialet är normalfördelat


Parameter Då ni 5 i varje kategori Förklaringar
 p -0
z=
relativ andel i en  0 (1 -  0 ) n
population p  z 1-  p(1-p) n
2

1-2 p1  p 2  D 0 (nA1  nA2 )


z p
1 1 (n1  n2 )
skillnad mellan p(1  p )(  ) D0=differensen som anges i H0
relativa andelar i n1 n 2
Om D0 har ett annat värde än 0 i nollhypotesen
två oberoende p1 (1  p1 ) p2 (1  p2 ) skall andelarna INTE först sammanvägas till ett
p 1  p 2  z1  2   gemensamt p i nämnaren utan hållas separata
grupper n1 n2 som vid konfidensintervall
6

VARIANSANALYS (ANOVA)

Modell (en faktor): ij~N(0,2)


r
i = 1,..., r j = 1,..., ni n i n
y ij     i   ij
i =1

ni r ni
Ti   y ij T =  y ij
j 1 i=1 j1

Ti T
yi  y=
ni n
SSy   ( y ij  y ) 2
SSA   n i ( y i  y ) 2
SSE   ( y ij  y i ) 2
SSy = SSA + SSE

SS df MS F
SSA r-1 MSA F=MSA/MSE
SSE n-r MSE
SSy n-1

n= totala antalet observationer, r= antal kategorier (grupper)

 2 SSE SSA
  s 2  MSE = MSA =
n-r r -1
s 1 1 
y i  t 1 2 (df) (y i  y j )  t 1 2 (df)  s   df  n  r
ni ni n j 

KORRELATION OCH KOVARIANS

Kovarians : côv( x , y ) 
( x i  x )( y i  y )
n 1

Korrelationskoefficient (Pearsons) : r xy 
 ( x  x )( y  y )
i i

 ( x  x ) . ( y  y )
i
2
i
2

Hypotestest för korrelation:


rxy n  2
H0 :  xy  0 t  , df = n - 2
2
1  rxy
7
ENKEL REGRESSION (specialfall av multiple regression)

Modell :
y i    x i   i i~N(0,2)
  
 y i  a  bx i a    y  bx b    SSxy
SSx

SSy  SSR  SSE


( y i )2
SSy   (y i  y)   y 
2 2
i
n

SSR   ( y i  y) 2  bSSxy

SSE   (y i  y ) 2  SSy  bSSxy

SSE SSR 2
R2  1   rxy
SSy SSy

ANOVA för test av hela modellens signifikans:


SS df MS F
SSR 1 MSR F=MSR/MSE
SSE n-2 MSE
SSy n-1 MSy

SSE SSR SSy


s 2  MSE = MSR  MSy =
(n - 2) 1 n -1

Hypotestest av modellens koefficienter:

H0 :   0 t
a
, sa  s
x 2
i


sa nSSx 
 df = n - 2
b s 
H0 :   0 t , sb  
sb SSx 

Konfidensintervall:

 a  t 1 (df ) s a , sa = s
x 2
i


2 nSSx 
s 
 b  t 1 (df) s b , sb  
2 SSx 
 df = n - 2
1 (x 0  x) 2 
  x 0 (a  bx 0 )  t 1 (df)s  
2 n SSx

1 (x 0  x) 2 
  x 0   (a  bx 0 )  t 1 (df)s 1   
2 n SSx 
8
MULTIPEL REGRESSION

Modell:
y i    1x1i   2 x 2i  ....   k x ki   i  i ~ N(0,  2 )


 y i  a  b1x1i  b 2 x 2i  .....  bk x ki

Hypotestest av modellens koefficienter:


bj 
H0 :  j  0 t b j  t1 (df)s b j  df  n  k  1
sbj 2 

SSy   (y  y) i
2




SSR   ( y  y ) i
2
 SSy  SSR  SSE
 
SSE   (y  y ) i i
2

SSR SSE SSE / (n  k  1)


R2   1 Korrigerat R 2  1 
SSy SSy SSy / (n - 1)

ANOVA för test av hela modellens signifikans:


SS df MS F
SSR k MSR F=MSR/MSE
SSE n-k-1 MSE
SSy n-1 MSy

n= antalet observationer, k= antal oberoende (x-) variabler i modellen

2 SSE SSR SSY


  s 2  MSE  MSR  MSy =
n  k 1 k n -1

Simultant test för q st. koefficienter som grupp:

2
(SSER - SSEUR ) q (RUR - RR2 ) q
F=  2
~ F(q, n - k - 1)
SSEUR (n - k - 1) (1 - RUR ) (n - k - 1)

UR anger den orestrikterade modellen (med alla k koefficienter)


R anger den restrikterade modellen (med k-q koefficienter)
9

ICKE-PARAMETRISKA HYPOTESTEST

Approximationer som
Teststatistika vid behov kan göras Definitioner
för stora stickprov
Chi2- c
(ni  ei )2 df = c-1
anpassningstest 2  
av en frekvens- i 1 ei ei = in
fördelning Krav: ei ≥5
Chi2- c r (nij  eij )2 df =(r-1)(c-1)
oberoendetest av 2   
samband mellan i 1 j 1 eij eij= ni.n.j / n
två frekvens- Krav: eij ≥ 5 i åtm.
fördelningar 80 % av cellerna
Teckentest för Notera hur många ggr den ena
parvisa gruppen ”vunnit” över den andra Då n 10 kan nA
jämförelser => nA. normalfördelning användas: p
n
nA är Binomialfördelad
Teckentest för Notera hur många ggr en p  0,5 Nollorna stryks!
median variabel är större än sitt z
medianvärde => nA. 0,5 1
n
nA är Binomialfördelad
Wilcoxons Då n>25 kan RS= rangsumma
tecken-rangtest W   RS  , W   RS  normalfördelning användas: för positiva resp.
för parvisa negativa skillnader
jämförelser W  14 n(n  1)
W  min(W  ,W  ) z Nollorna stryks!
1
24 n(n  1)(2n  1)
Mann-Whitneys n1 (n1  1) Då n1 och n2 >10 kan RSi= rangsumma
U-test för två U12  n1n 2   RS1 normalfördelning användas: för grupp i
2
oberoende
n (n  1)
grupper U21  n1n 2  2 2  RS 2 U  12 n1n2 Kontroll:
(Wilcoxons 2 z U12+U21=n1n2
1
12 n1n2 (n1  n2  1)
rangsumme- U  min(U12 ,U 21 )
test)
Kruskal-Wallis 12  c RS i2  RSi= rangsumma
H    3(n  1) Då alla ni > 5 kan Chi -
2
test för flera för grupp i
oberoende n(n  1)  i1 n i  fördelning användas för H.
grupper c=antalet grupper
(variansanalys df=c-1
enligt rang)
Spearmans Då n>25 kan di= rang1-rang2
rangkorrela- 6 di 2 normalfördelning användas:
tionskoefficient rs  1  rs Kontroll: di=0
n(n 2  1) z
1
(n  1)
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 10
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 11
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 12
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 13
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 14
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 15
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 16
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 17
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 18
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 19
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 20
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 21
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 22
FORMELSAMLING FÖR FORSKNINGS- OCH UNDERSÖKNINGSMETODIK 23
VAD VILL DU GÖRA?

Beskriva data Kan värdena


Är variabeln kvantitativ? NEJ NEJ
i en eller flera rangordnas? Cirkel- och
JA
grupper stapeldiagram.
JA
Medeltal, median, kvartiler, Frekvenstabell.
standardavvikelse, varians, Typvärde, median. Typvärde.
kvartilavvikelse. Cirkel- och stapeldiagram.
Histogram, boxdiagram, stolpdiagram. Frekvenstabell
Testa och Kan värdena
Är variabeln kvantitativ samt
estimera ett NEJ Z-test och
normalförd. (alt. n ≥30)? NEJ rangordnas?
parameter- konfidensintervall
JA JA
värde för relativ andel π.
T-test och konfidensintervall för ett Teckentest av median Ex. Är andelen >
medeltal µ. Ex: Är medianen <2? 50 %?
Ex: Är medeltalet > 3?
Testa en Är variablerna kvantitativa & Kan värdena
förändring i skillnaderna normalförd. rangordnas?
NEJ Teckentest för
en variabel NEJ skillnad mellan par
(alt. n ≥30)? JA
(före-efter) Ex: Har det skett en
JA
eller skillnad i Wilcoxons teckenrangtest förändring? (skillnad i
matchade par T-test för medelskillnad mellan par för skillnad mellan par andelar)
Ex: Har det skett en förändring? Ex: Har det skett en
(medelskillnad) förändring? (rangskillnad)
Jämföra två Är variabeln kvantitativ samt Kan värdena
oberoende NEJ Konfidensintervall
normalförd. i båda grupperna rangordnas?
grupper (alt. n1 och n2 ≥30)? JA
och Z-test för
NEJ
skillnad mellan två
JA
Mann-Whitneys U-test andelar π1-π2
T-test för skillnad mellan två mellan två medelrangtal Ex: Skillnad mellan
medelvärden µ1-µ2 Ex: Finns det en skillnad två andelar
Ex: Finns det en skillnad mellan två mellan två rangordningar Chi2-oberoendetest
medeltal (mellan två grupper)? (mellan två grupper)? Ex: Finns det en
F-test för skillnad mellan två skillnad mellan två
varianser σ12-σ22 andelar?
Ex: Är variansen lika stor i båda
grupperna?
Jämföra fler Är variabeln kvantitativ samt Kan värdena
oberoende normalförd. (alt. alla ni ≥30) med rangordnas?
NEJ Chi2-oberoendetest
grupper (>2) lika varianser i alla grupper? NEJ JA
Ex: Finns det en
JA
skillnad mellan flera
Kruskal-Wallis-test andelar (mellan flera
Variansanalys (ANOVA) Ex: Finns det en skillnad grupper)?
Ex: Finns det en skillnad mellan flera mellan flera rangordningar?
medeltal (mellan flera grupper)? (mellan flera grupper)?
Undersöka Är variablerna kvantitativa samt Kan värdena Korstabell
samband NEJ (kontingens-tabell)
normalförd. (alt. n ≥30)? NEJ rangordnas?
mellan JA JA
variabler Chi2-oberoendetest
Spridningsdiagram Rangkorrelation rs Ex: Finns det ett
Korrelation rxy Ex: Finns det ett samband samband mellan två
Ex: Finns det ett linjärt samband mellan två rangordningar? grupperingar?
mellan två variabler?
Multipelregression
Ex: Finns det linjära samband mellan
flera variabler?
Testa en Chi2-
frekvens- anpassningstest
fördelning Ex. Är frekvenserna
fördelade i propor-
tionerna π1, π2 osv?

You might also like