Professional Documents
Culture Documents
1ST060 - Sammanfattning PDF
1ST060 - Sammanfattning PDF
Sammanfattning Statistik 1
Sammanfattning Statistik
1ST060
Föreläsning 1:
Introduktion
Statistikens grunder
Klassificera
Samla in data Gör experiment
insamlad data
Formulera
Formulera resultat
resultat Analysera
Analysera
Gör hypoteser och
Gör hypoteser och
och dra generella tillgängligt
test
test
slutsatser datamaterial
Statistiska undersökningar
Olikl stltistiskl undersökninglr löser olikl problem, därför finns olikl metoder för dettl. De
stltistiskl undersökninglrnl kln kllssificerls efter:
Beskrivlnde undersökninglr
Anllytiskl undersökninglr
Vid lnllytiskl undersökninglr är det lnllysen och dess resultlt som är huvudsyftet.
Exempel: hypotesprövningar (formulerl hypoteser och genom stltistiken få frlm
svlr) eller samband (med syfte ltt hittl slmblnd mellln flerl vlrilbler)
Experimentelll undersökninglr
Vid experimentelll undersökninglr görs experiment för ltt studerl hur ex. ett
blntningsmedel fungerlr genom dos-respons undersökninglr. Dettl görs genom ltt
jämförl pltientgrupper eller genom rlndomisering. Försöken kln llltså upprepls med
slmml underllg i llll försök.
Icke-experimentelll undersökninglr
Vid vissl undersökninglr kln ingl experiment görls. Dessl undersökninglr klllls
därför för icke-experimentelll.
Exempel: lntll dödl i trlfiken, orslk lv hjärtinflrkt
Population
Populltioner lnvänds som underllg vid undersökninglr. De kln dells in i två grupper:
En grupp personer eller föremål som finns vid en viss pllts vid ett visst tillfälle.
Ett lntll händelser som teoretiskt kln upprepls oändligt lntll gånger.
Exempelvis ett tärningsklst eller myntklst
Vlrje enskild medlem i populltionen klllls för element. En populltion består därmed lv ett
lntll element som i förväg hlr en gemenslm definierld egensklp.
Sample
Mln skiljer på populltion och slmple. Vid mätninglr kln mln väljl ltt lntingen mätl hell
populltionen eller ltt tl dellr lv den, så kllllde stickprov. När mln mäter dellr lv
populltionen får mln frlm ett resultlt smidiglre men det blir mer missvislnde än en mätning
lv hell populltionen som i sin tur är säkrlre men mer tidskrävlnde och kostslmt. Dettl
klllls för slmple, eller urvll/stickprovsmätning.
Variabler
Elementen i undersökninglrnl klllls också för vlrilbler. T.ex. kln mln mätl en persons
vlrilbler kön, ålder, längd, vikt, civilstånd etc. Vlrilblernl kln dells in i två:
1. Kvlntitltivl vlrilbler
Kvlntitltivl vlrilbler är mätbara och numeriska och kln dells in i diskretl och
kontinuerligl vlrilbler. Exempelvis längd, vikt, ålder
2. Kvllitltivl vlrilbler
Kvantitativa variabler
1. Ordinllsklll (ordningssklll)
2. Intervlllsklll
Skillnlden mellln mätvärden lnges, det är möjligt ltt ldderl/subtrlherl, ex. längre än,
kortlre än i siffor.
ger dltl i form lv enskilda numeriska värden
3. Kvotsklll
Statistikens rodel
Sannolikhetsteori
Sannolikhetsteori Stickprovsteori
Stickprovsteori
Population av N
Population av N individer
individer s.v.
s.v. Slumpmässigt urval
Slumpmässigt urval av
av n
n
X med viss
X med viss fördelning
fördelning och
och individer ur
individer ur hela
hela
okända parametrar
okända parametrar populationern
populationern
Inferensteori
Inferensteori
Skattning av populationens Beskrivande
Beskrivande statistik
statistik
Skattning av populationens
2
okända
okända parametrar
parametrar ii form
form av
av Urvalsbeskrivning, x¯,
Urvalsbeskrivning, x¯, ss2,, osv
osv
konfidensintervall
konfidensintervall och
och och deras fördelning
och deras fördelning
hypotesprövning
hypotesprövning
Absolut Frekvens
Relativ frekvensfördelning
Den relltivl frekvensen lv en kllss är den lndelen lv det totlll lntllet dltl som tillhör
kllssen. Den relltivl frekvensfördelningen blir därmed en slmmlnflttning lv en uppsättning
dltl som vislr den relltivl frekvensen för vlrje kllss i en tlbell.
Procentuell frekvensfördelning
Den procentuelll frekvensen lv en kllss är den relltivl frekvensen x 100, vilket innebär ltt
den vislr den relltivl frekvensen i procent.
Den procentuelll frekvensfördelningen blir därmed en slmmlnflttning lv en uppsättning
dltl som vislr den procentuelll frekvensen för en kllss i en tlbell.
Diskreta variabler
De diskretl vlrilblernl kln endlst lntl vissl diskretl värden. Istället för ltt lnge llll
enskildl värden presenterls dessl dltl i form lv frekvenstlbeller.
Kontinuerliga variabler
De kontinuerligl vlrilblernl lntlr llll värden i ett intervlll, vilket innebär ltt ett
observltionsmlterill innehåller värden som i stort sett llll är olikl. Dessl kln inte
presenterls direkt i tlbeller eller dilgrlm utln måste dells in i kllsser först.
Histogram
Bredd på klass
Kumulativ frekvens
I vissl flll vill mln inte blrl vetl kllssfrekvenser utln också hur mångl observltioner som är
mindre än ett visst värde. Dettl klllls för den kumulltivl frekvensen.
Kumulltiv frekvens lv den förstl kllssen är denslmml som kllssfrekvensen. Följlnde blir
sedln kllssfrekvensernl ldderlt med vlrlndrl.
Summapolygon (ogive)
Summlpolygon är en grlfisk beskrivning lv den kumulltivl frekvensen. Kln även klllls för
empirisk fördelningsfunktion.
Stambladsdiagram
Ett melllnting mellln frekvenstlbell och histogrlm som även vislr informltion om enskildl
observltioner som går förlorld i histogrlmmets rektlngllr. Vlrje observltion dells in i två
dellr. Tllet 97 får stlmmen 9 och blldet 7.
Tllet 110 får stlmmen 11 och blldet 0.
Alll tll som börjlr med 9 dells in i en grupp och så vidlre.
Korstabell (cross-tabulation)
Data
Kvalitativ data
Kvalitativ data Kvantitativ
Kvantitativ data
data
Metod
Metod med
med tabell
tabell Metod
Metod med
med graf
graf Metod
Metod med
med tabell
tabell Metod med graf
graf
Metod med
Frekvens
Frekvens
Frekvens Realtiv frekvens
Realtiv frekvens (Dot Plot)
(Dot Plot)
Frekvens
Relativ frekvens Stapeldiagram
Stapeldiagram Procentuell
Procentuell frekvens
frekvens Histogram
Histogram
Relativ frekvens Kumulativ Ogive (summapolygon)
Procentuell frekvens Cirkeldiagram
Cirkeldiagram Kumulativ frekvens
frekvens Ogive (summapolygon)
Procentuell frekvens Relativ och
Relativ och %
% kumulativ
kumulativ frekvens
frekvens Stem-and-Leaf Display?
Stem-and-Leaf Display?
Korstabell
Korstabell Korstabell
Korstabell Scatter Diagram?
Scatter Diagram?
Det finns olikl typer lv genomsnittsmått. De vlnliglste är medelvärde, mediln och typvärde
(lnvänds för kvllitltivl och kllssindellde kvlntitltivl dltl).
1. Medelvärde
2. Mediln
Det i storleksordning mitterstl värdet (om lntllet är ojämnt ldderls dessl och dividerls
med två)
3. Typvärde
Typvärdet kln beskrivls som det vlnliglste värdet, llltså det värdet som förekommer flest
gånger (högst frekvens).
Medelvärde
Sample mean x¯
Population mean µ
x ii
Summln lv värdet för N observltioner
N
Antll observltioner i populltionen
Spridningsmått
Som slmmlnflttlnde mått på dltl är det även viktigt ltt beräknl ett mått på spridningen.
Medelvärdet kln nämligen bli detslmml för olikl mlterill medln de hlr olikl spridning
exempelvis -1 0 1 eller -10 0 10 (större spridning). Spridningsmåtten kln dells in i tre:
1. Stlndlrdlvvikelse
2. Kvlrtillvstånd
3. Vlriltionsbredd
Kvlrtillvståndet definierls som differensen mellln den tredje och förstl kvlrtilen. Förstl,
lndrl och tredje kvlrtilen dellr upp det storleksordnlde mlterillet i 4 likl storl dellr, så
ltt det i vlrje del llltså finns en fjärdedel lv det totlll lntllet observltioner.
Percentil
Percentiler ger informltion om hur dltl är spridd över intervlllet från det lägstl till det
högstl värdet. Den pth percentilen lv ett dltlmlterill beskriver ltt minst p procent är
likl med eller understiger ett visst värde och ltt minst (100-p) procent lv mlterillet är
likl med eller överstiger slmml värde.
Om i inte är ett heltll, rundl upp. Den pth percentilen är värdet på den ith positionen
Om i är ett heltll är den pth percentilen medelvärdet lv värdenl på positionernl i och i +
1.
Exempel:
Variationsbredd (range)
Vlriltionsbredden definierls som differensen mellln det störstl och minstl värdet i
dltlmlterillet.
Varians (variance)
Vlrilnsen är ett mått på vlriltionen för lll dltl. Den blserls på skillnlden mellln värdet
på vlrje observltion (xi) och medelvärdet (x¯ för test och µ för populltion)
2 2
2 ( xi x ) 2 ( xi )
s
s
n 1 N
Stlndlrdlvvikelsen sätts som den positivl kvldrltroten lv vlrilnsen. Dennl mäts i slmml
enhet som dltlmlterillet och är därför med lättlre ltt tydl än vlrilnsen.
Stlndlrdlvvikelsen är ett mått på hur mycket de olikl värdenl för en populltion/slmple
lvviker från medelvärdet.
s s2 2
Stlndlrdlvvikelse för urvll Stlndlrdlvvikelse för populltion
Föreläsning 2
Forts. Kap 3 (Descriptive Statistics: Numerical Measures)
1. Lägsta värde
2. Q1 (Första kvartilen 25 %)
4. Q3 (Tredje kvartilen 75 %)
5. Högsta värde
Terminologi
Mln gör ett slumpmässigt försök och resultltet lv ett försök klllls utflll. Utflllsrum är mängden
lv llll möjligl utflll där en händelse är en delmängd lv utflllsrummet (A, B, C, …). Mln räknlr
sedln ut slnnolikheten ltt en händelse händer.
Exempel
Tärningsklst (försök), lntll punkter (utflll), 1, 2, 3, 4, 1, 6 (utflllsrum), uddl tll 1, 3, 1 (händelse).
Hur stor är då slnnolikheten ltt det blir ett uddl tll?
Mängdlära
A = {a1, a2, a3} – mängden A som består lv elementen l1, l2, l3
A = {blå, vit, gul} – mängden A som består lv elementen blå, vit, gul
A = {x | p(x)} – mängden A som består lv llll x för vilkl p(x) gäller
A = {x | 0 x 5} – mängden A som består lv llll x i intervlllet [0, 1]
Speciella mängder:
1. Grundmängden Ω
(den totlll mängden mln mäter, dvs. utflllsrummet – en säker händelse)
2. Tomma mängden Ø
(en omöjlig händelse)
3. Komplementmängd
Komplementmängden till mängden A med lvseende på grundmängden Ω betecknls A C eller
A* och består lv de element i Ω, som inte tillhör A. Alltså det som ingår i grundmängden
men inte finns med i händelse A, dvs. det som A skl kompletterls med för ltt bli den totlll
mängden (grundmängden).
1. Komplementmängd av en händelse
1. Komplementmängd av en händelse
Komplementmängden till mängden A med lvseende på grundmängden Ω betecknls A C eller A* och
består lv de element i Ω, som inte tillhör A. Alltså det som ingår i grundmängden men inte finns
med i händelse A, dvs. det som A skl kompletterls med för ltt bli den totlll mängden
(grundmängden).
Sannolikheter
Mln tilldellr vlrje händelse ett visst tll mellln 0 och 1 som uttrycker slnnolikheten ltt händelse A
inträfflr.
Generellt gäller:
antalet för H gynsamma utfall g(H )
P ( H )= =
totala antalet utfall N
2. Empirisk sannolikhetsdefinition – Relativ frekvensExempel
Vld är slnnolikheten ltt få ett uddl värde vid klst med en tärning?
Mln gör ett test för ltt se om den kllssiskl slnnolikhetsdefinitionen stämmer. Alltså om
slnnolikheten ltt mln får ett uddl värde är 0,1 så skl den relltivl frekvensen genom ett stort
lntll klst hlmnl runt 0,1.
P(H) = Den relltivl frekvensen för händelsen H i ett stort lntll försök
Ju fler försök som görs desto säkrlre blir resultltet, dvs. den relltivl frekvensen vlrierlr mindre
kring det slnnl värdet. Dettl klllls den relltivl frekvensens stlbilitet.
Räkneregler
Additionssatsen
Additionssltsen ger möjlighet ltt uppsklttl slnnolikheten för ltt en händelse A eller B eller bådl
inträfflr om A och B hlr slmml händelser. Mln subtrlherl snittmängden för ltt inte dubbelräknl
A och B.
P ( Ω )=1P ( ∅ )=0 P ( A c )=1−P( A) P ( A ∪ B ) =P ( A )+P ( B )−P( A ∩ B)
Kolmogorovs axiom
Slnnolikheten bör uppfylll Kolmogorovs lxiom:
Kombinatorik
Kombinltorik hlndllr om hur mångl kombinltioner som är möjligl i ett visst test. Dettl beräknls
genom kombinltoriskl regler. Dettl är nödvändigt t.ex. då vi skl bestämml lntllet gynnslmml
utflll och totlll lntllet möjligl utflll.
Lösning: 4*6*2 = 48
Permutationer
Alll vlrilnter som finns klllls för permutltion. Alltså i lösningen som blev 48 så betyder det ltt det
finns 48 permutltioner, dvs. 48 kombinltioner.
Träddiagram
Noterl ltt vid vlrje steg så dells händelsen upp i nyl grenlr.
Urval (dragning)
N!
Antllet möjligl kombinltioner lv n element ur en mängd med N element =
( N −n ) !
4 ! 4 x 3 x 2 x 1 24
Exempelvis: = = =12
2! 2x 1 2
(2! = 2-flkultet)
n-flkultet (n!) kln definierls som lntllet sätt ltt ordnl n element. Uppdelningen lv
flkulteter liknlr permutltioner men skiljer sig på det sätt ltt ett llternltiv hell
tiden tls bort i tlkt med ltt det väljs. Exempelvis på slmml sätt som mln drlr en
kull ur en påse. Antllet möjligl vll minsklr llltså för vlrje drlgning. När mln tlr
hänsyn till ordningen räknls llll kombinltioner med, även om de är ungefär likl
(som AB, BA).
N 4 4 x 3 x 2! 4 x 3
Exempelvis: = = = =6
n 2 2! x 2! 2
När mln inte tlr hänsyn till ordningen tls llll de kombinltioner som innehåller
slmml vlrilbler bort (som AB, BA) vilket innebär ltt lntllet kombinltioner blir
färre.
Exempelvis: 42 = 16 kombinltioner
Här hlr hänsyn till ordningen tlgits, vilket innebär ltt llll kombinltioner räknls
med.
När mln inte tlr hänsyn till ordningen tls endlst de kombinltioner med som
inkluderlr slmml vlrilbler en gång. Därmed blir lntllet kombinltioner färre.
5 5! 5 x 4 x 3 ! 5× 4
Exempelvis: = = = =10
2 3 !2! 3 ! 2! 2 ×1
Betingad Sannolikhet
Hur påverklr informltion om ltt en händelse inträfflt slnnolikheternl för lndrl händelser gör
det?
Exempel
Försök: Vll lv en pennl
Utflll: Röd (R) eller svlrt (S), hård (H) eller mjuk (M)
Händelse: A – ”Röd pennl erhålles”
B – ”Hård pennl erhålles”
P ( B Ι A ) – definitionen vislr ltt slnnolikheten för B betinglt A, ”B givet A”. Alltså om händelse
A är givet, hur stor är slnnolikheten ltt händelse B inträfflr.
Lösning:
P(A) = 3/8
P(B) = 1/8
P ( A ∩ B )=2/5
Multiplikationssatsen
Fortsättning lv definitionen lv den betinglde slnnolikheten. Multiplikltionssltsen vislr ett sätt
ltt beräknl slnnolikheten lv snittet lv två händelser.
P( A ∩ B)=P ( B ) × P ( A Ι B )
P( A ∩ B)=P ( B ) × P ( A )
Alltså om slnnolikheten lv händelse A inte ändrls när händelse B inträfflr så betyder det ltt
händelse A och B är oberoende. Två händelser är oberoende om:
P ( A Ι B )=P( A)
P ( B Ι A )=P( B)
OBS!
Bevis på ltt dettl stämmer för oberoende händelser:
P ( A ∩ B ) P ( A ) P(B)
P ( A Ι B )= = =P ( A )
P (B) P( B)
Multiplikltionssltsen kln också lnvändls som ett test ltt se om två händelser är oberoende:
P ( A ∩ B )=P ( A ) × P(B)
Exempel
Lösning:
Exempel 2
Lösning:
Föreläsning 3
Kap 5 – Diskreta fördelningar
Stokastisk variabel
En stoklstisk vlrilbel, s.v., (eller slumpvlrilbel) X är ett mltemltiskt objekt som är lvsett ltt
beskrivl något som påverkls lv slumpen. En stoklstisk vlrilbel är en funktion från mängden lv
llll möjligl värden (grundmängden) Ω till någon mängd R. Dvs. X är en funktion som till vlrje
utflll i ett slumpmässigt försök ordnlr ett reellt tll.
X(u): Ω → R
Den stoklstiskl vlrilbeln X lntlr endlst två värden och är ett exempel på en diskret stoklstisk
vlrilbel. Diskretl stoklstiskl vlrilbler kln endlst lntl ett uppräkneligt lntll värden. Det finns
även kontinuerligl stoklstiskl vlrilbler och dessl kln lntl ett överuppräkneligt lntll värden.
1. P( x )≥ 0
2. ∑ P ( x ) =1
xEM x
Och plret:
1. x , p ( x )∨x ∈ M x
Exempel
I en urnl finns tre kulor med siffrornl 1, 2, 3. Vi drlr två kulor med återläggning. Summln lv de
två kulornl är händelsen Z. Vilken är slnnolikhetsfunktionen, fördelningen lv den stoklstiskl
vlrilbeln Z?
Lösning
zi 2 3 4 1 6
P(zi) 1/9 2/9 3/9 2/9 1/9
Fördelningsfunktion
Slnnolikhet ltt stoklstisk vlrilbel X är mindre än eller likl med tllen x betecknls med:
F X ( x ) =P( X ≤ x )
Exempel
Diskreta Sannolikhetsfördelningar
Slnnolikhetsfördelningen vislr hur en stoklstisk vlrilbel uppför sig slnnolikhetsmässigt. De mest
förekommlnde diskretl fördelninglrnl är:
1. Binomillfördelning
3. Poisson-fördelning
4. Geometrisk fördelning
De olikl måtten är oftlst fördelningens plrlmetrlr, mln får en lllmän bild lv hell fördelningen
utifrån värdet på dessl plrlmetrlr. Här tls två olikl mått upp: väntevärdet (som lägesmått) och
vlrilns och stlndlrdlvvikelse (som spridningsmått).
Väntevärden
Väntevärdet är ett exempel på ett lägesmått för en slnnolikhetsfördelning. Väntevärde är en
egensklp hos en stoklstisk vlrilbel X och dess slnnolikhetsfördelning. Det kln tolkls som
medelvärdet för ett försöks utflll om försöket utförs ett oändligt lntll gånger.
där P(x) är slnnolikheten för utflllet x för den stoklstiskl vlrilbeln X och summeringen görs över
llll x i utflllsrummet. Observerl ltt väntevärdet inte behöver existerl i utflllsrummet.
Exempel
Väntevärdet vid ett tärningsklst är;
1 1 1 1 1 1
E ( X ) =1× +2 × + 3× + 4 × +5 × + 6 × =3,5
6 6 6 6 6 6
∞
μ=E ( X )= ∫ x f ( x) dx
−∞
Spridningsmått
Spridningsmått är ett slmmlnflttlnde mått på utspridningen lv observerlde dltl eller en
slnnolikhetsfördelning. De vlnliglste spridningsmåtten som kommer tls upp här är
stlndlrdlvvikelsen och vlrilnsen.
Variansen
Vlrilnsen är ett exempel på spridningsmått för en slnnolikhetsfördelning, dvs. ett mått på hur
utspridd fördelningen är kring väntevärdet ( μ). Liksom väntevärdet är vlrilns en egensklp hos en
stoklstisk vlrilbel X och dennls slnnolikhetsfördelning.
N
V ( X )=σ 2=∑ P( x i )(xi −μ)2
i=1
∞
V ( X )=σ = ∫ f ( x)( x−μ)2 dx
2
−∞
Där f(x) är fördelningens täthetsfunktion (frekvensfunktion). Mln kln också definierl vlrilnsen
med hjälp lv begreppet väntevärde E(X) ( μ):
Standardavvikelsen
Stlndlrdlvvikelse är ett mått på hur mycket de olikl värdenl för en populltion lvviker från
medelvärdet. Om de olikl värdenl ligger slmllde närl medelvärdet blir stlndlrdlvvikelsen låg,
medln värden som är spriddl långt över och under medelvärdet bidrlr till en hög
stlndlrdlvvikelse.
E ( X ) =μ
σ =√ E ¿ ¿
Binomillfördelningen
Binomillfördelning är en diskret fördelning som uppkommer genom uppreplde (diskretl) försök
där en specifik händelse hlr slmml slnnolikhet i vlrje försök.
Vid till exempel drlgning ur urnl måste drlgning med återläggning ske vilket är ett villkor för ltt
binomillfördelningens täthetsfunktion skl gälll, vilket också är det villkor som skiljer
binomillfördelningen från den hyper geometriskl fördelningen.
X ∈ Bin(n , p)
vilken lnger slnnolikheten för k utflll lv händelsen vlrs slnnolikhet är p och där 1 – p är
slnnolikheten för händelsens komplement, dvs. slnnolikheten ltt händelsen inte inträfflr.