Professional Documents
Culture Documents
2 StatistineAnalize
2 StatistineAnalize
Matematika geografijoje
II dalis
Statistinė analizė
Statistika yra duomenų rinkimo ir analizavimo mokslas
Statistinė analizė
Apibendrina sukauptus duomenis
Leidžia nustatyti pagrindinius įtakos faktorius
Leidžia nustatyti, ar imtys priklauso vienai populiacijai
Apibrėžia, ar kintamieji tarpusavyje susiję
Nustato faktorių tarpusavio įtaką
Patikrina, ar analizės metodai pagrįsti ir patikimi.
Statistinis modelis (pavyzdžiui, aptarnavimo srautai, gamyba)
Grafikai
Matematinės lygtys, kintamieji, koeficientų įverčiai
Išvados apie modelio adekvatumą
Statistinių tyrimų etapai
1. Statistinis stebėjimas. Jo metu pagrįstai ir planingai renkami
duomenys apie vienos rūšies tiriamuosius reiškinius ar objektus.
2. Tyrimo duomenų statistinis tvarkymas: grupavimas, sisteminimas,
aprašomoji statistika.
3. Statistinė tyrimo duomenų analizė, statistinių išvadų
formulavimas.
Diskretieji:
Galimų reikšmių skirtumai iš principo negali būti mažesni už tam tikrą
„minimumą“
Tolydieji:
Jų galimų reikšmių skirtumai iš principo gali būti kiek tik norint maži, reikšmės
viena į kitą pereina laipsniškai, nenutrūkstamai. Todėl ir juos išmatuoti iš
principo teįmanoma tiktai apytiksliai, vienokiu ar kitokiu tikslumu. Matuojant šių
požymių reikšmės neišvengiamai diskretizuojamos pagal pasirinktuosius mato
vienetus
Kartais dar atskirai yra minimi tarpinę padėtį tarp kiekybinių ir kokybinių užimantys
požymiai, vadinami ranginiais. Jie turi ir kiekybiniams, ir kokybiniams
požymiams būdingų savybių. Rangai, intervalai ir pan.
Duomenų atranka
Imtis iš tiesų yra susikurtas populiacijos modelis, jos eksperimentinis atitikmuo,
dirbtinis analogas. Čia ir yra statistikos esmė: tirti palyginti nedidelę,
ribotą imtį, o tyrimo rezultatus tikimybiškai apibendrinti visai populiacijai.
Todėl svarbu, kad imtis populiaciją, iš kurios buvo paimta, atspindėtų kaip
galima adekvačiau ir teisingiau. Paprastai sakoma, kad didesnio tūrio
imtis esanti reprezentatyvesnė,
Didėjant imčiai, artimesnė vienetui darosi tikimybė, kad šioje imtyje rastos
požymių reikšmės bei jų pasiskirstymas (sklaidos po objektus ypatumai)
iš esmės būtų tokios pačios, jeigu paimtume ir kitus analogiškus
populiacijos objektus, šį kartą į imtį nepatekusius.
Tačiau reprezentatyvumą lemia ne vien tik imties tūris (didumas), bet labiausiai
– jos sudarymo principai.
Dar daugiau: pernelyg didelės imtys tampa savaip problemiškos, nes tadadėl
grynai formalių, matematinių priežasčių gali būti „sureikšminami“ ir iš
tikrųjų menki, nežymūs skirtumai.
Imties atrankos metodai (1)
Kai populiacija nustatyta, kiekvienas jos narys yra potencialus duomenų
šaltinis. Yra dvi galimybės tirti populiaciją:
rinkti duomenis iš kiekvieno populiacijos individo. Tai – ištisinis
tyrimas, taikomas tada, kai populiacija yra nedidelė ir lengvai
nustatoma ;
rinkti duomenis tik iš dalies populiacijos narių (pasirinktiniai tyrimai).
Taikant šį metodą, visada padaroma paklaida. Vis tiktai, jei imtis yra
sudaryta tinkamai, tai paklaida, kaip tvirtina statistikos teorija, bus
labai maža, taigi mažesnės išlaidos ir pastangos kompensuos
tikslumo stoką.
George Gallup:
“Ar norite apklausą atlikti Niujorko valstijoje, ar Baton Ružo mieste (160 000
gyventojų), jums reikia apklausti tiek pat gyventojų. Čia nėra jokio stebuklo -
kai verdami du puodai sriubos, ir vienas iš jų yra dešimt kartų didesnis už
kitą, virėjui nereikia semti dešimt kartų daugiau šaukštų iš didesniojo puodo,
kad nustatytų sriubos skonį.”
Imties koeficientas
Populiacijos dydį žymėsime N, o imties dydį n. Kadangi imtis pagal
apibrėžimą yra populiacijos dalis, tai visada n < N.
Išvada
1) bloga didelė imtis yra daug blogiau negu gera maža imtis
2) reikia vengti ėmimo iškreipties ir neatsakymo iškreipties.
Grupavimo intervalų prireikia, kai duomenų daug ir jie įvairūs arba tolydūs
(begalinė aibė reikšmių).
Intervalai gali būti vienodo arba skirtingo ilgio ar apskritai paversti diskrečiais
balais. Kai kintamasis tolydus, naudojamos histogramos (stulpeliai be tarpų).
Ribos Dažnis 1 45 8
2 33 18
Nuo 0 iki 5 0
3 21 20
Nuo 5 iki 10 2
4 32 21
Nuo 10 iki 15 4
5 26 24
Nuo 15 iki 20 16
6 8 26
Nuo 20 iki 25 19 7 24 32
Nuo 25 iki 30 9 8 33 33
9 35 33
Intervalinė variacinė eilutė
10 36 34
11 18 35
12 34 36
13 20 45
Dažnių histograma
Dažnis
20
15
10
0
0-55 10
5-10 15
10-15 20
15-20 25
20-25 30
25-30
Imtį apibūdinantys parametrai
Savaime suprantama, kad imtį apibūdinančius parametrus apskaičiuoti
galima tik tada, kai tiriamieji požymiai yra kiekybiniai ir imtyje
randamos jų reikšmės išreiškiamos skaičiais.
duomenų padėtį apibūdinančios charakteristikos (parametrai):
vidurkis, moda, mediana, kvantiliai (kvartiliai ir kitokie kvantiliai)
duomenų sklaidą apibūdinančios charakteristikos: dispersija,
standartinis (kitaip – vidutinis kvadratinis) nuokrypis, linijinis
nuokrypis, variacijos žingsnis (plotis), variacijos (kitaip - imties
kitimo) koeficientas, kvartilių skirtumas IQR ir kt.
pasiskirstymo formą apibūdinančios charakteristikos.
Duomenų padėties charakteristikos (1)
Aibės plotis (variacijos žingsnis) – didžiausios ir mažiausios požymio
reikšmių variacinėje eilutėje skirtumas.
Penkiaskaitė suvestinė (min, Q1, mediana, Q3, max) gerai apibūdina duomenų
aibę.
Nors dviejų aibių vidurkiai ir medianos gali sutapti, tai nereiškia, kad aibės
“panašios”. Duomenų sklaidą galima įvertinti skaitiškai.
Duomenų padėties charakteristikos (3)
Vidurkis: aritmetinis, nupjautasis, geometrinis, kvadratinis ir kt.
Aritmetinis vidurkis yra apskaičiuojamas sudedant reikšmes ir sumą
padalijant iš tų reikšmių skaičiaus.
teorinis aritmetinis vidurkis (rus. matematičeskoe ožidanije, angl.
mean ar estimation
empirinis aritmetinis vidurkis (rus. arifmetičeskoe srednee, angl.
average).
i vid
( x x
i 1,.. n
) 2
n
Vietoje standartinio nuokrypio kartais naudojamas dispersijos rodiklis, kuris
lygus s2.
0
150-160 160-165 165-170 170-175 175-180 180-185
Normalusis (Gauso) skirstinys (1)
Tolydžiųjų požymių reikšmių skirstinys (pasiskirstymo dėsnis),
atitinkantis tokias sąlygas:
vidurkio, modos ir medianos reikšmės sutampa,
skirstinio kreivė yra simetriška, o simetrijos ašis yra ties vidurkiu,
skirstinio kreivės forma priklauso nuo vidurkio ir standartinio
nuokrypio (σ),
normalųjį skirstinį turinčių atsitiktinių dydžių suma taip pat turi
normalųjį skirstinį.
Pagal šią formulę gaunamas skaičius nuo -1 iki +1; teigiamos reikšmės
reiškia teigiamą koreliaciją, neigiamos – neigiamą koreliaciją. Jei
gaunamas 0, vadinasi, koreliacijos nėra.
Klasikinė koreliacija (2)
r reikšmė Vertinimas
0,00 – 0,19 Labai silpnas tarpusavio ryšys
0,20 – 0,39 Silpnas ryšys
0,40 – 0,69 Vidutinis ryšys
0,70 – 0,89 Stiprus ryšys
0,90 – 1,00 Labai stiprus tarpusavio ryšys
Koreliacijos (sklaidos) laukas
Kūno Sklaidos laukas
Ūgis
masė
Svoris, kg 85
1,86 76 80
1,58 62 75
1,78 66 70
65
1,90 79
60
1,80 74 y = 63.52x - 41.77
55
1,83 79 50
1,5 1,6 1,7 1,8 1,9 2
1,66 60
1,73 68 Ūgis, m
r = 0.89
Neparametrinė koreliacija
Spirmeno koreliacijos koeficientas skaičiuojamas, kai imtis pateikta
rangais, balais ar kitais netiesioginiais vertinimais.
Jis taikomas tais atvejais, kai:
Viena ar abi imtys yra neparametriniai duomenys
Nei viena iš parametrinių imčių nepasiskirsčiusi pagal normalųjį
dėsnį
d – ranginis atstumas
Pavyzdys
1 1 0
2 1 1
3 2 1
5 4 1
4 5 1
2 1 1
5 5 0
3 4 1
Išsilavinimas 1 1 0
4 4 0
1 aukštasis 5 5 0
2 neb. aukštasis 2 2 0
3 aukštesnysis 3 3 0
2 3 1
4 vidurinis 5 4 1
5 profesinis 4 4 0
3 1 4
Nuomonė 3 4 1
1 Visiškai sutinka 1 1 0
2 Labiau sutinka nei prieštarauja 2 1 1
3 Nei sutinka, nei nesutinka 5 5 0
4 3 1
4 Labiau nesutinka nei sutinka 15
5 Visiškai nesutinka n= 22 r= 0,99153
Autokoreliacija erdvėje (1)
Autokoreliacija erdvėje (spatial autocorrelation) yra erdvinis klasikinės
koreliacijos atitikmuo.
Autokoreliacija erdvėje (2)
Ar du erdviniai vienetai yra kaimynai, dažniausiai nustatoma vienu iš dviejų
metodų: atstumo (distance) metodu ir gretimumo (contiguity) metodu.
Yra ir kitų gretimumo matų: kaimynai gali būti nustatomi pagal erdvinių vienetų
bendrų ribų ilgį arba pagal dvikrypčius svertų koeficientus, nurodančius
individų srautą iš gretimų erdvinių vienetų ir į juos; nuo pasirinkto mato
priklauso erdvinės analizės rezultatai. Pavyzdžiui – bendra Lietuvos ir Latvijos
valstybės siena ilgesnė negu Lietuvos ir Lenkijos, bet Lenkijos ekonomikos
apimtis daug didesnė. Taigi, kaimynystės matas (ir kaimynų svarba) priklauso
nuo konteksto. Tačiau dažniausiai analizei naudojamas pirmosios eilės
valdovės gretimumas.
Autokoreliacija erdvėje (4)
Dažniausias autokoreliacijos erdvėje matas yra Morano I:
kur kintamieji n ir y yra tie patys kaip ir ankstesnėje formulėje, o wij yra
erdvinių vienetų erdvinių kaimynų matrica. Ši formulė gana sudėtinga ir ją
suprasti kol kas nėra būtina, nes dauguma programų, tarp jų ir ArcGIS, atliks
šiuos skaičiavimus už jus. Svarbu atkreipti dėmesį, kad Morano I ir klasikinės
autokoreliacijos formulės panašios. Pagrindinis skirtumas tas, kad skaičiuojant
autokoreliaciją erdvėje analizuojamas tik vienas kintamasis. Autokoreliacija
erdvėje – tai ne kintamųjų, o erdvinių vienetų koreliacija.
Autokoreliacija erdvėje (5)
Morano I reikšmių intervalas yra nuo -1 iki +1, kaip ir klasikinės koreliacijos.
Jei Morano I lygi nuliui, reiškia, kad autokoreliacijos erdvėje nėra, jei didesnė
už nulį – autokoreliacija erdvėje teigiama, jei mažesnė už nulį – autokoreliacija
erdvėje neigiama.
E 10
KOFEINAS Test
1
Ar Test1 rezultatai
Imtis geresni, negu Test2?
20
10 Test
2
K
Testo rezultatai Reakcijos
laikas,
ms
Be Su
259 201
275 198
304 245
285 287
288 190
314 250
291 285
304 295
285 231
246 201
Statistics
Be_kofeino Su_kofeinu
N Valid 10 10
Missing 0 0
Mean 285,1000 238,3000
Std. Error of Mean 6,58694 12,79848
Median 286,5000 238,0000
Mode 285,00 a 201,00
Std. Deviation 20,82973 40,47235
Skewness -,626 ,250
Std. Error of Skewness ,687 ,687
Kurtosis ,027 -1,680
Std. Error of Kurtosis Jei reikšmės didesnės, 1,334negu p1,334
Minimum 246,00 190,00
Maximum
(p=0,05), pasiskirstymas artimas
314,00 295,00
normaliajam
a. Multiple modes exist. The smallest value is shown
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Be_kofeino ,198 10 ,200* ,949 10 ,662
Su_kofeinu ,222 10 ,179 ,883 10 ,142
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Hipotezės iškėlimas
Nulinė hipotezė – tai spėjimas apie skirtumų nebuvimą. Ji žymima H0
ir vadinama nuline todėl, kad spėjama jog skirtumas lygus nuliui (arba
skirtumas yra atsitiktinis ir nereikšmingas)
Alternatyvi hipotezė – priešinga nulinei. Tai spėjimas apie
egzistuojančius skirtumus, kurių negalima paaiškinti atsitiktiniais
svyravimais. Ji žymima H1. Alternatyvi hipotezė dažniausiai yra tai, ką
mes norime įrodyti.
Mote-
721 236 7211194
rys q 21 119, q 22 602.
1430 1430
Pirsono 2 kriterijus
n f qij
2
f ij
2
i , j 1
ij
qij
; - tikrieji (stebėti) dažniai;
Šį koeficientą gerai žino geografai: jis nurodo tam tikro aktyvumo dalies
viename erdviniame vienete santykį su tuo paties aktyvumo dalimi visame
regione. Jis atspindi šio aktyvumo padidėjimą arba sumažėjimą ir labai
praverčia atliekant bet kokią analizę, skirtą nustatyti regionams, kuriuose tam
tikras aktyvumas pasireiškia labiau negu kituose.
Vietos koeficientą galima naudoti tiriant bet kokį reiškinį, kuris įvairiose vietose
vyksta skirtingai – tai yra, praktiškai bet kokią žmonių veiklą.
Vietos koeficientas (2)
Tarkime, kad turime nusikalstamumo Lietuvos savivaldybėse duomenis.
Vietos koeficientas skaičiuojamas taip:
kur Cin yra i tipo nusikaltimų skaičius erdviniame vienete n, Ctn – visų
nusikaltimų skaičius erdviniame vienete n, o N – erdvinių vienetų skaičius.
Šiame pavyzdyje vietos koeficientas yra konkretaus nusikaltimų tipo tam
tikroje Lietuvos savivaldybėje dalies santykis su to paties nusikaltimų tipo
dalimi visoje Lietuvoje. Jei vietos koeficientas lygus vienetui, šiai savivaldybei
tenka proporcinga tam tikro tipo nusikaltimų dalis; jei vietos koeficientas
didesnis už vienetą, šio tipo nusikaltimų savivaldybėje neproporcingai daug; jei
vietos koeficientas mažesnis už vienetą, savivaldybėje šių nusikaltimų dalis
neproporcingai mažesnė.
Vietos koeficientas (3)
Daugumoje Lietuvos savivaldybių įsilaužimai nėra didelė problema Yra kelios
savivaldybės, kuriose įsilaužimų skaičius gana didelis, bet daugumoje Lietuvos
savivaldybių jie nėra didelė problema.
Vietos koeficientas (4)
Vietos koeficientas parodo kitokį įsilaužimų vaizdą.
Vietos koeficientas (5)
Aiškiai išsiskiria kelios savivaldybės (raudonos), kuriose šių nusikaltimų dalis
didesnė negu visoje Lietuvoje. Nors daugumoje iš jų didesnis ir įsilaužimų
skaičius, bet ne visose.
Panašiai kaip vykdant vietinę funkciją, imamos gardelės po vieną (jos tampa židinio
gardelėmis) tol, kol apdorojamos visos rastro gardelės. Skirtumas nuo vietinės kelių
rastrų funkcijos tas, kad nustatydama išvesties sluoksnio reikšmes židinio funkcija
atsižvelgia ir į aplinkinių gardelių reikšmes.
Zoną sudaro vienodas reikšmes turinčios gardelės. Zonos gali būti vientisos arba
nevientisos.