Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 68

Statistiniai modeliai

Matematika geografijoje
II dalis
Statistinė analizė
Statistika yra duomenų rinkimo ir analizavimo mokslas
Statistinė analizė
 Apibendrina sukauptus duomenis
 Leidžia nustatyti pagrindinius įtakos faktorius
 Leidžia nustatyti, ar imtys priklauso vienai populiacijai
 Apibrėžia, ar kintamieji tarpusavyje susiję
 Nustato faktorių tarpusavio įtaką
 Patikrina, ar analizės metodai pagrįsti ir patikimi.
Statistinis modelis (pavyzdžiui, aptarnavimo srautai, gamyba)
 Grafikai
 Matematinės lygtys, kintamieji, koeficientų įverčiai
 Išvados apie modelio adekvatumą
Statistinių tyrimų etapai
1. Statistinis stebėjimas. Jo metu pagrįstai ir planingai renkami
duomenys apie vienos rūšies tiriamuosius reiškinius ar objektus.
2. Tyrimo duomenų statistinis tvarkymas: grupavimas, sisteminimas,
aprašomoji statistika.
3. Statistinė tyrimo duomenų analizė, statistinių išvadų
formulavimas.

Statistinės analizės rezultatai priklauso nuo pasirinktų metodų ir


kriterijų.
 Duomenims, pasiskirsčiusiems ne pagal normalųjį dėsnį,
pritaikomi specifiniai analizės metodai.
 Analizės tikslumą sąlygoja imčių dydžiai.
Statistinė analizė
Skirstoma į dvi pagrindines šakas:
 Aprašomąją statistiką, kuri
 Leidžia sutvarkyti ir apibendrinti tiriamas imtis
 Apibrėžia pagrindinius statistinius parametrus (vidurkį,
dispersiją, modą, medianą, asimetriją ir ekscesą).
 Hipotezių analizę, priimančią ar atmetančią moksliškai pagrįstą
spėjimą ar nuomonę.
Pagrindinės sąvokos
 Populiacija (kitaip – generalinė visuma, generalinė aibė) – visa
objektų, kurie statistiškai tiriami, visuma. Būna
 baigtinė (tada iš principo galima ištirti visus jos objektus)
 begalinė (tada visų jos objektų ištirti apskritai neįmanoma).
 Imtis (kitaip – atranka) – tyrimui atrinktų ir ištirtų objektų aibė.
Paprastai tai būna populiacijos dalis, o jeigu ištiriama visa baigtinė
populiacija, tai imtis ir populiacija sutampa.
 Požymiai (kitaip – kintamieji, atributai) – tyrinėtoją dominantys
populiacijos bei imties objektų ypatumai, kurių konkrečios
reikšmės kinta.
 Stebėjimas (arba statistinis eksperimentas) – tiriamųjų požymių
(iš)matavimas arba (su)skaičiavimas imtyje ir jų registravimas. Tai
– pirminis statistinio pobūdžio informacijos šaltinis, todėl nuo jo
priklauso viso tyrimo efektyvumas bei objektyvumas.
Požymiai
Kokybiniai: paprastai apibūdinami juos įvardijant.
Kiekybiniai: lengvai matuojami, t. y. įvertinami vienokiais ar kitokiais matais ar
skaičiavimo vienetais.

Diskretieji:
 Galimų reikšmių skirtumai iš principo negali būti mažesni už tam tikrą
„minimumą“
Tolydieji:
 Jų galimų reikšmių skirtumai iš principo gali būti kiek tik norint maži, reikšmės
viena į kitą pereina laipsniškai, nenutrūkstamai. Todėl ir juos išmatuoti iš
principo teįmanoma tiktai apytiksliai, vienokiu ar kitokiu tikslumu. Matuojant šių
požymių reikšmės neišvengiamai diskretizuojamos pagal pasirinktuosius mato
vienetus

Kartais dar atskirai yra minimi tarpinę padėtį tarp kiekybinių ir kokybinių užimantys
požymiai, vadinami ranginiais. Jie turi ir kiekybiniams, ir kokybiniams
požymiams būdingų savybių. Rangai, intervalai ir pan.
Duomenų atranka
Imtis iš tiesų yra susikurtas populiacijos modelis, jos eksperimentinis atitikmuo,
dirbtinis analogas. Čia ir yra statistikos esmė: tirti palyginti nedidelę,
ribotą imtį, o tyrimo rezultatus tikimybiškai apibendrinti visai populiacijai.
Todėl svarbu, kad imtis populiaciją, iš kurios buvo paimta, atspindėtų kaip
galima adekvačiau ir teisingiau. Paprastai sakoma, kad didesnio tūrio
imtis esanti reprezentatyvesnė,
Didėjant imčiai, artimesnė vienetui darosi tikimybė, kad šioje imtyje rastos
požymių reikšmės bei jų pasiskirstymas (sklaidos po objektus ypatumai)
iš esmės būtų tokios pačios, jeigu paimtume ir kitus analogiškus
populiacijos objektus, šį kartą į imtį nepatekusius.
Tačiau reprezentatyvumą lemia ne vien tik imties tūris (didumas), bet labiausiai
– jos sudarymo principai.
Dar daugiau: pernelyg didelės imtys tampa savaip problemiškos, nes tadadėl
grynai formalių, matematinių priežasčių gali būti „sureikšminami“ ir iš
tikrųjų menki, nežymūs skirtumai.
Imties atrankos metodai (1)
Kai populiacija nustatyta, kiekvienas jos narys yra potencialus duomenų
šaltinis. Yra dvi galimybės tirti populiaciją:
 rinkti duomenis iš kiekvieno populiacijos individo. Tai – ištisinis
tyrimas, taikomas tada, kai populiacija yra nedidelė ir lengvai
nustatoma ;
 rinkti duomenis tik iš dalies populiacijos narių (pasirinktiniai tyrimai).
Taikant šį metodą, visada padaroma paklaida. Vis tiktai, jei imtis yra
sudaryta tinkamai, tai paklaida, kaip tvirtina statistikos teorija, bus
labai maža, taigi mažesnės išlaidos ir pastangos kompensuos
tikslumo stoką.

George Gallup:
“Ar norite apklausą atlikti Niujorko valstijoje, ar Baton Ružo mieste (160 000
gyventojų), jums reikia apklausti tiek pat gyventojų. Čia nėra jokio stebuklo -
kai verdami du puodai sriubos, ir vienas iš jų yra dešimt kartų didesnis už
kitą, virėjui nereikia semti dešimt kartų daugiau šaukštų iš didesniojo puodo,
kad nustatytų sriubos skonį.”
Imties koeficientas
Populiacijos dydį žymėsime N, o imties dydį n. Kadangi imtis pagal
apibrėžimą yra populiacijos dalis, tai visada n < N.

Santykis n/N yra vadinamas imties koeficientu. Procentinis imties


koeficientas x = n/N x 100 rodo, kad imtis sudaro x% visos
populiacijos.

1 pavyzdys. Sakykime, kad populiacijos dydis N = 500000. Jei imties


dydis n = 1000, imties koeficientas 1000/500000 = 1/500, arba
0,2%. Tai reiškia, kad kiekvienas imties narys atstovauja 500
populiacijos narių, arba imtis sudaro 0,2% visos populiacijos.

2 pavyzdys. Vėl sakykime, kad populiacijos dydis N = 500000, 0


mums reikėtų, kad imties koeficientas būtų lygus 3%. Todėl imti
es dydis turėtų būti 500000x0,03 = 15000.
Imties paklaida
Parametras yra tiksli tam tikros populiacijos charakteristikos skaitinė
reikšmė, o statistika yra parametro įvertis, gautas iš imties.

Imties paklaida - tai parametro ir statistikos (parametro įverčio)


skirtumas.
Atsitiktinė paklaida atsiranda todėl, kad statistika negali suteikti
visiškai tikslios informacijos apie visą populiaciją. Atsitiktinė
paklaida priklauso nuo imties dydžio. Jos išvengti neįmanoma -
mes tegalime sumažinti ją iki minimumo, rūpestingai pasirinkę
imti ir tinkamai nustatę imties dydį.
Sisteminę paklaidą dažniausiai lemia imties iškreiptis, atsirandanti dėl
netinkamo jos sudarymo. Labai sunku atsižvelgti į visus
faktorius, kurie gali turėti įtakos imties reprezentatyvumui.
Priešingai nei atsitiktinės paklaidos atveju, sisteminės paklaidos
galima išvengti taikant tinkamus imties metodus. O imties
didinimas negarantuoja imties sisteminės paklaidos mažėjimo
Imties paklaida
Kai sudarant imti atsiribojama (tegu ir nesąmoningai) nuo tam tikros
populiacijos dalies, sakoma, kad tyrimui kenkia imties sudarymo,
arba ėmimo iškreiptis.
Labiausiai tyrimai iškreipiami, kai imtis sudaroma tik iš tų individų,
kurie patys prašosi i imti.

Apklausoje dalyvavusių žmonių skaičiaus ir prašytq joje dalyvauti


žmonių skaičiaus santykis yra vadinamas atsakymo lygmeniu

Išvada
1) bloga didelė imtis yra daug blogiau negu gera maža imtis
2) reikia vengti ėmimo iškreipties ir neatsakymo iškreipties.

Šiuolaikinių viešosios nuomonės tyrimų imties metodams yra keliami du


prieštaringi reikalavimai: 1) maža imties iškreiptis ir 2) priimtina tyrimo
kaina ir trukmė.
Imties atrankos metodai (2)
1. Kvotinė (mechaninė, proporcingoji) atranka.
Kvotinė imtis turėtų atitikti visos populiacijos sudėti pagal tam tikrus
požymius: imtyje turi būti tam tikras skaičius moterų ir vyrų, jaunų ir senų,
gyvenančių kaime ir mieste, ir t.t. Kiekvienos grupės narių imama tiek, kad
imtyje būtų išlaikytos tokios pat proporcijos, kokios yra visoje gyventojų
populiacijoje.

Privalumas – taip teoriškai gaunamas geras populiacijos modelis.

Trūkumas – subjektyvus “svarbių” grupių parinkimas, neaišku, kiek jų turi


būti.
Imties atrankos metodai (3)
2. Atsitiktinė atranka. Imtis sudaroma atsitiktinai parenkant individus. Pagrindinė
atsitiktinės imties rūšis yra vadinamoji paprastoji atsitiktinė imtis. Ji užtikrina,
kad bet kuri populiacijos narių grupė turi tokią pat galimybę patekti į imtį, kaip ir
bet kuri kita, jei jos visos yra vienodo dydžio. Daugelis šiuolaikinių viešosios
nuomonės apklausų atliekamos atsitiktinės imties metodais. Atsitiktinės imties
pagrįstumas yra patvirtintas tiek praktine patirtimi, tiek ir matematikos teorija.
Trūkumas – didelė tyrimo kaina.

3. Tipinė (sluoksninė) atranka. Pirmiausia populiacija suskirstoma į sluoksnius


(vadinamuosius stratus), Tada iš kiekvieno sluoksnio imama atsitiktinė imtis.
Sluoksniai dažniausiai parenkami pagal geografinįius ir demografinius kriterijus.
Privalumas – nariai sugrupuojami į aiškiai apibrėžtas sritis, apklausos kaina
mažesnė.

Visos atrankos gali būti vienkartinės arba kartotinės.


Dažnai naudojama kombinuotoji atranka, derinant įvairius metodus.
Aprašomosios statistikos elementai
Aprašomoji statistika nagrinėja šias temas:

 Statistinių duomenų grupavimas: grupavimo požymiai, grupavimo


intervalai, grupavimų rūšys. 
 Duomenų variacijos ir koncentracijos įvertinimas.
 Grafinis statistinių duomenų vaizdavimas 
Duomenų vaizdavimas
Diagramos – vaizdus duomenų pateikimo būdas.

Stulpelinės diagramos, jų rūšys, taikymai. Dažnių histograma. Nuokrypių nuo


vidurkių stulpelinė diagrama.

Procentinės sudėties vaizdavimas. Skritulinė diagrama

Išskirtinės reikšmės duomenų serijoje, jų vaidmuo.

Dažnai reikalingas duomenų grupavimas: charakteristikos dažnis, intervalų


dažnis, procentinis dažnis.

Grupavimo intervalų prireikia, kai duomenų daug ir jie įvairūs arba tolydūs
(begalinė aibė reikšmių).
Intervalai gali būti vienodo arba skirtingo ilgio ar apskritai paversti diskrečiais
balais. Kai kintamasis tolydus, naudojamos histogramos (stulpeliai be tarpų).

MS Excel elektroninės lentelės turi puikias duomenų vaizdavimo priemones.


Variacija
 Matavimo duomenų kitimas vadinamas variacija.
 Variacija būna diskrečioji ir tolydžioji.
 Didėjančia ar mažėjančia tvarka surašyta požymio variacija
vadinama variacine (rangų) eilute.
 Esant dideliam duomenų kiekiui, sudaromos vienodų ar artimų
reikšmių grupės bei surašomi variantų pasikartojimo dažniai. Taip
sudaroma intervalinė (pasiskirstymo) variacinė eilutė.
Dinamometrija
Pavyzdys Matavimo Jėga, Variacinė
Nr. kg eilutė

Ribos Dažnis 1 45 8
2 33 18
Nuo 0 iki 5 0
3 21 20
Nuo 5 iki 10 2
4 32 21
Nuo 10 iki 15 4
5 26 24
Nuo 15 iki 20 16
6 8 26
Nuo 20 iki 25 19 7 24 32
Nuo 25 iki 30 9 8 33 33
9 35 33
Intervalinė variacinė eilutė
10 36 34
11 18 35
12 34 36
13 20 45
Dažnių histograma
Dažnis
20

15

10

0
0-55 10
5-10 15
10-15 20
15-20 25
20-25 30
25-30
Imtį apibūdinantys parametrai
Savaime suprantama, kad imtį apibūdinančius parametrus apskaičiuoti
galima tik tada, kai tiriamieji požymiai yra kiekybiniai ir imtyje
randamos jų reikšmės išreiškiamos skaičiais.
 duomenų padėtį apibūdinančios charakteristikos (parametrai):
vidurkis, moda, mediana, kvantiliai (kvartiliai ir kitokie kvantiliai)
 duomenų sklaidą apibūdinančios charakteristikos: dispersija,
standartinis (kitaip – vidutinis kvadratinis) nuokrypis, linijinis
nuokrypis, variacijos žingsnis (plotis), variacijos (kitaip - imties
kitimo) koeficientas, kvartilių skirtumas IQR ir kt.
 pasiskirstymo formą apibūdinančios charakteristikos.
Duomenų padėties charakteristikos (1)
Aibės plotis (variacijos žingsnis) – didžiausios ir mažiausios požymio
reikšmių variacinėje eilutėje skirtumas.

Moda – dažniausiai variacinėje eilėje pasitaikanti požymio reikšmė.


Priklausomai nuo to, kelios požymio reikšmės imtyje vienodai dažnos,
galima skirti unimodalius, bimodalius ir polimodalius pasiskirstymus.
Kai dažniausios bimodalaus pasiskirstymo reikšmės yra šalia, jis laikomas
unimodaliu pasiskirstymu ir jo moda apskaičiuojama kaip tų reikšmių
vidurkis.

Mediana – tai vidurinis narys sekos, kuri gaunama duomenų aibę


sutvarkius didėjimo tvarka, kitaip tariant, ji yra n/2-toji pozicinė
statistika. Jei duomenų skaičius lyginis, imamas dviejų vidurinių narių
vidurkis.
Mediana skaido duomenų aibę į apatinę ir viršutinę pusę.
Duomenų padėties charakteristikos (2)
Kvartilis – pirmasis kvartilis Q1 tai apatinės pusės mediana; Q3 - viršutinės
pusės mediana. Taip duomenys padalinami į ketvirčius (gali būti įvairūs
kvantiliai).
Aibės plotis nėra labai gera charakteristika, jei yra išskirtinių reikšmių
(pavyzdžiui, 1 studentas gavo 1 balą iš 10). Kvartilinis plotis charakterizuoja
labai patikimai – tai intervalas, kuriame koncentruota 50 procentų duomenų.
Grafiškai tai vaizduojama kaip dėžė (Q1, M, Q3) su “ūsais” (min, max).
Pavyzdžiui, palyginti geografų ir kartografų vidutinį mėnesinį atlyginimą.

Penkiaskaitė suvestinė (min, Q1, mediana, Q3, max) gerai apibūdina duomenų
aibę.

Nors dviejų aibių vidurkiai ir medianos gali sutapti, tai nereiškia, kad aibės
“panašios”. Duomenų sklaidą galima įvertinti skaitiškai.
Duomenų padėties charakteristikos (3)
Vidurkis: aritmetinis, nupjautasis, geometrinis, kvadratinis ir kt.
Aritmetinis vidurkis yra apskaičiuojamas sudedant reikšmes ir sumą
padalijant iš tų reikšmių skaičiaus.
 teorinis aritmetinis vidurkis (rus. matematičeskoe ožidanije, angl.
mean ar estimation
 empirinis aritmetinis vidurkis (rus. arifmetičeskoe srednee, angl.
average).

Erdvinis vidurkio ekvivalentas yra tam tikras centras (centroidas).


Duomenų sklaidos charakteristikos (3)
Standartinis nuokrypis (kitaip – vidutinis kvadratinis, angl. standard
deviation) – tai tiriamojo požymio reikšmių sklaidos apibūdinimas,
apibrėžiamas kaip požymio įgyjamų reikšmių ir vidurkio skirtumų
kvadratų sumos vidurkis.

 i vid
( x  x
i 1,.. n
) 2

 
n
Vietoje standartinio nuokrypio kartais naudojamas dispersijos rodiklis, kuris
lygus s2.

Dvimatėse sistemose sklaidos matas yra vidutinis atstumas (kartais


naudojamas atstumo kvadratas ar pan.) nuo centroido.
Duomenų sklaidos charakteristikos (4)
variacijos koeficientas – vidutinio kvadratinio (standartinio) nuokrypio
santykis su vidurkiu.

Jei duomenys pasiskirstę pagal normalųjį skirstinį, tai 68% stebėjimų


turi patekti į ±1 standartinio nuokrypio intervalą, o 5% stebėjimų
skiriasi nuo vidurkio daugiau kaip ±2 standartiniai nuokrypiai.

pasiskirstymo formą apibūdinančios charakteristikos: asimetrijos


koeficientas ir eksceso koeficientas (normaliojo pasiskirstymo
atveju).
Pavyzdys 200
180
160
140
120
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

0
150-160 160-165 165-170 170-175 175-180 180-185
Normalusis (Gauso) skirstinys (1)
Tolydžiųjų požymių reikšmių skirstinys (pasiskirstymo dėsnis),
atitinkantis tokias sąlygas:
 vidurkio, modos ir medianos reikšmės sutampa,
 skirstinio kreivė yra simetriška, o simetrijos ašis yra ties vidurkiu,
 skirstinio kreivės forma priklauso nuo vidurkio ir standartinio
nuokrypio (σ),
 normalųjį skirstinį turinčių atsitiktinių dydžių suma taip pat turi
normalųjį skirstinį.

Normaliojo skirstinio tikimybių tankio funkcija yra


Normalusis (Gauso) skirstinys (2)
N dėsnis labai dažnai taikomas praktikoje. Nustatyta, kad jis gerai
apibūdina daugelį reiškinių: ūgį, svorį, vidutinę oro temperatūrą,
matavimo paklaidas ir t.t. Tai idealizuotas matematinis modelis,
taikomas analizuojant duomenis, kurie pasiskirstę apytikriai
normaliai.

Normalusis skirstinys dažniausiai pasitaiko kai matuojamą dydį įtakoja


daug nepriklausomų veiksnių, kurių kiekvienas prideda arba atima
tam tikrą reikšmės pokytį. Konkretaus pokyčio reikšmė gali turėti
kitokį skirstinį, nebūtinai normalųjį.
Normalusis (Gauso) skirstinys (3)
N skirstinys aprašomas varpo formos kreive, vadinama normaliąja
kreive (arba gausoide). Kreivė išsidėsčiusi virš x ašies. X ašis yra
šios funkcijos grafiko asimptotė. Kreivė simetriška per vidurkį
einančios statmenos tiesės atžvilgiu. Duomenų reikšmė, atitinkanti
šį tašką yra ir skirstinio vidurkis, ir mediana.
Normalusis (Gauso) skirstinys (4)

Mažas standartinis nuokrypis Didelis standartinis nuokrypis


Normalusis (Gauso) skirstinys (5)
Kalbant apie normaliąją kreivę, teisingi trys teiginiai:
 atsitiktinio normaliai pasiskirsčiusio dydžio patekimo į intervalą [μ – σ; μ + σ]
tikimybė yra 0,68;
 patekimo į intervalą [μ – 2σ; μ + 2σ] tikimybė yra 0,95;
 patekimo į intervalą [μ – 3σ; μ + 3σ] tikimybė yra 0,995.

Praktiškai visas plotas po


normaliąja kreive yra trijų
kvadratinių nuokrypių nuo centro
ribose. Taigi, jei kintamojo
skirstinys normalus, tai praktiškai
visos kintamojo reikšmės yra ne
daugiau kaip 3σ atstumu
nutolusios nuo centro.
Atskirą normaliojo skirstinio
atvejį, kai μ = 0, σ = 1, vadiname
standartiniu normaliuoju
skirstiniu.
Puasono skirstinys
Diskretus skirstinys, nusakantis įvykių tikimybes įvykti per tam tikrą laiko
intervalą, jeigu įvykiai vyksta pastoviu dažniu ir yra nepriklausomi
vienas nuo kito. Jei per tam tikrą laiko intervalą įvyksta vidutiniškai λ
įvykių, tikimybė, kad per tą laiką įvyks tiksliai k įvykių bus lygi:

 e yra natūrinio logaritmo pagrindas


(2.71828...),
 k yra neneigiamas sveikas skaičius
 λ yra teigiamas realusis skaičius, vidutinis
įvykių skaičius per tam tikrą laikotarpį.

Tarkime, kad įvykiai vyksta vidutiniškai kas 4


minutės, o mes norime apskaičiuoti
skaičių įvykių, įvyksiančių per 10 minučių.
Tada turėsime naudoti Puasono skirstinį
su λ = 10/4 = 2.5.
Funkciniai ir koreliacijos ryšiai
 Funkcinis ryšys – kai kiekvieną priežasties požymio reikšmę
apytiksliai ar tiksliai atitinka pasekmės požymio reikšmės.
 Koreliacinis ryšys – kai vieną priežasties požymio reikšmę atitinka iš
anksto nenustatytos tam tikro dydžio reikšmės, priklausančios nuo
išorinių veiksnių.
 Statistikos metodas, tiriantis požymių tarpusavio ryšius, vadinamas
koreliacijos analize.
Klasikinė koreliacija (1)
Klasikinė (Pirsono) koreliacija skaičiuojama taip:

r vadinamas koreliacijos koeficientu,

xi ir yi yra atskirų stebėjimų rezultatai,


x ir y su brūkšneliais viršuje – šių kintamųjų vidurkiai,
n – imties dydis,
Sx ir Sy – jų standartiniai nuokrypiai.

Pagal šią formulę gaunamas skaičius nuo -1 iki +1; teigiamos reikšmės
reiškia teigiamą koreliaciją, neigiamos – neigiamą koreliaciją. Jei
gaunamas 0, vadinasi, koreliacijos nėra.
Klasikinė koreliacija (2)

Pirsono koreliacijos koeficientas r gali turėti reikšmes nuo -1 iki


+1
 -1 yra esant atvirkštinei tiesinei priklausomybei
 +1 – esant tiesioginei tiesinei priklausomybei
 0 – rodo koreliacinio ryšio nebuvimą.
Pirsono koreliacijos koeficientas
Koreliaciją prasminga skaičiuoti tik tiems duomenims, kurie gali būti
susiję.

r reikšmė Vertinimas
0,00 – 0,19 Labai silpnas tarpusavio ryšys
0,20 – 0,39 Silpnas ryšys
0,40 – 0,69 Vidutinis ryšys
0,70 – 0,89 Stiprus ryšys
0,90 – 1,00 Labai stiprus tarpusavio ryšys
Koreliacijos (sklaidos) laukas
Kūno Sklaidos laukas
Ūgis
masė
Svoris, kg 85
1,86 76 80
1,58 62 75
1,78 66 70
65
1,90 79
60
1,80 74 y = 63.52x - 41.77
55
1,83 79 50
1,5 1,6 1,7 1,8 1,9 2
1,66 60
1,73 68 Ūgis, m

r = 0.89
Neparametrinė koreliacija
Spirmeno koreliacijos koeficientas skaičiuojamas, kai imtis pateikta
rangais, balais ar kitais netiesioginiais vertinimais.
Jis taikomas tais atvejais, kai:
 Viena ar abi imtys yra neparametriniai duomenys
 Nei viena iš parametrinių imčių nepasiskirsčiusi pagal normalųjį
dėsnį

d – ranginis atstumas
Pavyzdys
1 1 0
2 1 1
3 2 1
5 4 1
4 5 1
2 1 1
5 5 0
3 4 1
Išsilavinimas 1 1 0
4 4 0
1 aukštasis 5 5 0
2 neb. aukštasis 2 2 0
3 aukštesnysis 3 3 0
2 3 1
4 vidurinis 5 4 1
5 profesinis 4 4 0
3 1 4
Nuomonė 3 4 1
1 Visiškai sutinka 1 1 0
2 Labiau sutinka nei prieštarauja 2 1 1
3 Nei sutinka, nei nesutinka 5 5 0
4 3 1
4 Labiau nesutinka nei sutinka 15
5 Visiškai nesutinka n= 22 r= 0,99153
Autokoreliacija erdvėje (1)
Autokoreliacija erdvėje (spatial autocorrelation) yra erdvinis klasikinės
koreliacijos atitikmuo.

Pagrindinis skirtumas tas, kad autokoreliacijai erdvėje skaičiuoti naudojami


stebėjimų rezultatai visada yra aiškiai erdviniai. Užuot klausus, kas atsitinka su
vienu kintamuoju kintant kitam kintamajam, skaičiuojant autokoreliaciją erdvėje
klausiama, kiek gretimi erdviniai vienetai panašūs vienas į kitą tam tikro
kintamojo atžvilgiu. Pavyzdžiui, jei vienoje savivaldybėje gyventojų pajamos
didelės, ar gretimose savivaldybėse jos taip pat didelės?

Didžiausias skirtumas tarp klasikinės koreliacijos ir autokoreliacijos erdvėje


skaičiavimo tas, kad skaičiuojant pastarąją būtina nurodyti erdvinių vienetų
kaimynus.  

 
Autokoreliacija erdvėje (2)
Ar du erdviniai vienetai yra kaimynai, dažniausiai nustatoma vienu iš dviejų
metodų: atstumo (distance) metodu ir gretimumo (contiguity) metodu.

Atstumo metodas dažniausiai naudojamas analizuojant taškų išsidėstymą. Jo


principas paprastas – jei atstumas tarp taškų ne didesnis už nurodytą, taškai
yra kaimynai. Nurodomas atstumas priklauso nuo tiriamo reiškinio ir tyrimų
konteksto.  

Gretimumo metodu tikrinama, ar du plotiniai erdviniai vienetai yra šalia


vienas kito. Pavyzdžiui, Lietuva ir Lenkija turi bendrą valstybės sieną, taigi
jos gretimos. Šiuo atveju svarbi charakteristika yra gretimumo eilė (order
of contiguity).
Autokoreliacija erdvėje (2)
Visi bendrą ribą su „A“
turintys erdviniai vienetai,
net jei ta bendra riba yra tik
kampinis taškas, laikomi 1-
os gretimumo eilės vienetais
ir pažymėti „A1“.

Tai vadinama „valdovės gretimumu“ – pagal šachmatų valdovės figūros


judėjimą. Erdviniai vienetai, tarp kurių ir vieneto „A“ yra dvi ribos, laikomi 2-os
gretimumo eilės vienetais ir pažymėti „A2“.

Daugiausia tyrimams naudojamas 1-os eilės gretimumas – ypač aprašomojoje


analizėje, pavyzdžiui, skaičiuojant autokoreliaciją erdvėje.
 
Autokoreliacija erdvėje (3)
Kitas gretimumo matas – „bokšto (Rook) gretimumas“ – nelaiko gretimais
erdvinių vienetų, kurių bendra riba yra tik kampiniame taške.

Valdovės gretimumo principas dažniausiai taikomas vektoriniams duomenims,


kadangi dauguma socialinių – ekonominių – politinių erdvinių vienetų nėra
kvadratiniai ar stačiakampiai. Be to, valdovės gretimumas nepažeidžia pirmojo
geografijos dėsnio.

Yra ir kitų gretimumo matų: kaimynai gali būti nustatomi pagal erdvinių vienetų
bendrų ribų ilgį arba pagal dvikrypčius svertų koeficientus, nurodančius
individų srautą iš gretimų erdvinių vienetų ir į juos; nuo pasirinkto mato
priklauso erdvinės analizės rezultatai. Pavyzdžiui – bendra Lietuvos ir Latvijos
valstybės siena ilgesnė negu Lietuvos ir Lenkijos, bet Lenkijos ekonomikos
apimtis daug didesnė. Taigi, kaimynystės matas (ir kaimynų svarba) priklauso
nuo konteksto. Tačiau dažniausiai analizei naudojamas pirmosios eilės
valdovės gretimumas. 
 
Autokoreliacija erdvėje (4)
Dažniausias autokoreliacijos erdvėje matas yra Morano I:

kur kintamieji n ir y yra tie patys kaip ir ankstesnėje formulėje, o wij yra
erdvinių vienetų erdvinių kaimynų matrica. Ši formulė gana sudėtinga ir ją
suprasti kol kas nėra būtina, nes dauguma programų, tarp jų ir ArcGIS, atliks
šiuos skaičiavimus už jus. Svarbu atkreipti dėmesį, kad Morano I ir klasikinės
autokoreliacijos formulės panašios. Pagrindinis skirtumas tas, kad skaičiuojant
autokoreliaciją erdvėje analizuojamas tik vienas kintamasis. Autokoreliacija
erdvėje – tai ne kintamųjų, o erdvinių vienetų koreliacija.
Autokoreliacija erdvėje (5)
Morano I reikšmių intervalas yra nuo -1 iki +1, kaip ir klasikinės koreliacijos.

Jei Morano I lygi nuliui, reiškia, kad autokoreliacijos erdvėje nėra, jei didesnė
už nulį – autokoreliacija erdvėje teigiama, jei mažesnė už nulį – autokoreliacija
erdvėje neigiama.

Taigi, jei autokoreliacija erdvėje teigiama (dažniausias atvejis tiriant socialinius


– ekonominius – politinius erdvinius vienetus), tai kaimyninių erdvinių vienetų
reikšmės panašios. O jei autokoreliacija erdvėje neigiama, kaimyninių erdvinių
vienetų reikšmės skirtingos. 
Hipotezių tikrinimas
Hipotezių tikrinimo procedūrą sudaro šie pagrindiniai žingsniai:
1. Hipotezių formulavimas;
2. Statistinio reikšmingumo lygmens parinkimas;
3. Statistinio kriterijaus(testo) skaičiavimas;
4. Sprendimo priėmimas (išvadų formulavimas).

Suformuluotos hipotezės tiksliai ir lakoniškai išreiškia spėjimus


apie tiriamą objektą. Tai vienas didžiausių matematinės statistikos
privalumų.
Analizės pavyzdys
Iškelta hipotezė: kofeinas teigiamai veikia organizmo
psichomotorinę reakciją.
Tiriamųjų kiekis 20 asmenų dalijamas į dvi grupes po 10:
kontrolinę ir eksperimentinę grupes. Eksperimentinei grupei
leidžiami kofeino preparatai, kontrolinei – ne.

E 10
KOFEINAS Test
1
Ar Test1 rezultatai
Imtis geresni, negu Test2?
20
10 Test
2
K
Testo rezultatai Reakcijos
laikas,
ms
Be Su
259 201
275 198
304 245
285 287
288 190
314 250
291 285
304 295
285 231
246 201
Statistics

Be_kofeino Su_kofeinu
N Valid 10 10
Missing 0 0
Mean 285,1000 238,3000
Std. Error of Mean 6,58694 12,79848
Median 286,5000 238,0000
Mode 285,00 a 201,00
Std. Deviation 20,82973 40,47235
Skewness -,626 ,250
Std. Error of Skewness ,687 ,687
Kurtosis ,027 -1,680
Std. Error of Kurtosis Jei reikšmės didesnės, 1,334negu p1,334
Minimum 246,00 190,00
Maximum
(p=0,05), pasiskirstymas artimas
314,00 295,00
normaliajam
a. Multiple modes exist. The smallest value is shown

Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Be_kofeino ,198 10 ,200* ,949 10 ,662
Su_kofeinu ,222 10 ,179 ,883 10 ,142
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Hipotezės iškėlimas
Nulinė hipotezė – tai spėjimas apie skirtumų nebuvimą. Ji žymima H0
ir vadinama nuline todėl, kad spėjama jog skirtumas lygus nuliui (arba
skirtumas yra atsitiktinis ir nereikšmingas)
Alternatyvi hipotezė – priešinga nulinei. Tai spėjimas apie
egzistuojančius skirtumus, kurių negalima paaiškinti atsitiktiniais
svyravimais. Ji žymima H1. Alternatyvi hipotezė dažniausiai yra tai, ką
mes norime įrodyti.

 Nulinė hipotezė H0 – kofeinas neturi įtakos reakcijos laikui. (Testų,


atliktų po bandymo, rezultatai statistiškai reikšmingai nesiskiria).
 Alternatyvioji hipotezė H1 – kofeinas turi esminės įtakos reakcijos
laikui. (Testų, atliktų po bandymo, rezultatai statistiškai reikšmingai
skiriasi).
Statistinio reikšmingumo lygmuo
Hipotezę atmetame, jei atsitinka tai, kas, esant teisingai hipotezei, atsitikti
praktiškai negalėjo.
“Praktiškai negalėjo” reiškia kad tokio įvykio tikimybė yra labai maža.
Tam įvedama reikšmingumo lygmens sąvoka.

Reikšmingumo lygmuo paprastai žymima α raide, α>0.

Jei įvykio tikimybė mažesnė už α, praktiškai jis įvykti negali.

Tikrindami hipotezę darome eksperimentą ir hipotezę atmetame jei įvyko


įvykis, kurio pasirodymo tikimybė mažesnė už α.

Taikomojoje statistikoje reikšmingumo lygmuo dažnai išreiškimas procentais.

Duomenų analizės programose skaičiuojamas mažiausias reikšmingumo lygmuo


su kuriuo teisinga nulinė hipotezė gali būti atmesta turimiems duomenims.
Statistinio reikšmingumo lygmenys
(klaidos tikimybės interpretacija)
Klaidos tikimybė Interpretacija Žymėjimas

α>0,05 Mažai arba visai nėra ns (non-


reikšmingų įrodymų significant)
prieš H0
α≤0,05 Vidutiniškai reikšmingi
įrodymai prieš H0
*

α≤0,01 Labai aiškūs įrodymai


prieš H0
**

α≤0,001 Ypač reikšmingi


įrodymai prieš H0
***
Statistinis kriterijus
Tai funkcija, kuri naudojama tikimybiškai įvertinti nulinės hipotezės
teisingumą ar klaidingumą.

Visas galimas statistinio kriterijaus reikšmes sudaliname į dvi grupes:


 a) pirmoji sritis, į kurią patekus apskaičiuoto kriterijaus reikšmei,
hipotezė atmetama;
 b) antroji, į kurią patekus apskaičiuoto kriterijaus reikšmei, hipotezės
atmesti negalime, t.y. hipotezė priimama.

Skaičiai C1, C2, …, kurie atskiria hipotezės atmetimo ir neatmetimo


sritis, vadinami kritinėmis reikšmėmis.
Sprendimo priėmimas (išvadų
formulavimas)
Sprendimo priėmimo taisyklė tokia:
 Jei apskaičiuota (empirinė) statistinio kriterijaus reikšmė patenka į kritinę
sritį, hipotezė atmetama.
 Jei apskaičiuota (empirinė) statistinio kriterijaus reikšmė nepatenka į kritinę
sritį, hipotezė neatmetama (priimama).

Skaičiuojant kompiuteriu, pateikiama statistinio kriterijaus reikšmė ir stebimasis


reikšmingumo lygmuo p-level. Šiuo atveju sprendimo priėmimo taisyklė
tokia:
 Jeigu stebimasis reikšmingumo lygmuo p-level yra mažesnis už pasirinktą
α (p-level < α), nulinė hipotezė atmetama.
 Jeigu apskaičiuotas stebimasis reikšmingumo lygmuo p-level yra didesnis

arba lygus α (p-level ≥ α), nulinė hipotezė neatmetama (priimama).


Stjudento t-kriterijus (t-testas)
Jo naudojimui būtinos šios sąlygos:
 Abi imtys pasiskirstę pagal normalųjį dėsnį.
 Imtys atrinktos atsitiktiniu būdu.
 Imčių dispersija apytiksliai vienoda.
 Duomenys imtyse parametriniai – išreikšti matavimo vienetais ar jų
santykiu.

Yra trys taikymo versijos: susietoms imtims, nesusietoms imtims su


vienodomis arba skirtingomis dispersijomis.
Pirsono 2 kriterijus
Chi kvadratu kriterijus tinka tikrinti sąryšio buvimui tarp
duomenų kategorijų.
Funkcija CHITEST (stebėti dažniai, tikėtini dažniai)
Gautas skaičius reiškia, tikimybę, kad suklysime atmesdami
hipotezę H1, teigiančią, kad duomenys priklausomi.
Jei skaičius pakankamai didelis, nėra pagrindo atmesti H0
hipotezę.Standartinė CHITEST funkcijos reikšmė, nuo
kurios pradedama atmesti nulinę hipotezę, yra 0,05.
Pirsono 2 kriterijus
Nuomonė apie vykdomas reformas:
H0 – tarp lyties ir nuomonės (pritarimo ar nepritarimo) ryšio nėra, t. y.,
vyrai ir moterys vienodai tiek pritaria, tiek nepritaria reformoms.
H1 – tarp lyties ir nuomonės ryšys yra, t. y. vyrų ir moterų nuomonės
skiriasi.
Stebėti dažniai
Lytis Nepritaria Pritaria Iš
viso
Vyrai 147 562 709

Moterys 89 632 721

Iš viso 236 1194 1430


Pirsono 2 kriterijus
Tikėtini dažniai

Lytis Nepritaria Pritaria

Vyrai 709  236 709 1194


q11   117 , q12   592,
1430 1430

Mote-
721  236 7211194
rys q 21   119, q 22   602.
1430 1430
Pirsono 2 kriterijus
n f  qij 
2

f ij
2
  
i , j 1
ij

qij
; - tikrieji (stebėti) dažniai;

qij - tikėtini dažniai;

147  117 2  562  5922  89  119 2  632  6022


2=  18,26;
117 592 119 602
Pirsono 2 kriterijus
Išvadų formulavimas
 Hipotezė apie kintamųjų nepriklausomumą yra
atmetama, kai apskaičiuota 2 reikšmė yra didesnė už 2
skirstinio su (s-1)(t-1) laisvės laipsnių  lygmens kritinę
reikšmę.
 Kritinę reikšmę galima rasti matematinėse lentelėse,
kurios (skirstinio α lygmens kritinė reikšmė).
Vietos koeficientas (1)
Vietos koeficientas (location quotient) yra aprašomasis matas, statistikoje
pradėtas naudoti gana neseniai.

Nuo penktojo dešimtmečio pradėtas naudoti ekonominėje geografijoje


užimtumui arba pramonės specializacijai matuoti, pastaruoju metu dažnai
naudojamas erdvinėje nusikalstamumo analizėje.

Šį koeficientą gerai žino geografai: jis nurodo tam tikro aktyvumo dalies
viename erdviniame vienete santykį su tuo paties aktyvumo dalimi visame
regione. Jis atspindi šio aktyvumo padidėjimą arba sumažėjimą ir labai
praverčia atliekant bet kokią analizę, skirtą nustatyti regionams, kuriuose tam
tikras aktyvumas pasireiškia labiau negu kituose.

Vietos koeficientą galima naudoti tiriant bet kokį reiškinį, kuris įvairiose vietose
vyksta skirtingai – tai yra, praktiškai bet kokią žmonių veiklą.
Vietos koeficientas (2)
Tarkime, kad turime nusikalstamumo Lietuvos savivaldybėse duomenis.
 
Vietos koeficientas skaičiuojamas taip:

kur Cin yra i tipo nusikaltimų skaičius erdviniame vienete n, Ctn – visų
nusikaltimų skaičius erdviniame vienete n, o N – erdvinių vienetų skaičius.
Šiame pavyzdyje vietos koeficientas yra konkretaus nusikaltimų tipo tam
tikroje Lietuvos savivaldybėje dalies santykis su to paties nusikaltimų tipo
dalimi visoje Lietuvoje. Jei vietos koeficientas lygus vienetui, šiai savivaldybei
tenka proporcinga tam tikro tipo nusikaltimų dalis; jei vietos koeficientas
didesnis už vienetą, šio tipo nusikaltimų savivaldybėje neproporcingai daug; jei
vietos koeficientas mažesnis už vienetą, savivaldybėje šių nusikaltimų dalis
neproporcingai mažesnė.
Vietos koeficientas (3)
Daugumoje Lietuvos savivaldybių įsilaužimai nėra didelė problema Yra kelios
savivaldybės, kuriose įsilaužimų skaičius gana didelis, bet daugumoje Lietuvos
savivaldybių jie nėra didelė problema.
 
Vietos koeficientas (4)
Vietos koeficientas parodo kitokį įsilaužimų vaizdą.
Vietos koeficientas (5)
Aiškiai išsiskiria kelios savivaldybės (raudonos), kuriose šių nusikaltimų dalis
didesnė negu visoje Lietuvoje. Nors daugumoje iš jų didesnis ir įsilaužimų
skaičius, bet ne visose.

Šis nusikalstamumas nestipriai dominuoja (oranžinė spalva) daugelyje


savivaldybių, kuriose nusikalstamumas mažas. Tai nereiškia, kad šiose
savivaldybėse nesaugu – nusikaltimų daroma visur ir visada, – tai rodo, kad
vienose savivaldybėse įsilaužimai populiaresni negu kitose.

Vietos koeficiento informacija svarbi formuojant politiką; ji rodo, kad šiose


savivaldybėse esamos policijos ir nusikaltimų prevencijos pajėgos daugiau
dėmesio turėtų skirti įsilaužimams – tai nereiškia, kad pačių šių pajėgų reikia
daugiau.
Erdvinės statistikos (1)
Atliekamos su rastriniais sluoksniais, kuriuos sudaro gardelės, pasižyminčios
skirtingomis atributų reikšmėmis

Loginėse funkcijose dažnai


naudojamos ne tik
aritmetinės, bet ir loginės
(AND, OR, XOR, NOT ir
pan.) bei palyginimo (pvz.,
>, <, = ) operacijos.

Pavyzdžiui, galima, iš penkių įvesties rastrų, vaizduojančių kritulių kiekius per


penkerius metus iš eilės, sudaryti vieną, vaizduojantį didžiausią metinį kritulių
kiekį kiekvienoje gardelėje.
Erdvinės statistikos (2)
Vietinė statistika lygina ir sumuoja tik atitinkamas įvesties rastrų gardeles (t. y.
analizė atliekama po vieną gardelę).
 
•maksimumas – nustato didžiausias atitinkamų įvesties rastrų gardelių reikšmes;
•minimumas – nustato mažiausias atitinkamų įvesties rastrų gardelių reikšmes;
•dauguma – nustato, kuri reikšmė atitinkamose įvesties rastrų gardelėse dažniausia;
•mažuma – nustato, kuri reikšmė atitinkamose įvesties rastrų gardelėse rečiausia;
•suma – skaičiuoja atitinkamų įvesties rastrų gardelių sumas;
•vidurkis – skaičiuoja vidutines atitinkamų įvesties rastrų gardelių reikšmes (vidurkius);
•mediana – skaičiuoja vidurines atitinkamų įvesties rastrų gardelių reikšmes (pusė
reikšmių mažesnės, pusė – didesnės);
•standartinis nuokrypis – skaičiuoja atitinkamų įvesties rastrų gardelių standartinį
nuokrypį;
•intervalas – nustato atitinkamų įvesties rastrų gardelių reikšmių intervalą (nuo
mažiausios iki didžiausios reikšmės);
•įvairovė – nustato, kiek skirtingų reikšmių yra atitinkamose įvesties rastrų gardelėse.
Erdvinės statistikos (3)
Židinio statistika. Židinio (arba kaimynystės) funkcijų aprėptis platesnė negu
vietinių ta prasme, kad nustatant išvesties rastro gardelės reikšmę atsižvelgiama ir į
nustatytoje kaimynystėje esančių gardelių reikšmes.

Panašiai kaip vykdant vietinę funkciją, imamos gardelės po vieną (jos tampa židinio
gardelėmis) tol, kol apdorojamos visos rastro gardelės. Skirtumas nuo vietinės kelių
rastrų funkcijos tas, kad nustatydama išvesties sluoksnio reikšmes židinio funkcija
atsižvelgia ir į aplinkinių gardelių reikšmes.
 

Židinio sumos statistika


Erdvinės statistikos (4)
Zoninė statistika. Zoninės funkcijos atlieka operacijas su vieno rastro gardelėmis,
patenkančiomis į zonas, sudarytas iš vienodų kito rastro gardelių.

Zoną sudaro vienodas reikšmes turinčios gardelės. Zonos gali būti vientisos arba
nevientisos.

Baseinų zoninė statistika

You might also like