Biometri PDF

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 130

Biometrija

Milena Kovač

Domžale, 2004
2 Biometrija

2
Biometrija 3

Kazalo

1 OSNOVE BIOMETRIJE 11
1.1 Biometrija kot veda 11
1.1.1 Raziskave in razvojno delo 11
1.1.2 Iskanje informacij 12
1.2 Populacija in vzorci 13
1.3 Spremenljivke 17
1.4 Statistike 20
1.4.1 Srednje vrednosti 21
1.4.1.1 Aritmetična sredina 21
1.4.1.2 Mediana 21
1.4.1.3 Modus 22
1.4.2 Mere razpršenosti 22
1.4.2.1 Varianca 22
1.4.2.2 Standardni odklon 23
1.4.2.3 Standardna napaka ocene 23
1.4.2.4 Koeficient variabilnosti 24
1.4.2.5 Kvantili 24

2 PORAZDELITVE NAKLJUČNIH SPREMENLJIVK 25


2.1 Opis porazdelitve 25
2.2 Porazdelitev diskretnih naključnih spremenljivk 25
2.3 Porazdelitev zveznih naključnih spremenljivk 28
2.3.1 Gostota verjetnosti ali verjetnostna funkcija (probability density func-
tion) 28
2.3.2 Porazdelitvena funkcija za slučajno spremenljivko 28
2.4 Bernullijeva porazdelitev 29
2.5 Binomska porazdelitev 29
2.6 Poissonova porazdelitev 30
2.7 Enakomerna (uniformna) porazdelitev 32
2.8 Normalna porazdelitev 32
2.9 Ostale porazdelitve 33
2.10 Enorazsežne in večrazsežna porazdelitev 34
2.11 Vaje 34
4 Biometrija

3 MATRIČNI ZAPIS MODELA IN OSNOVE MATRIČNE OPERACIJE 37


3.1 Skalar 37
3.2 Vektor 37
3.3 Matrika 37
3.3.1 Posebne matrike 38
3.4 Seštevanje matrik in vektorjev 41
3.5 MNOŽENJE MATRIK 41
3.6 OPIS MODELA V MATRIČNI OBLIKI 41
3.6.1 Vektorji opazovanj in vektorji parametrov 43
3.6.2 Matrike dogodkov 46
3.6.3 Matrike varianc in kovarianc 48
3.7 Determinanta 53
3.8 Inverzna matrika 53
3.9 Splošna inverza 53
3.10 Direktna vsota 54
3.11 Kronecker produkt 55
3.12 Odvajanje matrik 56
3.12.1 Odvod matrike po skalarju 56
3.12.2 Odvod skalarja po matriki 56
3.12.3 Odvod vektorja po vektorju 57
3.12.4 Odvajanje produkta matrik 58
3.12.5 Odvajanje inverze 59
3.12.6 Odvajanje splošne inverze 60
3.12.7 Odvajanje funkcije determinante 60
3.12.8 Chain-ovo pravilo 60
3.13 Sled matrike 60
3.14 KVADRATNE OBLIKE (QUADRATIC FORM) 63
3.15 CHOLESKY DEKOMPOZICIJA (KVADRATNI KOREN) 66

4 OCENJEVANJE IN INTERPRETACIJA PARAMETROV 67


4.1 Kriteriji za izbor metode 67
4.1.1 Struktura podatkov 67
4.1.2 Porazdelitev 68
4.1.3 Število opazovanj 69
4.1.4 Načelo skromnosti, praktičnost, izvedljivost in interpretacija 69
4.1.5 Funkcija tveganja in funkcija izgube, loss function 70
4.2 Enostavna analiza variance (ANOVA) 70
4.3 Metoda najmanjših kvadratov 70

4
Biometrija 5

4.3.1 Ilustracija metode najmanjših kvadratov 70


4.3.2 Izpeljava metode v skalarni obliki 74
4.3.3 Vaje 79
4.3.4 Izpeljava metode v matrični obliki 80
4.3.5 Rešitev sistema enačb 82
4.4 Metoda tehtanih najmanjših kvadratov 84
4.4.1 Ilustracija metode tehtanih najmanjših kvadratov 84
4.4.2 Izpeljava funkcije pri metodi tehtanih najmanjših kvadratov 84
4.4.3 Izpeljava metode tehtanih najmanjših kvadratov v skalarni obliki 86
4.4.4 Izpeljava metode v matrični obliki 89
4.4.5 Rešitev sistema enačb 91
4.5 Metoda splošnih najmanjših kvadratov 91
4.5.1 Izpeljava metode v skalarni obliki 92
4.5.2 Izpeljava metode v matrični obliki 92
4.5.3 Rešitev sistema enačb 92
4.6 Metoda največje zanesljivosti 92
4.6.1 Kako poiščemo maksimum neke funkcije? 93
4.6.2 Spremenljivke z naravno porazdelitvijo. 93
4.6.3 Selekcijski indeks 95
4.6.4 Sistem enačb mešanega modela 95
4.7 Lastnosti ocen in napovedi 98
4.7.1 Linearne ocene in napovedi 98
4.7.2 Ocene in napovedi so najboljše 99
4.7.3 Nepristranske ocene in napovedi 99
4.7.4 Ni vse najboljše, kar je BLUE ali BLUP 99
4.8 Metode preverjanja ocenljivosti 100

5 POSTAVITEV IN TESTIRANJE HIPOTEZ 103


5.1 Postavitev hipoteze 103
5.1.1 Ničelna in alternativna hipoteza 103
5.1.2 Postavitev linearnih kombinacij 104
5.2 Vsota kvadratov in stopinje prostosti 106
5.3 Preveritev modela 107
5.4 Preveritev vplivov 112
5.4.1 Vsota kvadratov tipa I 113
5.4.2 Vsota kvadratov tipa II 114
5.4.3 Vsota kvadratov tipa III in IV 116
5.4.4 Analiza variance v modelih za debelino hrbtne slanine 117

5
6 Biometrija

5.5 Preveritev nivojev znotraj vpliva 117


5.6 Nov naslov 117
5.6.1 Metoda splošnih najmanjših kvadratov 122
5.6.1.1 Kvadratna oblika za model 122
5.6.2 Metoda najmanjših kvadratov 124
5.6.3 Pričakovana vrednost kvadratne oblike 126
5.6.4 Distribucija kvadratne oblike 126
5.6.5 Neodvisnost kvadratnih oblik 128
5.6.6 Neodvisnost linearne in kvadratne oblike 129

6
Biometrija 7

Tabele

2.1 Porazdelitev gnezd pri prašičih z ozirom na število živorojenih pujskov v gnezdu 26
2.2 Podatki o testiranju mladic na rast in zamaščenost 34
2.3 Poreklo za mladice 35
2.4 Podatki o preizkusu mladic na rast in zamaščenost z manjkajočimi podatki 35

4.1 Število krmnih dni na živorojenega pujska po letih 70


4.2 Nekaj izbranih enačb za opis zgornjih podatkov 72
4.3 Kvadrati za ostanke pri različnih prirejenih premicah (tabela, graf) 74

5.1 Izračun vsote kvadratov za ostanek pri modelu 5.18 107


5.2 Viri variabilnosti za dnevni prirast iz modela 5.18 107
5.3 Viri variabilnosti za dnevni prirast za model 109
5.4 Viri variabilnosti za dnevni prirast iz modela 5.18 110
5.5 Izračun vsote kvadratov za ostanek pri modelu 5.35 111
5.6 Viri variabilnosti za dnevni prirast iz modela 5.35 111
5.7 Viri variabilnosti za dnevni prirast iz modela 5.35 112
5.8 Viri variabilnosti za dnevni prirast iz modela 5.42 112
5.9 Viri variabilnosti za dnevni prirast iz modela 5.42 tip - I 113
5.10 Viri variabilnosti za dnevni prirast iz modela 5.46 tip - I 114
5.11 Zmanjšanje vsote kvadratov v modelu s tremi vplivi 114
5.12 Zmanjšanje vsote kvadratov v modelu z dvema vplivoma in interakcijo 114
5.13 Viri variabilnosti za dnevni prirast iz modela 5.42 tip - II 115
5.14 Viri variabilnosti za dnevni prirast iz modela 5.51 tip - II 116
5.15 Viri variabilnosti za dnevni prirast iz modela 5.42 tip - III 116
5.16 Viri variabilnosti za dnevni prirast iz modela 5.51 tip - III 117
5.17 Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 tip I 117
5.18 Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 za tip II, III in IV 117
5.19 Viri variabilnosti za debelino hrbtne slanine 118
5.20 Povprečja po pasmah in letih 119
5.21 V 126
8 Biometrija

8
Biometrija 9

Slike

1.1 Populacija hroščev 14


1.2 Podmnožice zelenih, črnih in rjavih hroščev 15
1.3 Populacija in vzorec 15
1.4 Distribucija mase toplih polovic pri prašičih 19
1.5 Distribucija mase toplih polovic pri prašičih po razredih 19
1.6 Bimodalna in polimodalna porazdelitev 22
1.7 Asimetrična porazdelitev 22
1.8 Normalna porazdellitev z veliko in malo razpršenostjo 23

2.1 Različne porazdelitve 26


2.2 Distribucija gnezd pri prašičih z ozirom na število živorojenih pujskov pri praši čih 27
2.3 Normalna porazdelitev 33
2.4 Bimodalna porazdelitev 34

3.1 Matrika 37

4.1 KD na živorojenega pujska in prileganje različnih premic 71


4.2 KD na živorojenega pujska in prileganje različnih premic 72
4.3 Vsota ostankov je minimalna 73
4.4 Spreminjanje vsote kvadratov v odvisnosti od regresijskega koeficienta 74
4.5 Funkcija zanesljivosti 92
4.6 Primejava pristranske in nepristranske metode 100

5.1 Napoved ostanka 106


10 Biometrija

10
Biometrija 11

Poglavje 1

OSNOVE BIOMETRIJE
1.1 Biometrija kot veda

Biometrija je veda, ki nas uči obdelavo podatkov v bioloških vedah, kamor tudi sodi živinoreja. Pri
obdelavi se poslužuje zakonitosti, ki jih razvijata matemati čna statistika in statistika. Pri biometriji bomo
zakonitosti spoznavali samo ob delu, dokazom bomo vsaj na tej stopnji v ve čini primerov verjeli. Priučili
se bomo le nekaj pravil, da bomo snov bolje razumeli. Sorodna veda je ekonometrija, ki jo gojijo
ekonomisti.
Pri študiju želimo spoznati zakonitosti biometrije ob delu, le redko se bomo posluževali izpeljav in do-
kazov. Želimo vas spoznati z orodji za urejanje in analizo podatkov. Mednje sodijo razli čne elektronske
preglednice in statistični paketi. Poseben poudarek pa bomo dali interpretaciji rezultatov in prikazova-
nju podatkov tako v preglednicah (tabelah) ali na slikah (grafih). Za dobro interpretacijo rezultatov je
sicer potrebno znanje, ki si ga boste pridobili kasneje pri strokovnih predmetih. Ker vas bomo v nada-
ljevanju študija zasuli s številnimi preglednicami in slikami, je pomembno, da se jih nau čimo brati in
tudi presojati prikazane rezultate. Tako se bomo nau čili nekaj trikov, ki bi vam koristili pri pridobivanju
znanja.
Pri biometriji se bomo srečali z novimi izrazi. Med podatki bomo v prvi vrsti našli lastnosti oz. opa-
zovanja, v statističnem jeziku jih imenujemo tudi odvisne spremenljivke. Lastnosti ali opazovanja so
značilnosti osebkov (živali, rastlin), lahko pa tudi predmetov (izdelki) ali snovi. Pri tem morda mislimo
na starost, maso, višino, površino, količino ali celo izgled. Pri snoveh (krma, zdravila...) bomo spremljali
učinke. V tem primeru nam bo učinek oziroma odziv predstavljal lastnost, ki jo želimo prou čiti.
Odvisne spremenljivke so odvisne od velikega števila vplivov - neodvisnih spremenljivk oz. pojasnjevalnih
spremenljivk. Ti vplivi so lahko zabeleženi (znani) ali pa smo jih pri spremljanju podatkov spregledani
(neznani). Lahko so veliki (pomembni, značilni) ali majhni (nepomembni, zanemarljivi, niso značilni).
Kasneje jih bomo delili še drugače, a za zdaj to zadostuje. Osnovna naloga biometrije je, da iz množice
podatkov izlušči zakonitosti pri proučevanem pojavu in pretehta njihov pomen.
Biometrija torej temelji na opazovanjih - na meritvah ali subjektivnih ocenah. Ponuja nam metode,
s katerimi pojave opišemo. Lahko proučimo velikost (nivo) vpliva, ugotovimo zanesljivost pridobljene
informacije ter preverimo odnose (povezave) med spremenljivkami. Praviloma želimo ugotovljene zako-
nitosti posplošiti "za vsakdanjo rabo". To pomeni, da zakonitosti, ki smo jih dobili na reprezentativnem
vzorcu, uporabimo (posplošimo) na celotno populacijo.

1.1.1 Raziskave in razvojno delo

Postopke, s katerimi pridemo do teh zakonitosti, proglašamo za raziskovalno in razvojno delo. Precej
naših študentov razmišlja, da so prišli na študij, da bi znali dobro oskrbovati živali. Vse te pravzaprav
beseda raziskovanje ali razvoj sprva prestraši. Pa vendar so prav raziskave in razvojna dela nujna za
napredek. So predpogoj za uspešnejšo prirejo.
Vzemimo primer pri obnovi ali gradnji hleva! Kako naj slepo zaupamo prodajalcem hlevske opreme,
da prodajajo samo kvalitetno opremo? Prodajalec, da bo povše či lastniku prodajalne in ne bo izgubil
službe, bo hvalil opremo, ki jo ponuja. Kako pa pridemo do resnice? Kupimo opremo, opremimo hlev,
počakamo nekaj mesecev - in vidimo rezultat! Če je poskus uspel, se je investicija izplačala. Če pa
imamo v novih pogojih slabe rezultate, pa smo si nakopali težave za kar nekaj let. Kateri rejec pa ima na
kupu denar in si lahko po neuspelem poskusu na hitro ponovno prenovi hlev? Bo tokrat obnova uspešna?
12 Biometrija

Po svetu imajo testne postaje za preizkus opreme. Tako je tudi v bljižnih državah, kot npr. Avstriji,
Nemčiji. Izdelovalci kvalitetne opreme z veseljem dajo opremo v preizkus, da se lahko pohvalijo s
prednostmi in prepoznajo napake.
Primere, ko so poizkusi in obdelava podatkov potrebni, bi lahko dolgo časa naštevali. Dobro jih boste
spoznali v nadaljevanju študija. Za naše primere bomo uporabili primere iz živinoreje, ki naj bi jih
poznali ali pa se je dokaj enostavno prikopati do osnovnih informacij. Vseeno vam predlagamo, da
spremljate strokovno literaturo. Prav vam bo prišlo pri biometriji, še bolj pomembno pa je, da si zgradite
nekakšno osnovno strokovno znanje. To je pomembno zlasti za tiste, ki ne prihajate iz kme čkega okolja.
Morda si privoščite celo aktivne počitnice na kmetiji.
Poiskuse bomo v živinoreji pogosto srečali. Primer je povsem iz prakse. Na ta načim presojamo novo
opremo, krmo, živali itd. Preverjamo že vpeljane in tradicionalne postopke, spremljamo prenos novih
tehnologij in genetskega materiala iz tujih okolij. Nekoliko bolj zvedavi se boste sre čali tudi z apli-
kativnimi in s temeljnimi znanstvenimi raziskavami. Naše znanje za znanstveno delo ne bo povsem
zadostovalo, ker bomo malo bolj praktični. V živinoreji pa primeri iz prakse niso vedno preprosti, a o
tem bomo spregovorili več kasneje.
Raziskovalna in razvojna dela so sestavljena iz naslednjih faz:

• študij literature ("ne odkrivajmo Amerike ponovno")

• načrtovanje preizkusa ("postavitev dobrih temeljev")

• izvedba preizkusa ("protipotresna gradnja")

• obdelava podatkov ("fina dela in oprema")

• presoja podatkov ("bodimo kritični do svojega dela in dela drugih").

Vrstni red opravil je sicer naveden v smiselnem zaporedju. Tako bi bilo zelo narobe, če bi načrt preizkusa
zastavili šele potem, ko je bil že opravljen. Ko se bomo pogovarjali o posameznih fazah, bomo ugotovili,
da je zelo veliko preizkusov pomanjkljivo načrtovanih. Praviloma pa preizkus ne poteka čisto po fazah.
Literaturo je potrebno ves čas spremljati, pa naj smo na začetku še tako izčrpno vse pregledali. Iskati
je potrebno še druge vire, npr. neobjavljene, podane na seminarjih ali delavnicah in osebna mnenja.
V zadnjem času je veliko informacij tudi na spletnih straneh posameznikov ali institucij. Pri tem viru
moramo paziti, ker se strani vsakodnevno spreminjajo. Poleg tega pa so nepre čiščene: na svojo spletno
stran lahko posameznik napiše tudi nepreverjeno ali celo zavajajo čo informacijo. Na spletu dobimo tudi
v revijah objavljene članke. Pri tem pazimo na pravilno navedbo, saj v prvi vrsti citiramo tiskani vir,
torej revijo. Spletni naslov lahko sicer dodamo. Pri uporabi takih informacij popolnoma odgovarjamo za
podano informacijo.

1.1.2 Iskanje informacij

Iskanje informacij v literaturi boste izčrpno obdelali pri predmetu informatika. Tam obravnavano snov
bomo pri našem predmetu s pridom uporabili, koristila pa vam bo pri študiju, izdelavi seminarskih nalog
in diplome. Vse učenje bi bilo popolnoma zastonj, če se ne boste teh virov posluževali tudi kasneje, ko
boste v službi.
Bogat vir informacij so tudi spletne strani. Z iskalniki pridemo do številnih informacij, ki pa so žal
praviloma nepreverjene. Pri uporabi moramo biti zato previdni in jih še dodatno presojati. Še posebej
moramo paziti pri informaciji, ki nam je sicer všeč, a je v nesoglasju z dosedaj pridobljenim znanjem.
Podatke lahko s pridom uporabimo tudi za podrobnejše iskanje ali pa jih preverimo na svojih podatkih.
Pri biometriji in računalništvu bomo dodali še en koristen vir informacij: podatke. Podatkov imamo v
živinoreji mnogo. Pridobimo jih pri redni kontroli prireje, na črtovanih preizkusih ali simulacijah.

12
Biometrija 13

1. Kontrola prireje

(a) kontrola mlečnosti pri govedu, drobnici ...


(b) preizkušnje na testnih postajah
(c) preizkusi v pogojih reje
(d) laboratorijski testi
(e) delovne sposobnosti in športni rezultati
(f) ocenjevanje zunanjosti ...

2. Načrtovanje in izvedba poizkusov

(a) izvedemo na vzorcu


(b) rezultate uporabimo na celotno populacijo

3. Simulacije

Neizčrpen vir informacij nastane pri rednem spremljanju in kontroli proizvodnosti živali ter pri selek-
cijskem delu. Tu pač ne moremo pričakovati uravnoteženih podatkov. Še več. Podatki niso naključni
vzorec iz populacije, pravzaprav so daleč od tega. Zlasti pri vzreji plemenskih živali, na živalih v te-
stnih postajah ali plemenskih živalih so meritve opravljene na na črtno odbranih živalih, ki naj bi bile
čimboljše od sovrstnikov. Živali v preizkusu so kandidati za starše pri naslednji generacije, plemenske
živali pa starši že so. Odbiramo živali, ki se bodo v danem okolju dobro (optimalno) po čutile in dale kar
najboljše rezultate. Tudi pri živalih, ki so že vklju čene v proizvodnjo, ves čas preverjamo, če dosegajo
"normo" - zadovoljive rezultate. Slabše živali sproti izlo čamo. Tako odbira kot izločevanje poskrbita, da
pri proučevanju proizvodnih lastnosti vzorec ni nikoli naklju čen.
Zbrani so lahko v skrbno načrtovanih preizkusih. Živali so izbrane in razdeljene v skupine naklju čno.
Obdelava teh podatkov, če so skupine uravnotežene, je enostavno. Na žalost pa je pri živalih težko dose či
uravnoteženost. Na razpolago ni dovolj živali, žival zboli ali celo pogine in dobro na črtovan poskus ter
enostavna analiza propadeta.
Pogosto se v živinoreji uporabijo tudi simulirani podatki. Z njimi prou čujemo, če o posameznem pojavu
dovolj vemo. Simulirane podatke si pripravimo z računalnikom večkrat in potem preverimo, če so ugoto-
vitve iz prakse - preizkusov ali prireje - skladne s simulacijami. Tudi mi bomo uporabljali za ponazoritev
simulirane podatke, da bi bolj nazorno prikazali nekatere primere. Pri tem vas bomo opozorili, ker bodo
lahko rezultati nenavadni!
Tretji vir informacij pa so osebni kontakti. Dragocene so lahko informacije kolegov pri študiju, ker
vam lahko pomagajo pri razjasnitvi pojmov, pri katerih se vam je nekoliko zataknilo. Če so stvari še
vedno nejasne, se opogumite in povprašajte pedagoge. S svojimi vprašanji praviloma ne motite pouka!
Celo nekaj nagajivosti, če le ostane na dostojni ravni, popestri in stimulira aktivno delo. Pomagate
nam, da uspemo in vašim manj pogumnim kolegom stvari razložiti. Tole zgodbico smo spletli okrog
študija biometrije. Med osebne kontakte pa ne štejemo samo razgovore pri pouku biometrije, ampak tudi
razgovore z drugimi pedagogi, s strokovnjaki, kmeti, delavci itd.

1.2 Populacija in vzorci

V biometriji proučujemo populacije, množice. Ker so populacije praviloma obsežne, raziskave opra-
vljamo na manjših vzorcih. Poglejmo si najprej definicije in primere.
Populacija (množica) je skupek elementov (osebkov, živali, ..., tudi predmetov) s skupnimi lastnostmi.
"Skupne lastnosti" so lahko v tem trenutku še zelo razli čne. Lahko so lastnosti, ki opisujejo npr. zunanje
znake, lahko proizvodne lastnosti. Populacija je lahko v razli čnih primerih različno določena.
Navedimo nekaj primerov:

13
14 Biometrija

Slika 1.1: Populacija hroščev

• vse krave lisaste pasme v Sloveniji,

• vse plemenske svinje na farmi A,

• vsi plemenski ovni na Primorskem,

• ves krompir na njivi,

• lisaste krave v čredah z več kot desetimi kravami,

• plemenske svinje linije 12,

• plemenske svinje pasme švedska landrace in large white...

Populacijo moramo opisati dovolj natančno. Pripadajo ji vsi elementi, ki izpolnjujejo kriterije za uvrsti-
tev.
Subpopulacije (podmnožice) so del celotne populacije, v katerem so si elementi nekoliko bolj podobni
kot v celotni populaciji. Nekatere od zgornjih populacij razdelimo na podmnožice:

• vse krave lisaste pasme po regijah (Pomurje, Podravje ...),

• svinje na farmi A po kategorijah (mladice, prvesnice, svinje po 2. zaporedni prasitvi),

• vsi plemenski ovni po kontroliranih tropih na Primorskem (vsak rejec ima svojo podmnožico ov-
nov),

• vsi plemenski ovni po vaseh na Primorskem (vsaka vas ima svojo podmnožico),

• krompir po gredah (njiva je razdeljena na grede, ki predstavljajo podmnožice).

Kot vidimo iz primerov, lahko isti skupek elementov predstavlja množico ali podmnožico. Zna čilno za
podmnožice je, da ji pripadajo vsi elementi, ki izpolnjujejo vse pogoje za populacijo - množico - in še

14
Biometrija 15

Slika 1.2: Podmnožice zelenih, črnih in rjavih hroščev

Povpre;ne

Slabe Dobre

Vyorec
Slika 1.3: Populacija in vzorec

dodatne pogoje podmnožice. Populacijo lahko na podmnožice razdelimo na ve č načinov, odvisno od


primera, ki nas zanima. Lahko imamo celo več dodatnih kriterijev.
Element je osnovna enota v množici. Tako so elementi posamezne živali, rastline, stroji, človek itd., na
katerih opravljamo meritve. Elementov v množici je obi čajno mnogo ali celo neskončno mnogo. Npr.,
če populacijo lisastih krav nismo časovno omejili, smo vanjo zajeli vse lisaste krave: žive če, izločene in
še ne rojene. Ko hočemo pri teh kravah izvedeti več o proizvodnih lastnostih, ne moremo ali samo ne
utegnemo izmeriti vseh. Tako jih v preizkus vključimo le nekaj - vzorec (slika 1.3).
Vzorec je nekaj elementov iz populacije ali subpopulacije. Vzorci so lahko:

• nekaj deset krav lisaste pasme v Sloveniji,


• nekaj sto plemenskih svinj na farmi,
• nekaj deset plemenskih ovnov na Primorskem...

Vzorec je lahko majhen ali velik. Velikost vzorca je odvisna od namena in želene zanesljivosti, s katero
želimo populacijo spoznati. Glede na način izbora elementov ločimo naključne in nenaključne vzorce.

15
16 Biometrija

a) Naključni vzorec: slepo izbiramo elemente in pri tem ne upoštevamo opazovanih lastnosti kot kriterij
pri izbiri. Izogibamo se tudi informacijam, ki bi lahko bile povezane z lastnostjo, ki jo želimo prou če-
vati. Naključni vzorec za proučitev lastnosti mlečnosti v Sloveniji bi dobili, če bi krave npr. izbirali z
žrebanjem.
b) Nenaključni oziroma selekcionirani vzorec: izberemo elemente vzorca po dolo čenem kriteriju, ki je
povezan z opazovanimi lastnostmi. Nenaključni oziroma selekcionirani vzorec so na primer krave pri
najboljših rejcih v Sloveniji, krave z največjo količino mleka v standardni laktaciji. Taki rezultati niso
pokazatelji proizvodnosti celotne populacije. Ker smo izbirali samo najboljše živali, bi bili rezultati
pristrani in sicer v našem primeru precenjeni.
Če želimo populacijo nepristransko oceniti, mora biti vzorec naklju čen (1.2). Nepristranska ocena po-
meni, da povprečna vrednost vzorca (x) predstavlja srednjo vrednost populacije (µ). Izračunane pov-
prečne vrednosti niso enake srednji vrednosti, a se vse nahajajo blizu srednje vrednosti: okrog nje so
razporejene naključno. Odstopanje pa je odvisno od kvalitete opravljenega poskusa, zanesljivosti opra-
vljenih meritev in števila meritev.

PRIMER: Določitev vzorca


Dobili smo nalogo, da proučimo mlečnost lisastih krav v Sloveniji v preteklem letu.
Ker bi radi proučevali mlečnost pri lisastih kravah, črnobelih ali rjavih krav ne bomo izbirali v vzorec.
Seveda se pri izboru ne smemo omejiti samo na tiste lisaste krave, ki imajo nad 10 000 l. Izlo čili bi
veliko večino krav, povprečje pa bi gotovo nad 10 000 l in bi bilo torej pristrano ocenjeno. Upoštevali
bomo samo podatke, ki se nanašajo na preteklo leto.
Določitev vzorca ni vedno enostavna (1.2). Naključni izbor mora veljati za proučevane lastnosti (odvisne
spremenljivke) in je razširjen na tiste lastnosti, ki so mo čno povezane z njimi. Primernost vzorca je
povezan s ciljem naloge, ki smo se jo zadali (ali pa smo jo dobili od predpostavljenega).

PRIMER : Primeren in neprimeren vzorec


Na farmi prasičev s 4000 svinjami v čredi so si zadali dve nalogi. Najprej so želeli ugotoviti pogostnost
bolezni, ki povzroča plodnostne motnje. V nadaljevanju pa so želeli ugotoviti, kakšne so posledice
bolezni na plodnost. Naključno so izbrali 1 000 svinj in pri štirih ugotovili okužbo. Za presojo plodnosti
so imeli na razpolago velikost gnezda.

• Podatki so bili za prvo postavljeno vprašanje primerni. Ocena 0.4 % je zadovoljiva. Izbor živali
je bil naključen, pri ponovnem poskusu bi se vanj lahko uvrstile druge živali. Tako bi bilo pri
nekoliko drugačnem, tudi naključnem izboru živali bi lahko dobili 5 ali pa morda nobene okužene
živali, prav malo pa je verjetno, da bi bilo iz črede pri obstoječem zdravstvenem stanju 996 živali
okuženih in samo 4 popolnoma zdrave.

• Za drugi del poskusa vzorec ni bil primeren. O naklju čnem izboru sicer ni dvoma. Velikost
vzorca je bila zadostna, saj je predstavljala kar četrtino živali na farmi. A naloga je bila proučiti
razliko med zdravimi in okuženimi živalmi. Plodnost pri zdravih živalih je dobro, torej zanesljivo
ocenjena. Povprečje pri bolnih živalih pa je preveč nezanesljivo. Lahko je odvisno od genotipa
obolelih živali, lahko od drugih vplivov v okolju. V prvi skupini je bilo mogo če moteče vplive pri
obdelavi podatkov z modelom odstraniti, v drugi skupini pa še za eno "oceno" ni zadosti podatkov.
Razlika pa je ocenjena tako (ne)natančno, kot je (ne)natančen najslabše ocenjeni člen. Nič nam
torej ne pomaga, da smo plodnost pri zdravih živalih dobro ocenili. Ko rezultate primerjamo z
nezanesljivimi rezultati pri bolnih živalih, so sklepi nezanesljivi.

Po drugi strani pa izbora vplivov ne prepustimo naklju čju. Poskusne skupine bomo poskušali čimbolj
izenačiti po številu, živali pa, če se le da, naključno porazdeliti v skupine. Seveda pa krave črnobele
pasme ne smemo podtakniti skupini lisastih krav, ko bomo delali primerjavo med pasmama.

16
Biometrija 17

Povsem drugače pa bomo zastavili poskus, ko bomo primerjali dva obroka krme. Če bodo na razpolago
živali dveh pasem, bomo vsako pasmo razdelili na dve podskupini. Eno skupino krmili z eno in drugo z
drugo krmo. Pri vsaki krmi bomo torej imeli živali obeh pasem. Če je le mogoče, bomo poskrbeli, da so
velikosti skupine izenačene.

Vaje:

1. Ali so študenti drugega letnika visokošolskega strokovnega (univerzitetnega) študija populacija,


subpopulacija, naključni ali nenaključni vzorec? Obrazložite!

2. Ali so študenti Univerze v Ljubljani populacija, subpopulacija, naklju čni ali nenaključni vzorec?
Obrazložite!

3. Ali lahko krave črnobele pasme obravnavamo kot populacijo? Obrazložite!

4. Kdaj lahko krave lisaste, rjave in črnobele pasme v Sloveniji obravnavamo kot populacijo? Obra-
zložite!

5. Kokoši Prelux-G so namenjene manjšim jatam v kmečki reji. Pri odbiri plemenskih kokoši in
petelinov upoštevajo nesnost in maso jajc. Ali je mati čna jata naključni ali nenaključni vzorec?

6. Na farmi prašičev bodo preizkusili novo krmo. Na voljo imajo 16 kotcev z desetimi stojiš či. Kako
naj izberejo živali? Ali naj pred preizkusom preverijo sorodstvo med živalmi? Ali naj izlo čijo
bolne živali, če bi bile slučajno določene za poskus? Ali naj bodo živali iste ali različne (naključne)
starosti? Obrazložite!

7. Kako bi izbrali primeren vzorec, če bi želeli preizkusiti krmo za doječe svinje?

8. Na farmi pašičev so se odločili za preizkus dveh sistemov kotcev: kotcev s slamo (skupina A) in
brez nje (skupina B). Med 80 kotci z desetimi prašiči so pri masi 30 kg naključno izbrali 12 kotcev
in živali pomešali. V nove kotce so jih naseljevali tako, da so najprej napolnili kotce s slamo in
nato še kotce brez slame in sicer v istem vrstnem redu kot so praši či prihajali. Ali sta vzorca
prašičev v skupinah naključna? Ali bi se dalo načrt poskusa izboljšati? Utemeljite!

9. Kako lahko preverimo, ali smo vzorce v poskusu res nakju čno izbrali?

1.3 Spremenljivke

Spremenljivke si bomo ogledali s praktičnega vidika. Pomenile nam bodo značilnosti enot, ki jih opa-
zujemo. V živinoreji nam enote največkrat predstavljajo živali, opazujemo pa lahko tudi rastline ali pa
animalne surovine in izdelke. Značilnosti pa bomo razdelili v dve večji skupini. Predmet našega pro-
učevanja bodo lastnosti, opazovanja ali odvisne spremenljivke. Nanje pa vplivajo druge zna čilnosti, ki
jih imenujemo vplivi, pojasnjevalne ali neodvisne spremenljivke. Tu smo razdelili spremenljivke glede
na vlogo, ki jo imajo v našem poskusu. Lastnosti opazujemo in jih želimo pojasniti z vplivi. Lastnost je
posledica, vplivi so vzrok.
Spremenljivke razdelimo tudi glede na način, kako jih pridobimo, grobo v dve skupini:
a) objektivne spremenljivke merimo z merilnimi napravami (tehtnica, meter, pH-meter, ura....) ali šte-
jemo.
b) subjektivne spremenljivke točkujemo ali opisujemo. V praksi dostikrat uporabimo tudi besedo "ocene"
oziroma ocenjevanje. Ker pa sta to v statistiki oziroma biometriji rezervirana pojma in bi tako lahko
prihajalo do zamenjav, se ju bomo v tem pomenu izogibali.
Spremenljivke so lahko kvantitativne ali kvalitativne. Kvantitativne spremenljivke lahko izmerimo z
objektivnimi ali subjektivnimi meritvami. Lahko razvrstimo, jim dolo čimo minimalno in maksimalno

17
18 Biometrija

vrednost, izračunamo povprečje in standardni odklon. Imajo različne porazdelitve. Tako so lahko po-
razdeljene zvezno ali diskretno. Tako vemo, da lahko svinja prasi med 0 in 25 živorojenih pujskov po
gnezdu. V enem gnezdu pa ne more imeti 9.25 pujskov. Število živorojenih pujskov je diskretna spre-
menljivka. Prav tako lahko razvrstimo krave z ozirom na koli čino namolženega mleka. Porazdelitev pri
količini namolženega mleka je zvezna, zato je količina mleka je zvezna spremenljivka.
Kvalitativnih spremenljivk ne moremo razvrstiti, pa čeprav jih ločimo. Običajno so opisne, zato so
izpeljane statistike (npr. minimalne, maksimalne in povpre čne vrednosti, standardni odklon) neuporabne.
Med kvalitativne spremenljivke sodijo npr. letni časi, ki jih pogosto uporabljamo kot primer. So štirje in
se ciklično pojavljajo. Vemo sicer, da je pozimi bolj mrzlo kot poleti, da je namesto dežja prej pri čakovati
sneg itd. Nimamo pa meril, kako izmeriti letni čas: ali naj bi pri razmejitvi uporabljen čas, temperatura,
oblika padavin... Tako imamo tudi več definicij za letne čase (npr. koledarska zima, meteorološka zima).
Povprečja letnih časov ne moremo izračunati (enačba 1.1).

pomlad + polet je + jesen + zima


x̄ = =? [1.1]
4

Če smo uporabili besede, nas niti ne bo zavedlo. Tega ne smemo storiti niti takrat, ko smo jih ozna čili
s številkami, šiframi. Vzemimo, da smo jih označili po istem vrstnem redu od 1 do 4 (1.2). Dobili bi
povprečni letni čas, ki bi znašal 2.5. In kaj naj bi to pomenilo?

1+2+3+4
x̄ = , 2.5 [1.2]
4

Zaradi enostavnosti pogosto pri kvalitativnih spremenljivkah uporabljamo šifrante, ker bi z opisovanjem
spremenljivk pridobili preveč vrednosti. Tako pri opisu bolezni lahko napišemo plju čnica, pljuč., pnev-
monija, lahko pa bi bolezen tudi podrobneje določili - za katero pljučnico gre. Spremenljivki bi morali
podeliti isto vrednost. Ker pa smo vrednosti poimenovali na ve č načinov, so vrednosti navidezno raz-
lične. To bi nam pri obdelavi delalo probleme. Pri šifrantih vnaprej vemo, kaj sodi skupaj. Ker so lahko
šifre tudi zaporedne številke, nas to ne sme zavesti: lastnost je še vedno opisna, torej tudi kvalitativna.
Sedaj poiščimo še nekaj kvalitativnih spremenljivk. Vzemimo npr. razporeditev barve pri lisastem go-
vedu. Kako bi razvrstili lisaste krave glede na razporeditev barve? Najbrž vsak med nami po svoje. Ali
lahko razporeditev barve izmerimo? Ne. Morda bi se odlo čili za površino, toda to je potem že povsem
druga spremenljivka. Tudi intenzivnost barve, kjer uporabljamo priro čne lestvice, je že druga lastnost.
Ali lahko za porazdelitev barve izračunamo minimalno, maksimalno vrednost ali povprečje? Odgovor
je tudi nikalen. Rejci imajo opisno določene nekatere značilnosti glede razporeditve, vendar so podane
zelo opisno. Vse torej kaže na to, da je razporeditev barve kvalitativna spremenljivka.
Kvalitativne spremenljivke so lahko tudi ocene zunanjosti, še posebej, če so lastnosti podane opisno.
Iste spremenljivke lahko tudi ovrednotimo s točkami na določeni skali: stoja, oblika vimena, korektnost
hoda... V tem primeru so skale določene in lastnosti postanejo kvantitativne. Veliko ocen zunanjosti pri
konjih je kvalitativne narave, pri govedu pa so uredili t.i. linearne skale, kjer lastnosti dobijo kvantitativen
značaj.
Nekatere kvantitativne spremenljivke so zvezne, porazdeljene na strnjeni, nepretrgani, kontinuirani skali,
druge pa so diskretne predstavljeni s prekinjeno, nekontinuirano skalo. Koli čina mleka je praviloma zve-
zna spremenljivka: namolzemo lahko 8 kg mleka, 8.4 kg mleka, pa tudi 8.427843 kg. Slednja koli čina je
sicer neobičajno natančno izmerjena - takšna natančnost je povsem nepomembna in nekoristna. Pretirane
natančnosti se celo izogibamo. Po drugi strani pa je morda merjenje dnevne koli čine mleka zaokroženo
na cele kilograme (ali morda na tone!) le malo preveč površno. Pri grobem zaokroževanju bi dnevna
količina mleka postala diskretna spremenljivka. Včasih zaradi enostavnosti in preglednosti razdelimo
zvezne spremenljivke v razrede in tako umetno ustvarimo diskretno spremenljivko. S tem zmanjšamo
natančnost, zato pa moramo imeti resnično tehten razlog, da si dovolimo kaj takega.

18
Biometrija 19

6000

5000
{tevilo yaklanih pra[i;ev

4000

3000 10.67 % 25.54 %


2.34 % 29.75 %
20.63 % 8.65 % 2.32 %
2000

1000

0
50 60 70 80 90 100 110 120
Masa toplih polovic (kg)

Slika 1.4: Distribucija mase toplih polovic pri praši čih

30

25

20
Distribucija (%)

15

10

0
55 65 75 85 95 105 115
Masa toplih klavnih polovic (kg)

Slika 1.5: Distribucija mase toplih polovic pri praši čih po razredih

Zvezna spremenljivka je tudi masa toplih klavnih polovic pri praši čih (slika 1.4). V povprečju so trupi
pitanih prašičev težki 82 kg, masa pa variira med 50 in 120 kg. Trupi z maso pod 50 kg pripadajo lahkim
pitanim prašičem, trupi nad 120 kg pa težkim pitanim prašičem. Masa trupov na liniji klanja lahko zasede
vse vrednosti med ekstremoma, zaradi praktičnosti jo zaokrožujemo na kilogram natančno. Čeprav smo
sedaj zvezno porazdelitev spremenili v diskretno, si v statistiki s takimi primeri ne belimo glave. V
nasprotju z matematiki v biometriji dopuščamo nekaj površnosti, nekaj "napak". Toda ne razveselite se
tega prehitro!

Ko pa maso trupov zaokrožimo še bolj na grobo, npr. na 5 kg (slika 1.5), naredimo tudi za statistike
distribucijo nezvezno. Posamezne vrednosti so diskretne, praviloma se za prikazovanje poslužujemo
histogramov (grafov s stolpiči). Tega zaokroževanja ne podpirajo niti rejci niti klavni čarji, torej se je ne
smemo razveseliti niti v znanosti. Seveda imajo lahko lastnosti diskretne vrednosti tudi po naravi, brez
zaokroževanja. Takšna lastnost je število potomcev (v gnezdu) in te ne glede na velikost organizmov.

19
20 Biometrija

Vrednost je diskretna tudi pri vinskih mušicah ali celo mikrobih. Je pa res, da je v časih štetje čisto
neuporaben način, mar ne?
Naštejmo nekatere spremenljivke, ki jih živinorejci pogosto opazujemo:

• količina namolženega mleka, odstotek tolšče, količina beljakovin, višina vihra, doba med teli-
tvama, barva dlake, oblika vimena, težavnost telitve, pokritost (trupa)...
• dnevni prirast, debelina hrbtne slanine, masa šunke, površina hrbtne mišice, velikost gnezda, po-
odstavitveni premor, število seskov, stoja, omišičenost...
• sočnost mesa, aroma, pH vrednost, barva mesa, rezna trdnost...
• masa jajca, trdnost lupine, barva lupine, višina gostega beljaka...
• pogostnost pitja, pogostnost agresije, trajanje žretja, čas ležanja v posameznih legah...

Ali lahko opišete spremenljivke? Morda lahko poveste tudi, kako so porazdeljene? Če še ne gre v celoti,
se na spisek vrnite, ko boste pregledali naslednje poglavje?

Vaje:

1. Izmislite si kar največ lastnosti, ki jih opazujemo v živinoreji in pri vseh primerih poskusite za
lastnosti odgovoriti na naslednja vprašanja!
* Ali so objektivno merjene ali subjektivno ocenjene?
* Ali je lastnost kvantitativna ali kvalitativna?
* Ali ima lastnost zvezno ali diskretno porazdelitev?

Na lastnosti, ki jih ne znate razporediti, opozorite predavatelje in jih rešite skupaj!


2. Ali lahko naštejete nekaj lastnosti, ki bi jih veljalo izmeriti in oceniti pri študentih drugega letnika
univerzitetnega (visokošolskega strokovnega) študija?
3. Ali lahko naštejete nekaj lastnosti, ki bi jih veljalo izmeriti in oceniti pri študentih Univerze v
Ljubljani?
4. Ali lahko naštejete nekaj lastnosti, ki bi jih veljalo izmeriti in oceniti pri kravah črnobele pasme?
5. Ali lahko nekaj lastnosti, ki bi jih lahko merili pri kokoših Prelux-G?
6. Katere lastnosti bi merili pri preizkusu nove krmne mešanice pri pitanju praši čev? Ali bi bile
lastnosti iste, če bi želeli preveriti krmo za doječe svinje?
7. Katere lastnosti bi spremljali pri preizkusu dveh sistemov kotcev za pitanje praši čev in katere bi
spremljali pri preizkusu z doječimi svinjami?

1.4 Statistike

V živinoreji spremljamo neko lastnost - spremenljivko x i in jo izmerimo. Tako dobimo niz podatkov, ki
ga imenujemo tudi vzorec Z (1.3). Če smo živali naključno izbirali, je vzorec naključni.

Z = (x1 , x2 , ... xn ) [1.3]

Opravili smo n meritev dnevne količine mleka pri 1000 kravah. Ko želimo podatke predstaviti, je povsem
neprimerno, da bi navajali vse meritve, tudi takrat, ko je vzorec manjši. Podatke moramo primerno
predelati, da iz njih potegnemo najpomembnejše informacije. Izra čunane vrednosti imenujemo statistike.
Če želimo pri tem poudariti, da se nanašajo na vzorec, jih poimenujemo vzorčne statistike. Na tem mestu
bomo obravnavali dve stupini statistik: srednje vrednosti in mere razpršenosti.

20
Biometrija 21

1.4.1 Srednje vrednosti

Vrednosti spremenljivk se med enotami razlikujejo. Nekatere vrednosti so pogostejše, druge pa manj
verjetne, vse pa so bolj ali manj podobne "osrednji vrednosti".
Za srednjo vrednost imamo več statistik. V živinoreji so pogoste aritmetična sredina, mediana in modus.
Srečamo lahko tudi geometrično sredino, le redko pa harmonično sredino. Srednje vrednosti sodijo med
najpomembnejše statistike in praviloma veliko povedo o vzorcu. Če je vzorec slučajen, lahko zaključke
posplošimo tudi na populacijo. Pri srednjih vrednostih, zlasti pri povpre čju, obstaja velika nevarnost, da
jih uporabimo tudi takrat, ko jih ne bi smeli. So tudi priro čne za izračun.

1.4.1.1 Aritmetična sredina


Aritmetična sredina je poznana tudi kot povprečje. Povprečje (enačba 1.4) dobimo tako, da seštejemo
vrednosti spremenljivk xi in jih delimo s številom vrednosti (n). Vsota odklonov od povre čja je vedno
enaka 0.

n
1 X
X= ∗ xi [1.4]
n
i=1

Povprečje bomo omenjali pri več porazdelitvah, prav poseben pomen pa ima pri normalni ali Gaussovi
porazdelitvi, kjer predstavlja njen lokacijski parameter. Aritmeti čno sredino pri populacijah bomo ozna-
čevali z µ, pri vzorcu pa z x.
Povprečje ni vedno primerno. Kadar so populacije neenovite, heterogene oziroma asimetri čne, preverimo
smiselnost uporabe mediane oziroma modusa.
Če poznamo frekvenco podatkov ( fi , porazdelitve), moramo razmišljati o tehtanem povpre čju (enačba
1.5).

r
X
X= fi xi [1.5]
i=1

Pri izračunavanju povprečij iz verižnih indeksov, koeficientov rasti in stopenj rasti raje uporabimo geo-
metrijsko sredino (enačba 1.6).

v
u n
u Y
X=t
n
xi [1.6]
i=1

S srednjimi vrednostmi dobro opišemo populacijo, izgubimo pa informacije, ki so zna čilne za manjše
skupine v vzorcu ali celo za posamezne meritve. Tako se ne smemo prehitro zadovoljiti z njimi, nadalje
moramo iskati povezavo med meritvami, spreminjanje meritev s časom, proučevati različnost med njimi.

1.4.1.2 Mediana
Mediana ali centralna vrednost je tista vrednost spremenljivke, ki razdeli meritve tako, da je enako število
meritev večjih in manjših od nje. Določanje mediane je enostavno, če so podatki razvrščeni oziroma
rangirani po vrednosti. Če je število enot liho, dobi mediana vrednost srednje enote. V primeru sodega
števila opazovanj pa je mediana povprečje srednjega para meritev. Mediana je neobčutljiva na posamezne
vrednosti spremenljivk, dokler spremenjena vrednost ostane na isti strani mediane. Mediana pove o
podatkih manj kot povprečje, je pa lahko primerna, če porazdelitev ni simetrična.

21
22 Biometrija

Slika 1.6: Bimodalna in polimodalna


Poraydelitve y ve;porazdelitev
vrhovi (maksimumi)

Modus

Debelina hrbtne slanine

m
Slika 1.7: Asimetrična porazdelitev

PRIMER : Bolezen pri 7 obolelih živalih traja 6, 6, 7, 7, 8, 29 in 35 dni. Povpre čje znaša 14 dni,
vendar pa je to predvsem zaradi 2 živali, ki se dolgo nista pozdravili. Mediana je 7 dni in nekako bolje
opiše porazdelitev kot povprečje.

1.4.1.3 Modus
Modus je srednja vrednost, ki je enaka najpogostejši vrednosti. Ugotovimo ga lahko pri sorazmeroma
velikem vzorcu, medtem ko so lahko pri manjših vzorcih vse vrednosti redke. Porazdelitve imajo lahko
več modusov (vrhov) in lahko govorimo o unimodalnih, bimodalnih in polimodalnih porazdelitvah (1.6).
V živinoreji je kar nekaj primerov porazdelitev z več modusi. Za primer lahko vzamemo pojav estrusa pri
odstavljenih svinjah ali kravah po telitvi. Pojavljajo se tudi pri spremljanju dnevnega ritma posameznih
živali, zlasti tistih aktivnosti, ki so vezane na prehranjevanje.
Modus predstavlja srednjo vrednost bolje kot povpre čje na selekcioniranih vzorcih. Primeren je za hete-
rogene ali asimetrične porazdelitve (1.7). Kot primer prikazujemo debelino hrbtne slanine pri praši čih.
Zaradi selekcije na mesnatost in urejenih tehnologij je slanina s kožo tanka. Ker pa je navzdol omejena
(koža ima debelino 3 mm), je strmo nagnjena

1.4.2 Mere razpršenosti

1.4.2.1 Varianca
Kako natančno smo (lahko) izvedli poskus, opisuje mera za razpršenost - varianca vzorca (ena čba 1.7).
Tudi to ni parameter - varianca populacije, je samo ocena, morda še to slaba.
n
P
(xi − x)2
i=1
σ2 = [1.7]
n−1

22

1
Biometrija 23

Normalni poraydelitvi

Slika 1.8: Normalna porazdellitev z veliko in malo razpršenostjo

Definicija: Varianca je povprečni kvadratni odklon od pričakovane vrednosti.

Pazite! Če je pričakovana vrednost za celotno populacijo enaka, je zgornji izra čun dober. Kasneje
pa se bomo srečali s primerom, ko je pričakovana vrednost posameznih podskupin različna.
Takrat bomo odstopanja drugače izvrednotili, pa tudi imenovalec bomo spremenili.

1.4.2.2 Standardni odklon


Standardni odklon oziroma standardna deviacija je pozitivna vrednost kvadratnega korena iz variance.

σ= σ2 [1.8]

Standardni odklon si lažje predstavljamo kot varianco. V grafu 1.8 imamo dve normalni porazdelitvi.
Pri levi porazdelitvi sta varianca in standardni odklon ve čja kot na desni.

1.4.2.3 Standardna napaka ocene


Povprečje je ocenjeno zanesljivo - z majhno standardno napako ocene (ena čba 1.9), če smo poskus
izvedli v nadzorovanih pogojih, opravili meritve natan čno in v zadostnem številu.
σ
σ x̄ = √ [1.9]
n

Izpeljimo zgornjo enačbo! Najprej moramo ugotoviti varianco za povprečje (enačba 1.10). Pa posku-
simo. Namesto povprečja vstavimo enačbo za izračun povprečja. Konstanto 1n lahko izpostavimo, vendar
jo moramo pri tem kvadrirati.
x + x + ··· + x + ···+ x 
1 2 i n
σ2x = var (x) = var = [1.10]
n
Ostane nam varianca vsote (enačba 1.11). Ker so meritve xi neodvisne, so vse kovariance enake 0 in tako
odpadejo.

1
= var (x1 + x2 + · · · + xi + · · · + xn ) = [1.11]
n2
Tako nam ostanejo le členi z variancami, ki jih lahko zapišemo tudi kot vsoto (ena čba 1.12). Meritve
smo opravili z enako natančnostjo, zato je varianca pri vseh meritvah enaka. Ozna čimo jo z σ2 . Meritev
je bilo n, zato lahko izpeljemo enačbo do konca.
n n
1 X 1 X 2 n 1
= 2 (x )
var i = 2 σ = 2 σ2 = σ2 [1.12]
n n n n
i=1 i=1

23

1
24 Biometrija

Da dobimo enačbo 1.9, moramo končni rezultat še koreniti.


Standardno napako ocene bomo izvrednotili tudi pri drugih ocenah sistematskih vplivov, vendar pa nam
bodo v tem primeru v pomoč elementi v matriki koeficientov oziroma njeni inverzi. O standarni napaki
bomo še pogosto govorili, zato se je velja zapomniti.

1.4.2.4 Koeficient variabilnosti


Koeficient variabilnosti je tudi mera za variabilnost, kjer primerjamo standardni odklon s povpre čno
vrednostjo (enačba 1.13). Vrednosti navajamo v odstotkih. V starejši literaturi je ta statistika pogosto
uporabljena, sedaj pa se je izogibamo predvsem v tabelah in grafih. Še vedno pa je lahko dobrodošla
statistika pri interpretaciji rezultatov.

σ
KV = ∗ 100 [1.13]
x

Lahko pa dobimo tudi "čudne vrednosti", ko je koeficient povsem neuporaben. To se zgodi, ko je pov-
prečje blizu 0 ali pa izredno veliko v primerjavi s standardnim odklonom.

1.4.2.5 Kvantili

24
Biometrija 25

Poglavje 2

PORAZDELITVE NAKLJUČNIH SPREMENLJIVK


Porazdelitve nam predstavljajo pogostnost posameznih vrednosti. Predstavimo jih lahko s številom posa-
meznih vrednosti (dogodkov) ali z deleži (pogostnostjo). Porazdelitve lahko prikazujemo v preglednicah
ali grafih. Pri opisu opazujemo:

1. Število ekstremov: unimodalna (z enim vrhom), bimodalna (z dvema vrhovoma), ve č modalna...

2. Zalogo vrednosti: najmanjša in največja vrednost, zveznost ali diskretnost

3. Sploščenost: sploščena, koničasta

4. Asimetričnost: simetrična, levo asimetrična, desno asimetrična

5. Oblika: je to ena od znanih porazdelitev?

Porazdelitve z več vrhovi: doba od pripusta do pregonitve, interim obdobje (doba od odstavitve do prvega
pripusta pri prašičih), servis perioda (doba od poroda do uspešnega pripusta).

2.1 Opis porazdelitve

a) s sliko
Predstavitev porazdelitve s sliko je zelo nazorna. Tega se pogosto poslužimo, ko predstavljamo rezultate
ali ko porazdelitve neke lastnosti ne poznamo. Pri diskretnih spremenljivkah preštejemo dogodke pri po-
sameznih vrednostih. Pri porazdelitvi velikosti gnezda pri praši čih enostavno preštejemo števil prasitev
z 0, 1, 2, 3, ..., 20 in več živorojenimi pujski v gnezdu in narišemo graf. Pri zveznih spremenljivkah ne
moremo ubrati iste poti. Vrednosti, ki jih meritev lahko zasede je neskn čno mnogo, natančno ena vre-
dnost se zgodi zelo redko. Kljub temu pa so na določenem intervalu vrednosti bolj pogoste, zgoščene.
Grafično zadevo naredimo tako, da spremenljivko razdelimo v "primerne" razrede in potem narišemo.
b) s parametri porazdelitve
Parametre posameznih porazdelitev in njihove značilnosti bomo obravnavali pri posameznih porazdeli-
tvah. Pri navajanju parametrov smemo izbrati le tiste, ki dobro opisujejo porazdelitev.

2.2 Porazdelitev diskretnih naključnih spremenljivk

Diskretna naključna spremenljivka je tista, ki ima končno zalogo vrednosti ali neskončno zalogo vredno-
sti iz množice celih števil. Primer s končno zalogo vrednosti predstavlja število potomcev pri sesalcih, z
neskončno zalogo vrednosti pa število odloženih jajčec pri čebelah.
Dogodek iz zaloge vrednosti ima pripadajočo verjetnost. Vzemimo primer za velikost gnezda pri praši čih
(2.2). V gnezdu pri modernih, mesnatih pasmah je lahko od 0 do 22 živorojenih pujskov. Tako je
verjetnost, da so v gnezdu samo mrtvorojeni pujski (2.1), enaka 0.0126 ali 1.26 %. Najpogostejša so
gnezda z 11 (2.2) in 12 (2.3) živorojenimi pujski. Gnezda z 19 živorojenimi pujski so izredno redka
(2.4).

P(X = 0) = 0.0126 [2.1]


26 Biometrija

Yve yne
p or ayd el it ve

Dnevni prirast Debelina hrbtne slanine

Ne yve yne
p or ayd el it ve

Slika 2.1: Različne


{tevilo porazdelitve
rojenih jagnjet {tevilo /ivorojenih pujskov

Tabela 2.1: Porazdelitev gnezd pri prašičih z ozirom na število živorojenih pujskov v gnezdu
Št. živ. puj./gn. Delež (%) Št. živ. puj./gn. Delež (%) Št. živ. puj./gn. Delež (%)
0 1.264 8 9.4310 16 1.0140
1 0.3610 9 12.195 17 0.3570
2 0.7400 10 14.146 18 0.1190
3 1.3790 11 14.098 19 0.0340
4 2.2730 12 11.847 20 0.0110
5 3.3870 13 8.2300 21 0.0010
6 4.8440 14 4.9720 22 0.0010
7 6.8470 15 2.4490 23 0.0000

26
Biometrija 27

15 14.10

12.20
Dele¾ gnezd z n-pujski (%)

10
8.23

6.85

5
3.39
2.45
1.38
1.26
0.36 0.36 < 0.01
0
0 5 10 15 20
©tevilo ¾ivorojenih pujskov
Slika 2.2: Distribucija gnezd pri prašičih z ozirom na število živorojenih pujskov pri praši čih

P(X = 11) = 0.1415 [2.2]

P(X = 12) = 0.1410 [2.3]

P(X = 19) = 0.00034 [2.4]

Oznaka P (X = xi ) ali samo P (xi ) predstavlja verjetnost, da naključna spremenljivka X zavzame natanko
vrednost xi . Vsekakor pa lahko izraz posplošimo. Tako oznaka P (X < xi ) predstavlja verjetnost, da
naključna spremenljivka X zavzame katerokoli vrednost manjšo od x i . Za ponazoritev ponovno vzemimo
primer za velikost gnezda pri prašičih. Izračunajmo verjetnost, da so v gnezdu manj kot trije živorojeni
pujski (2.5). Zanima nas torej verjetnost, da je v gnezdu ni č, eden ali dva živorojena pujska. Ker se
dve možnosti ne moreta zgoditi hkrati, je verjetnost P (X < 3) enaka kar vsoti verjetnosti za tri možne
dogodke.

P(X < 3) = P(X = 0) + P(X = 1) + P(X = 2) = 0.01264 + 0.00361 + 0.00740 = 0.02365 [2.5]

Sedaj pa izračunajmo verjetnost še za nekaj primerov. Pri tem imamo ve č možnosti, prikazali pa bomo
le po eno za vsak primer.

P(X < 5) = P(X < 3) + P(X = 3) + P(X = 4) = 0.02365 + 0.01379 + 0.02273 + 0.03387 = 0.09404[2.6]

P(X ≤ 10) = P(X < 5)+ P(X = 6)+...+ P(X = 10) = 0.09404+0.04844+...+0.14146 = 0.56867[2.7]

P(X ≥ 10) = P(X = 10) + P(X = 11) + ... = 0.14146 + 0.14098 + ... + 0.001 = 0.57279 [2.8]

V vseh predhodnih primerih se dogodki ne prekrivajo. V gnezdu je lahko samo 0, 1, 2 3, ... živorojenih
pujskov. Nikakor ne more biti v istem gnezdu hkrati npr. 5 ali 8 živorojenih pujskov. Dogodki so
neodvisni. Verjetnosti neodvisnih dogodkov lahko kar seštejemo.

P(X < 5 ∨ X ≥ 10) = P(X < 5) + P(X ≥ 10) = 0.09404 + 0.57279 = 0.66683 [2.9]

27

1
28 Biometrija

Prav tako sta neodvisna dogodka v zadnjem primeru (2.9). Iš čemo verjetnost, da je v gnezdu manj kot 5
živorojenih pujskov ali 10 oziroma več živorojenih pujskov. Če jih je manj kot 5, jih ne more biti hkrati
(v istem gnezdu) več ali enako 10. Dogodka sta torej tudi neodvisna.
Sedaj pa poglejmo še naslednji primer (enačba 2.10): poiskati želimo verjetnost, da je v gnezdu manj kot
5 (prvi dogodek) ali 10 oziroma manj pujskov (drugi dogodek). Če je v gnezdu 5, 6, 7, 8, 9 ali 10 pujskov
se je gotovo zgodil drugi dogodek. Ko pa imamo v gnezdu 0, 1, 2, 3 ali 4 pujske, pa sta se zgodila tako
prvi kot drugi dogodek hkrati. Prvi dogodek je torej podmnožica drugega dogodka, zato je verjetnost, da
se zgodita oba dogodka enaka verjetnosti, da se je zgodil drugi dogodek. Prvi in drugi dogodek nista ve č
neodvisna, saj kadarkoli se zgodi prvi dogodek, se zgodi hkrati tudi drugi.

P(X < 5 ∨ X ≤ 10) = P(X ≤ 10) = 0.56867 [2.10]

V enačbi 2.11 želimo ugotoviti, kolikšna je verjetnost, da je v gnezdu manj kot 5 živorojenih pujskov ali
pa je v gnezdo od vključno 3 do vključno 11 pujskov.

P(X < 5 ∨ (3 ≤ X ≤ 11)) [2.11]

Problem v enačbi 2.11 je, da se pri prvem (X < 5) in drugem (3 ≤ X ≤ 11) dogodku prekrivajo možnosti,
da bi imela svinja v gnezdu 3 ali 4 pujske. To lahko rešimo vsaj na dva na čina. Če bi verjetnosti, da
se zgodi prvi ali drugi dogodek samo sešteli, bi bila vsota prevelika. Dogodka, da so v gnezdu 3 ali 4
pujski, bi upoštevali dvakrat. Tako moramo verjetnost, da se ta dva dogodka zgodita, še odšteti. Ena čba
2.12 nazorno pokaže, da dogodka iz enačbe 2.11 nista neodvisna.

= P(X < 5) + P(3 ≤ X ≤ 11) − P(3 ≤ X < 5) [2.12]

V drugem načinu (2.13) smo iz enega dogodka izbrisali tiste dogodke, ki so v prvem že upoštevani.
Spodnji primer tudi da pravilen rezultat, je pa nekoliko skrito, da sta dogodka odvisna.

= P(X < 5) + P(5 ≤ X ≤ 11) [2.13]

Izvrednotimo še enačbo 2.14, ki zahteva, da se zgodita oba dogodka hkrati.

P(X < 5 ∧ (3 ≤ X ≤ 11)) = P(X = 3) + P(X = 4) [2.14]

2.3 Porazdelitev zveznih naključnih spremenljivk

2.3.1 Gostota verjetnosti ali verjetnostna funkcija (probability density function)

Porazdelitvena funkcija (distribution function)

2.3.2 Porazdelitvena funkcija za slučajno spremenljivko

f (yi )

n
Y
f (y1 , y2 , . . . , yn ) = f (yi )
i=1

28
Biometrija 29

2.4 Bernullijeva porazdelitev

Naključna spremenljivka X ima Bernullijevo porazdelitev, če lahko zavzema vrednosti 0 in 1 z verjetno-
stjo p in q = 1 − p. Vrednosti se izključujeta. Verjetnostna funkcija je prikazana v enačbi (2.15).


Br (x|p) = p x (1 − p)1−x za x = 1, 2
P (X = x) = , [2.15]
0 za ostale vrednosti x

Verjetnost p naj bi bila poznana, v modelih pa je pogosto nepoznana in jo ocenjujemo.


Pričakovana vrednost je enaka verjetnosti za uspešni (p) dogodek.

1
X
µ = E (X) = xp x (1 − p)1−x = (0) (1 − p) + (1) (p) = p [2.16]
x=0

Varianca (2.17) je produkt verjetnosti za uspešni (p) in neuspešni (1 − p) dogodek.

1
X
2
σ = var (X) = (x − p)2 p x (1 − p)1−x = p2 (1 − p) + (1 − p)2 p = p (1 − p) [2.17]
x=0

Z Bernullijevo porazdelitvijo lahko opišemo tiste meritve, ki imajo samo dve vrednosti. Sem štejemo
težavnost telitve, če imamo samo dve možnosti. Tudi podatki o oplojenosti jajca, uspešnost oziroma
neuspešnost pripusta. Pri tem imamo samo za en dogodek, en poskus. Če je nanizanih več Bernullijevih
poskusov, dobimo binomsko porazdelitev.

2.5 Binomska porazdelitev

Binomska porazdelitev ima samo dve vrednosti, ki pa se n-krat ponovi. Opišemo jo z dvema parame-
troma in sicer številom poskusov (n) in verjetnostjo (p), da se je zgodil prvi možni dogodek. Vrednost p
variira lahko med 0 in 1. Drugi možni dogodek se je zgodil natanko z verjetnostjo q = 1− p. Verjetnostno
funkcijo prikazujemo v enačbi (2.18). Funkcijo grafično ponazorimo s histogramom.

  
 n
Bi (x|p, n) = p x (1 − p)1−x za x = 1, 2, ... n
P (X = x) = x , [2.18]
 v ostale vrednosti x
0

PRIMER: Poiščite verjetnostno funkcijo za naključno spremenljivko X, ki predstavlja število ženskih


živali pri treh zaporednih rojstvih pri govedu. Predpostavimo, da je p znan in ima vrednost 0.49.

P(X = 0) = Bi(0|0.49, 3) = 0.1327 [2.19]

P(X = 1) = Bi(1|0.49, 3) = 0.3823 [2.20]

P(X = 2) = Bi(2|0.49, 3) = 0.3674 [2.21]

P(X = 3) = Bi(3|0.49, 3) = 0.1176 [2.22]

Binomsko porazdelitev imajo torej vse naključne spremenljivke, ki opisujejo dogodke s samo dvema mo-
žnostima, ki se ponovijo večkrat. Torej: posamezni dogodek ima Bernullijevo porazdelitev, opazujemo
pa več dogodkov hkrati.

29
30 Biometrija

PRIMERI:

1. Poiščite verjetnostno funkcijo za naključno spremenljivko X, ki predstavlja število uspešnih


osemenitev pri 500 pripustih. Predpostavimo, da je p znan in ima vrednost 0.80.

 
500
P(X = y) = Bi(y|0.80, 500) == 0.80y (1 − 0.80)1−y = g (y) [2.23]
y

2. Prelux-G piščance vzrejajo kot nesnice za kmečko rejo. V valilnici vložijo po 1000 jajc naen-
krat. Verjetnost, da se izvali piščanec, je 0.70. Kolikšna je verjetnost, da se izvali natanko 450
piščancev?

3. Med izvaljenimi piščanci je 0.50 ženskih živali. Kolikšna je verjetnost, da se bo iz 1000 vloženih
jajc izvalilo 500 ženskih živali? Izračunajte srednjo vrednost, varianco in standardni odklon!

4. Narišite gostoto verjetnosti za število preživelih (odstavljenih) pujskov! Verjetnost, da pujsek do


odstavitve pogine je 0.12. Za izhodišče vzemite tri možne velikosti gnezda ob prasitvi: 5, 10 in
15.

5. Narišite Bi (16, 0.2), Bi (16, 0.5), Bi (16, 0.7) in Bi (16, 0.90)!

6. V jati je patentno okuženih 15 % rac. Privzemimo, da so dogodki neodvisni. Naklju čna spremen-
ljivka X predstavlja število okuženih rac med 20 naklju čno izbranimi racami. Napišite gostoto
verjetnosti in jo upodobite na grafu!

2.6 Poissonova porazdelitev

Pri nekaterih poskusih štejemo frekvenco posameznih dogodkov v danem časovnem intervalu ali na
danem fizičnem objektu. Lahko štejemo število telefonskih klicev med 7. in 11. uro, število kupcev
kart na blagajni zadnjo uro pred predstavo. Lahko preštejemo število obolelih živali v čredi, število
živorojenih pujskov v gnezdu, število izmerjenih klavnih trupov na liniji klanja v eni uri, število žretij
med 7. in 9. uro zjutraj, število agresij med 7. uro zjutraj in zve čer.
Vzemimo, da štejemo dogodke (spremembe), ki se zgodijo na danem zveznem intervalu. Pri tem dobimo
približno Poissonov proces s parametrom λ > 0, če je izpolnjeno naslednje:

(i) Število sprememb, ki se zgodijo na neprekrivajočih se intervalih, je neodvisno.


(ii) Verjetnost natanko ene spremembe na zadosti kratkem intervalu dolžihe h je približno λh.
(iii) Verjetnost dveh ali več sprememb na zadosti kratkem intervalu je praktično nič.

Da bi našli zadostno majhen interval, celotni interval razdelimo na n podintervalov. Število podintervalov
naj bo zadostno večji od števila preštetih sprememb oziroma dogodkov. Verjetnost enega dogodka na tem
intervalu je približno λ/n. Verjetnost, da se je dogodek zgodil ali pa ne, je pravzaprav Bernullijev proces.
Z binomsko porazdelitvijo lahko predstavimo približek za
 x  
n! λ λ n−x
P (X = x) = 1−
x! (n − x)! n n

Če s približkom nismo zadovoljni, povečajmo n in poiščemo limito naslednjega izraza.


  x   
n! λ λ n−x
lim 1− , x = 0, 1, 2, ...
n→∞ x! (n − x)! n n

30
Biometrija 31

Brez dokaza bomo navedli gostoto verjetnosti za Poissonovo porazdelitev, pri čakovano vrednost in vari-
anco.

λ x e−λ
f (x) =
x!

µ = E (X) = λ

σ2 = var (X) = λ

Tako pri opazovanju živali naredimo raster, ki je dovolj kratek, da se ne moreta zgoditi dva dogodka
hkrati. Potem preštevamo število posameznih oblik obnašanja.

1. Naključna spremenljivka X ima Poissonovo porazdelitev z λ = 5. Navedite pri čakovano vrednost


in varianco. Narišite histogram gostote verjetnosti.

2. Narišite histograme za porazdelitveno funkcijo za Poissonove naslednje porazdelitve λ = 0.7,


λ = 1.3, λ = 6.5 in λ = 10.5.

3. Naključna spremenljivka X predstavlja frekvenco pitja. Opazovanja smo opravili na 100 živalih.
Preverimo, ali lahko privzamemo Poissonovo porazdelitev!

Izid (x) Pogostnost (f) fx fxx


1 1 1 1
2 4 8 16
3 13 39 117
4 19 76 304
5 16 80 400
6 15 90 540
7 9 63 441
8 12 96 768
9 7 63 567
10 2 20 200
11 1 11 121
12 1 12 144
Skupaj 100 559 3619
Povprečje v tem primeru je 5.59, varianca pa znaša 4.942. Vrednosti so dovolj blizu, zato bi smeli
distribucijo opisati s Poissonovo porazdelitvijo.
Poissonova porazdelitev ni pomembna samo zaradi nje same. Zelo uporabna je tudi kot približek za
binomsko porazdelitev, ko je n zadosti velik in p sorazmerno majhen.

 
λ x e−λ n
≈ p x (1 − p)1−x
x! x

λ = np

Približek je zadostno natančen, če je n ≥ 100 in p ≤ 0.05.

31
32 Biometrija

2.7 Enakomerna (uniformna) porazdelitev

Gostota verjetnosti

1
f (x) = , a≤x≤b [2.24]
b−a

Porazdelitvena funkcija

 0, x<a
x−a
F (x) = b−a , a≤x≤b [2.25]

1, b≤x

Srednja vrednost

a+b
µ= [2.26]
2

Varianca

(b − a)2
σ2 = [2.27]
12

2.8 Normalna porazdelitev

Normalna porazdelitev je morda najpomembnejša porazdelitev v statistiki. Tudi v živinoreji je veliko


lastnosti, ki jih proučujemo, vsaj približno normalno porazdeljenih. Pomembna pa je tudi vloga normalne
porazdelitve v izreku centralne limite (ang. Central Limit Theorem).
Naključna (slučajna) spremenljivka y ima normalno porazdelitev, če je gostota verjetnosti (p. d. f)
definirana z enačbo 2.28.
 
1 (y − µ)2
f (y) = √ exp − , −∞ < y < ∞ [2.28]
σ 2π 2σ2

Parametra µin σpredstavljata srednjo vrednost in standardni odklon. Srednja vrednost se nahaja na in-
tervalu od negativne neskončnosti do pozitivne neskončnosti 2.29, standardni odklon pa ima pozitivno
vrednost (2.30).

−∞ < µ < ∞ [2.29]

0<σ <∞ [2.30]

Na kratko predstavimo normalno porazdelitev naklju čne spremenljivke tudi v naslednji obliki (2.31).

yi ∼ N µ, σ2 [2.31]

Normalno porazdelitev prepoznamo po zvončasti obliki Gaussove porazdelitvene funkcije. Povsem za-
dostno jo opišemo z dvema parametroma: s srednjo vrednostjo µ, tudi pri čakovana vrednost) in z
varianco (σ2 ) oz. s standardnim odklonom (σ, standardna deviacija). Povpre čje predstavlja lokacijski
parameter, varianca pa opiše razpršenost. Vemo namre č, da bomo pri normalno porazdeljeni spremen-
ljivki na intervalu med µ − σ in µ + σ našli kar 68 % meritev, na intervalu med µ − 2σ in µ + 2σ kar

32
Biometrija 33

3s

m
Slika 2.3: Normalna porazdelitev

95 %, na intervalu med µ − 2.56σ in µ + 2.56σ pa kar 99 %. Izven intervala µ − 3σ in µ + 3σ pa skoraj


ni opazovanj, čeprav je Gaussova porazdelitvena funkcija navzdol in navzgor neomejena.
Posebno vlogo ima standardna normalna porazdelitev. Za naklju čno spremenljivko z rečemo, da ima
standardno normalno porazdelitev, če je srednja vrednost enaka 0 in standardni odklon 1 (2.32).

z ∼ N (0, 1) [2.32]

Verjetnostna funkcija
PRIMER: Napišite gostoto verjetnosti za naključno spremenljivko y, ki ima porazdelitev prikazano v
enačbi 2.33.

y ∼ N (−7, 16) [2.33]

Gostota verjetnosti je prikazana v enačbi 2.34. Srednjaa vrednost porazdelitve je −7, standardni odklon
pa znaša 4.
 
1 (y + 7)2
f (y) = √ exp − , −∞ < y < ∞ [2.34]
32π 32

Veliko gospodarsko pomembnih lastnosti je porazdeljeno normalno. To velja za maso pri dolo čeni sta-
rosti, starost pri določeni masi, dnevni prirasti in konverzija krme na izbranem intervalu rasti, debelina
hrbtne slanine, telesne mere, mase klavnih kosov, odstotek mesnatosti, klavnost, površina hrbtne mišice
in pripadajoče slanine, razmerje meso:slanina, itd...
V izjemnih primerih te lastnosti niso več normalno porazdeljene. Tako npr. po uspešni selekciji na me-
snatost lahko postane slanina nagnjena s strmino proti 0 mm in "tolstim repom" proti višjim vrednostim.
Srednja vrednost in standardni odklon ne opisujeta porazdelitve ve č zadovoljivo. Primerneje je poiskati
vrh oziroma modus porazdelitve, za razpršenost pa nimamo primernejšega parametra kot je standardni
odklon. Če želimo biti natančni, uporabimo pri teh porazdelitvah merilo za nagnjenost - skewness in
sploščenost - kutosis. Da pa bi bili razumljivi, porazdelitev raje narišemo.

2.9 Ostale porazdelitve

Nekatere lastnosti pa ne moremo uvrstiti v nobeno od omenjenih porazdelitev. Lahko so zelo nenava-
dnih oblik: nikakor pa jih ne moremo predstaviti z nekaj parametri, kot smo to storili v prej omenjenih
porazdelitvah. So pa v živinoreji vredne, da jih podrobneje spoznamo. Redkeje te lastnosti opisujejo
proizvodne lastnosti, večkrat pa so v povezavi z lastnostmi obnašanja, počutja, senzoričnimi lastnostmi

33

1
34 Biometrija

µ
Slika 2.4: Bimodalna porazdelitev

Tabela 2.2: Podatki o testiranju mladic na rast in zamaš čenost


Žival Pasma Mesec Masa (kg) Debelina slanine (mm) Dnevni prirast (g/dan)
1 SL JAN 102 13 13 540
2 SL JAN 98 16 14 550
3 SL FEB 105 16 16 550
4 SL FEB 102 15 12 580
5 LW JAN 95 20 17 520
6 LW FEB 101 24 24 500
7 LW FEB 101 27 25 490
8 NL JAN 97 26 27 560
9 NL JAN 100 22 19 550
10 NL FEB 97 23 25 600
11 NL FEB 102 24 22 610

proizvodov. Tudi subjektivne ocene, kjer niso dobro postavljene skale, se lahko sprevržejo v "neurejene"
porazdelitve. Take porazdelitve nikakor ne opisujemo s parametri, omenjenimi pri porazdelitvah znanih
oblik. Pri naslednji porazdelitvi se srednja vrednost nahaja na mestu, kjer meritev najmanj pri čakujemo,
med obema vrhovoma.

2.10 Enorazsežne in večrazsežna porazdelitev

Vzemimo, da imamo dve spremenljivki y 1 in y2 , ki so porazdeljene N (Xβ, R)


p y1 , y 2 | β 1 , β 2 , R

p −1   
n1 +n2 1h 0 0 0 0 0 0
i y1 − X 1 β1
= (2π) |R| exp − y1 − β1 X1 y2 − β2 X2 R −1
| {z } 2 y2 − X 2 β2
| {z }
integraci jska konstanta jedro

2.11 Vaje

Datoteka s podatki o testiranju mladic na rast in mesnatost vsebuje 11 zapisov (2.2). Izmerjenih je bilo
11 mladic (živali), treh pasem v mesecih januar in februar. Mase pri merjenju so bile med 96 in 105 kg.
Slanino so merili z dvema ponovitvama, dnevni prirast pa je izra čunan iz podatkov o starosti in masi pri
merjenju.
Pri obdelavah bomo uporabljali tri različna porekla (2.3). V prvem poreklu (poreklo 0) bomo imeli pri-
mer, ko poreklo pri živalih ni znano. Običajno v takih primerih predpostavimo, da so predniki nesorodni

34

1
Biometrija 35

Tabela 2.3: Poreklo za mladice


Poreklo 0 Poreklo A Poreklo B
Žival Mati Oče Žival Mati Oče Žival Mati Oče
1 - - 1 12 - 1 12 -
2 - - 2 12 - 2 12 -
3 - - 3 - - 3 - -
4 - - 4 - - 4 - -
5 - - 5 13 14 5 13 14
6 - - 6 13 14 6 13 14
7 - - 7 - 14 7 - 14
8 - - 8 - - 8 - -
9 - - 9 - - 9 - -
10 - - 10 - - 10 - -
11 - - 11 - - 11 - -
12 - - 12 - -
13 - - 13 15 -
14 - - 14 15 -
15 - -

Tabela 2.4: Podatki o preizkusu mladic na rast in zamaš čenost z manjkajočimi podatki
Žival Rejec Mesec Masa (kg) Debelina slanine (mm) Dnevni prirast (g/dan)
1 1 JAN 102 13 13
2 1 JAN 98 16
3 1 FEB 105 16 16
4 1 FEB 102 15 580
5 2 JAN 95 20 17 520
6 2 FEB 101 24 500
7 2 FEB 101 27 25 490
8 3 JAN 97 26 560
9 3 JAN 100 22 19 550
10 3 FEB 97 23 600
11 3 FEB 102 24 22 610

in različni. Lahko bi imeli tudi drugačne primere. Morda vemo, da se v enem letu ali paritveni sezoni
uporablja na kmetiji samo en samec. Čeprav številke nimamo, se pač za to žival izmislimo novo oznako
in jo uporabljamo. V takem primeru bomo potem lahko dolo čili, da imajo vsi mladiči rojeni po teh
pripustih istega očeta, porekla očeta pa ne bomo več vedeli.

V drugem primeru (poreklo A) bomo imeli nekaj prednikov znanih, nekaj neznanih. Znane prednike
moramo dopisati na koncu seznama in jim poiščemo prednike. Postopke ponavljamo, dokler nimamo
več novih, dodanih staršev. V našem primeru smo dodali samo tri starše: dve materi in enega o četa.
Vsaka žival ima samo eno vrstico. V drugem poreklu so bila izvedena vsa parjenja tako, da sorodnih
živali nismo parili.

V tretje poreklo (poreklo B) smo dodali še eno žival, ki je skupen prednik (mati) svinji 13 in merjascu 14.
Parjenje med svinjo 13 in merjascem 14, ki sta sestra in brat, je parjenje sorodnikov. Potomci so inbri-
dirani. Takih parjenj v živinoreji praviloma ne izvajamo in so celo zakonsko prepovedana. Tule pa smo
jih uporabili samo zato, da bomo lahko prikazali vpliv pri obdelavi podatkov. Če bi imeli bolj oddaljene
skupne prednike, bi morali dodati preveč živali iz porekla. Mi pa želimo, da so primeri obvladljivi.

Izračunajte:

35
36 Biometrija

Masa Dnevni prirast Debelina slanine


Število meritev
Povprečje
Varianca
Standardni odklon
Modus
Mediana
Minimum
Maksimum
Ali lahko opišete porazdelitve za naslednje lastnosti:

• "učni uspeh pri etologiji (skala 1 do 10)" samo za opravljene izpite,

• "učni uspeh pri etologiji (skala 1 do 10)" za vse poskuse,

• "telesna višina (cm)",

• "prisotnost na vajah (%)",

• "izostanek na vajah (%)",

• "prisotnost na predavanjih (%)" pri študentih drugega letnika univerzitetnega študija zootehnike?

Ali lahko opišete porazdelitve za proizvodne lastnosti doma čih živali? Kjer lahko, pripišite srednjo
vrednost, standardni odklon, minimalno in maksimalno vrednost? Pri tem si pomagajte z viri informacij,
ki ste jih spoznali pri predmetu Informatika!

• dnevna količina mleka (kg),

• količina mleka v standardni laktaciji (kg),

• dnevni prirast pri rastočih živalih (g/dan)

• doba od pripusta do pregonitve (dni)

• velikost gnezda

• dolžina brejosti (dni)

• uspešnost pripustov (uspešni, neuspešni)

• delež uspešnih pripustov (%)

• valilnost jajc (%)

• dnevna poraba krme (kg/dan)

• konverzija krme

• količina proizvedenega medu po panju (kg)

Vajo ponovite pri različnih vrstah domačih živalih, kjer se to da! Dopolnjujte seznam lastnosti! Preverite
definicije lastnosti! Katera porazdelitvena funkcija je primerna? Katere parametre je najbolje navesti pri
opisovanju te lastnosti? Poiščite ocene parametrov, ki veljajo za slovenske populacije!

36
Biometrija 37

Poglavje 3

MATRIČNI ZAPIS MODELA IN OSNOVE MATRIČNE


OPERACIJE
3.1 Skalar

Skalar je matrika reda 1 x 1. Skalarji so označeni z malimi ali velikimi navadnimi (neodebeljene) črkami
kot npr. yi j (odvisna slučajna spremenljivka), ai jk (vpliv živali kot naključni vpliv), βi (eden od nivojev pri
sistematskemu vplivu), b (regresijski koeficient), x i jk (neodvisna spremenljivka), xi j (element v matriki
X) ali c (konstanta). V oklepaju je omenjena ena od možnosti, ki jih bomo sre čali pri biometriji. Oznaka
skalarja ni dovolj, da bi vedno prepoznali njegovo vlogo. Pomembno je, da so uporabljene oznake
obrazložene v vsakem primeru posebej, čeprav lahko pri običajnih, pogostih primerih o pomenu skoraj
zanesljivo sklepamo.

3.2 Vektor

Definicija: Vektor je polje števil ali simbolov urejenih samo v eno vrstico in en stolpec.

Vektorji so matrike, ki imajo eno samo vrstico (vrsti čni vektorji) oziroma en stolpec (stolpični vektor).
Pisali jih bomo z malimi odebeljenimi črkami npr. y, u, a, x ali β. Tako bomo označili stolpične vektorje.
Vrstični vektorji so pravzaprav transponirani stolpični vektorji (glej tudi 3.3.1) in jih bomo označili y0 ,
u0 , a0 , x0 ali β0 ali yT , uT , aT , xT ali βT . Tam, kjer ne moremo uporabiti odebeljenih črk, uporabljamo
lahko navadno pisavo, vektor pa podčrtamo z znakom ~, npr. y .

3.3 Matrika

Definicija: Matrika je polje števil ali simbolov urejenih v vrstice in stolpce.

Označevali jih bomo z velikimi, odebeljenimi črkami kot npr. X (matrika dogodkov za sistematske
vplive), Q (matrika kvadratne oblike), A (matrika sorodstva), V fenotipskih matrika varianc in kovarianc.
To je le nekaj matrik, ki bodo imele pri biometriji poseben pomen. Z oznakami A, B ali X pa lahko
enostavno mislimo samo na matrike brey posebnega pomena. Tako kot pri vektorjih je tudi pri matrikah
pomemben opis, kaj matrika predstavlja. Tam, kjer ne moremo uporabiti odebeljenih črk, uporabljamo
lahko navadno pisavo, oznako za matriko pa podčrtamo z znakom ~.

é2 3 5 1 ù
A = ê1 1 9 7 ú
ë û
vrstici

element matrike
stolpci
Slika 3.1: Matrika
38 Biometrija

Matrika A na sliki 3.1 ima dve vrstici in štiri stolpce. Vsebuje torej osem elementov. Matrika ima svoje
elemente razvrščene v stolpce in vrstice.

 
c11 c12 · · · c1c
   
 c21 c22 · · · c2c  b11 b12 b13 b14
C= .. .. . . .  B= [3.1]
 . . . ..  b21 b22 b23 b24
cr1 cr2 · · · crc

Matrika C ima r vrstic in c stolpcev (primer 3.1). Število vrstic in stolpcev dolo čata red matrike. Red
matrike C je r x c. Red matrike B je 2 x 4. Če želimo red matrike, ga navedemo v indeksu matrike (3.2).

A2x4 , Crxc , B2x4 [3.2]

Pri kvadratnih matrikah (glej 3.3.1) lahko navedemo samo eno vrednost. Matrika V (3.3) je matrika
fenotipskih varianc in kovarianc, zato je kvadratna. Ima 10 vrstic in 10 stolpcev.

V10 [3.3]

Posamezna
 števila ali simboli so elementi matrike. Elemente matrike bomo poimenovali z malimi črkami
bi j . Indeksa i in j določata vrstico in stolpec, katerima element pripada. Prvi indeks ozna čuje vrstico,
drugi stolpec brez ozira na črko.
Pri matrikah določamo tudi rang matrike: število neodvisnih vrstic in stolpcev.

3.3.1 Posebne matrike

a) Kvadratne matrike (primer 3.4) imajo toliko vrstic kot stolpcev.

 
5 1 2
 3 8 4  [3.4]
0 2 7

b) Simetrične matrike (primer 3.5) so kvadratne matrike, za katere velja a i j = a ji .

 
5 1 2
 1 8 4  [3.5]
2 4 7

c) Diagonalne matrike (primer 3.6) so simetrične matrike, ki imajo od 0 različne elemente samo na
diagonali. Vsi nediagonalni elementi enake 0.

 
5 0 0
D= 0 8 0  [3.6]
0 0 7

Diagonalno matriko lahko zapišemo tudi v obliki iz ena čbe 3.7.

D = {dii } [3.7]

38
Biometrija 39

č) Identična matrika (primer 3.8) je diagonalna matrika, pri kateri so vsi diagonalni elementi enaki 1.
Označimo jo z I, praviloma moramo omeniti oziroma določiti tudi red matrike.

 
1 0 0
I= 0 1 0  [3.8]
0 0 1

d) Ničelna matrika ima vse elemente enake 0. Označimo jo z 0, praviloma moramo določiti tudi red
matrike.

 
0 0 0 0
0= [3.9]
0 0 0 0

e) Blok-diagonalna matrika je matrika, ki imajo vzdolž diagonale nanizane matrike. Poglejmo si ma-
triko R iz enačbe 3.10. Na diagonali imamo varianci za dve lastnosti, ki se izmeni čno izmenjujeta. Večina
nediagonalnih elementov je enaka 0, samo med dvema zaporednima vrsticama je nakazana kovarianca
za ostanek med obema lastnostima (σ e1 e2 ). V nadaljevanju bomo nekoliko poenostavili poimenovanje za
kovarianco (σe12 ). Obe oznaki jo zadostno opišeta.

 
σ2e1 σ e1 e2
 σ e1 e2
 σ2e2 


 σ2e1 σ e1 e2 

 σ2e2 
R= σ e1 e2 = [3.10]
 .. 
 . 
 
 σ2e1 σ e1 e2 
σ e1 e2 σ2e2

Zamenjajmo torej zaradi enostavnosti oznako in poudarimo diagonalne matrike. Mala diagonalna ma-
trika ima dve vrstici in dva stolpca. Je kvadratna in simetri čna. Vsebuje 3 komponente kovariance.
Matriko bomo poimenovali R0 . Vsebuje varianco za prv0 in drugo lastnost ter kovarianco, če sta meritvi
opravljeni na isti živali.

   
σ2e1 σe12

 σe12 σ2e2  



 σ2e1 σe12 

 R↑0 → ←↓ R0 
= σe12 σ2e2  [3.11]
 .. 
 . 
   
 σ2e1 σe12 
σe12 σ2e2

Zaradi preglednosti lahko matriko 3.12 prepišemo tako, da namesto diagonalnih blokov navedemo kar
matriko R0 .

 
R0
 R0 
 
= ..  [3.12]
 . 
R0

39
40 Biometrija

f) Transponirana matrika A0 (3.13) ima za stolpce vrstice iz matrike A. Za oznako transponirano


uporabljamo tudi črko T v eksponentu (AT ).
 
 T 2 1
2 3 5 1  3 1 
= 5 9 
 [3.13]
1 1 9 7
1 7

g) Idempotentna matrika M je kvadratna in za njo velja M 2 = M. Idepotentne matrike bomo ome-


njali pri kvadratnih oblikah, ki nam predstavlljajo vsote kvadratov.

h) Delne matrike (ang. submatrix). Matriko razcepimo na manjše matrike. Obi čajno to naredimo
glede na strukturo matrik. Kasneje bomo spoznali zanimive matrike, kamor urejujemo informacije iz
podatkov in porekla. Delitev matrik lahko nakažemo s pik častimi črtami.
 
A B
[3.14]
C D

Kot primer navajamo matriko koeficientov (3.15) iz ena čb mešanega modela. V zgornjem levem kotu so
zbrane informacije o sistematskem delu modela (X 0 X), v spodnjem desnem kotu bom našli naključni del
(Z0 Z + Iσ2e σ−2
a ), nediagonalna dela (X Z in Z X) pa povezujeta sistematski in naključni del. Pri našem
0 0

delu bomo razčlenitev opravili predvsem zaradi preglednosti, čeprav je bolj pomembna pri izpeljavi
posameznih enačb ali pri dokazih.
 0 
XX X0 Z
[3.15]
Z0 X Z0 Z + Iσ2e σ−2
a

i) Trikotna matrika je kvadratna in ima od nič različne nediagonalne elemente samo nad ali pod
diagonalo. Tako ločimo spodnjo trikotno matriko (ang. lower triangular matrix, 3.16) in zgornjo trikotno
matriko (ang. upper triangular matrix, 3.17).
 
2
 1 1  [3.16]
−1 2 3
 
2 1 −1
 1 2  [3.17]
3

j) Pozitivno definitne matrike so kvadratne, simetri čne in imajo dominantno diagonalo. S Cholesky
razčlevitvijo (ang. Cholesky decomposition) najdemo tako spodnjo trikotno matriko L, da je njen pro-
dukt s transponirano mariko L0 pozitivno definitna matrika A (ang. positive definit matrix). Diagonalni
elementi v matriki L so pozitivni in večji od nič.

A = LL0 [3.18]
    
4 2 −2 2 2 1 −1
 2 2 1 = 1 1  1 2  [3.19]
−2 1 14 −1 2 3 3

Vse matrike varianc in kovarianc morajo biti pozitivno definitne. Na diagonali so variance, na nediago-
nalnih elementih pa kovariance. Vzemimo, da je matrika A reda 1 x 1, torej je le skalar. V tem primeru
je edini element v matriki A varianca σ 2 , element v matriki L pa standardni odklon σ.

40
Biometrija 41

k) Semi-pozitivno definitne matrike so zelo podobne pozitivno definitnim matrikam, le v matriki L


je na diagonali dovoljena tudi vrednost 0.
    
4 2 −2 2 2 1 −1
 2 2 1 = 1 1  1 2  [3.20]
−2 1 5 −1 2 0 0

3.4 Seštevanje matrik in vektorjev

Definicija:

A pxq + B pxq = C pxq [3.21]

ci j = a i j + b i j [3.22]

Matrike, ki jih seštevamo, morajo imeti isto število vrstic in isto število stolpcev. Vsoto matrik dobimo
tako, da seštevamo istoležne elemente. Rezultat je istega reda kot matrike, ki jih seštevamo.
       
1 0 4 0 1+4 0+0 5 0
 −1 2  +  2 1  =  −1 + 2 2 + 1  =  1 3  [3.23]
3 4 −2 −1 3−2 4−1 1 3

Osnovna pravila

3.5 MNOŽENJE MATRIK

Definicija:

A pxq ∗ Bqxr = C pxr [3.24]

Matriki A in B iz enačbe pomnožimo tako, da pomnožimo i-to vrstico matrike A z j-ti stolpcem matrike
B ter produkte posameznih parov seštejemo. Tako dobimo vrednost elementa na prese čišču i-te vrstice
in j-tega stolpca matrike C.

q
X
cik = ai j ∗ b jk [3.25]
j=1

Prva matrika mora zato imeti toliko v stolpcev kot druga matrika vrstic
   
1 0   2 0 −1 2
 −1 2  ∗ 2 0 −1 2
=  −4 6 1 2  [3.26]
−1 3 0 2 2x4
3 4 3x2 2 12 −3 14 3x4

Osnovna pravila

3.6 OPIS MODELA V MATRIČNI OBLIKI

Modele v matrični obliki bomo srečali v literaturi, ki opisuje obdelavo podatkov pri selekciji živali in
uravnavanju reje. Kot bomo kasneje videli, so zeli splošni in povedo sami zase brez dobrega dodatnega
opisa zelo malo o strukturi podatkov. Lahko so dodatno opremljeni z modelom v skalarni obliki. Ker pa

41
42 Biometrija

so splošni, so zelo primerni za prikaz metod, uporabljenih za reševanje sistemov ena čb. Model v matrični
obliki si oglejmo najprej kar na primeru.
PRIMER: Vzemimo podatke iz tabele 2.2 in uporabimo naslednja modela v skalarni obliki in sicer za
dnevni prirast (3.27) in debelino hrbtne slanine (3.28):

yi jkl = µ + Pi + M j + Fk + ai jkl + ei jkl [3.27]



yi jklm = µ + Pi + M j + Fk + bi xi jkl − x̄ + ai jkl + ei jklm [3.28]

Model za dnevni prirast smo predstavili v enačbah3.29 in 3.30. Če bi obravnavali le eno lastnost, potem
je lahko enačba povsem brez indeksov. Ker pa sta si modela za dnevni prirast in debelino tako zelo
podobna, pa jih moramo ločiti z dodatnimi indeksi. Za indeks lahko uporabimo številko ali črko.

y1 = X1 β1 + Z1 u1 + e1 [3.29]

y D = X D βD + Z D u D + e D [3.30]

kjer pomeni:

y1 , y D - vektor opazovanj ali meritev (ang. observations) za dnevni prirast

X1 , X D - matrike dogodkov (ang. incidence matrix) za sistematske vplive (ang. fixed effects)

Z1 , Z D - matrika dogodkov za naključne vplive (ang. random effects)

β1 , βD - vektor parametrov za sistematske vplive (ang. vector of parameters)

u1 , u D - vektor naključnih vplivov

e1 , e D - vektor ostankov (residual).

Sedaj ne bo težko napisati model še za debelino hrbtne slanine. V ena čbi 3.31 smo za indeks uporabili
številko 2, ki bo opozoril, da gre za drugo lastnost. Da bi se spomnili, da delamo s slanino, pa smo v
enačbi 3.32 raje uporabili črko S.

y2 = X2 β2 + Z2 u2 + e2 [3.31]

yS = XS βS + ZS uS + eS [3.32]

kjer pomeni:

y2 , y S - vektor opazovanj ali meritev za debelino hrbtne slanine

X2 , X S - matrike dogodkov za sistematske vplive

Z2 , Z S - matrika dogodkov za naključne vplive

β2 , βS - vektor parametrov za sistematskih vplivov

u2 , u S - vektor naključnih vplivov

e2 , e S - vektor ostankov.

42
Biometrija 43

Do sedaj smo obdelali posebej dnevni prirast in nato še debelino hrbtne slanine. Uporabili smo eno-
lastnostno analizo. Kot vir informacij smo uporabili samo moreritve za lastnost in poreklo. Nismo pa
upoštevali, da sta lastnosti sicer povezani.

Z večlastnostnimi analizami se ne bomo preveč ukvarjali. Omenili jih bomo le toliko, da bomo vedeli,
da obstajajo in se predstavljali, kaj se pri njih dogaja. Proces pri reševanju sistemov ena čb je povsem
enak procesu, ko delamo z eno lastnostjo.

Oba modela lahko sestavimo na način prikazan v (3.33) in zapišemo poenostavljeno kar v obliki prika-
zani v (3.34). Slednja oblika je praktična za izpeljavo metode, ne pove pa dosti o poizkusu. Tudi, ko
se odločimo za matrično obliko zapisa modela, moramo navajati skalarno obliko ena čb. Pričakovane
vrednosti, strukturo varianc in kovarianc ter morebitne predpostavke pa prikažemo kar z matrikami.

       
y1 X1 β1 0 Z1 u1 0 e1
y= = + + [3.33]
y2 0 X 2 β2 0 Z 2 u2 e2

y = Xβ + Zu + e [3.34]

kjer pomeni:

y - vektor opazovanj ali meritev za obe lastnosti

X - matrike dogodkov (ang. incidence matrix) za sistematske vplive (ang. fixed effects)

Z - matrika dogodkov za naključne vplive (ang. random effects)

β - vektor parametrov za sistematskih vplivov

u - vektor naključnih vplivov (žival)

e - vektor ostankov (residual)

Seznanimo se najprej z vsebino matrik in vektorjev v modelih.

3.6.1 Vektorji opazovanj in vektorji parametrov

Vektor opazovanj je stolpični vektor, ki ima toliko vrstic, kot smo opravili meritev za opazovano lastnost.

Kot primer bomo obdelali podatke o preizkusu mladic v pogojih reje iz tabele 2.2. V našem primeru
smo za dnevni prirast opravili 11 meritev in jih uvrstili v vektor y 1 (ali yD ), pri debelini hrbtne slanine pa
22. Vrstni red navajanja podatkov je poljuben, vendar pa, ko ga enkrat izberemo, je sistem definiran in
ga ne smemo v naslednjih postopkih menjati. Vektorja y 2 in y∗2 (oziroma yS in y∗S ) za debelino hrbtne
slanine vsebujeta iste meritve razporejene različno. Kljub temu, da vektorja nista enaka, pričakujemo

43
44 Biometrija

iste rešitve. Razporeditev rešitev pa bo odvisna od vrstnega reda parametrov.


   
506 506
 550   12 
   
 532   13 
   
 577   550 
   
 512   15 
   
     499    14 
12 12   
 466   532 
 15   13     
     545   15 
 15   15     
       
 14   14   549   16 
       
 19   15   600   577 
       
   23   16   610   14 
       
506  26   14   12   12 
 550         
   25   12   15   512 
 532         
   21   19  
 15   
 19 

 577       14   17 
   22   17     
         
 512       19   499 
   23  ∗  23 
y1 =  499  y2 =   y2 =  
 y =  23  y = 
 ∗
 23 
 [3.35]
   13   24   26   
 466         24 
   14   26   25   
 545         466 
   16   24     
 549       21   26 
   12   25     
 600       22   24 
 17   27     
610      23   545 
 24   21     
     13   25 
 24   19     
     14   27 
 27   22     
     16   549 
 19   23     
     12   21 
 23   23     
 17   19 
15 15    
 24   600 
   
 24   22 
   
 27   23 
   
 19   610 
   
 23   23 
15 15

Zadnja dva vektorja y in y∗vključujeta vse meritve za obe lastnosti. Oba vektorja imata natanko 33
opazovanj, razlikujeta pa se le v vrstnem redu opazovanj.
Vektorji β1 , β2 , βD , βS in β vključujejo vse sistematske vplive. Ker sta modela za dnevni prirast in
debelino hrbtne slanine podobna, je seznam parametrov podoben, le pri slanini je dodana neodvisna
spremenljivka masa in odgovarjajoči regresijski koeficient bi kot parameter.
Vektor parametrov za sistematske vplive pri dnevnem prirastu lahko predstavljata bodisi ena čba 3.36
bodisi enačba 3.37.
h i
β01 = µ1 ... P11 P12 P13 ... M11 M12 ... F11 F12 F13 [3.36]
h i
β0D = µD ... PD1 PD2 PD3 ... MD1 MD2 ... F D1 F D2 F D3 [3.37]

Sedaj pa sestavimo še vektor parametrov za debelino hrbtne slanine. Tudi tu lahko izberemo varianto, ko
lastnost označimo s številko (enačba 3.38) ali črko (enačba 3.39). Praviloma se odločimo samo za eno
varianto in se je vseskozi tudi držimo.
h i
β02 = µ2 ... P21 P22 P23 ... M21 M22 ... F21 F22 F23 ... b21 b22 b23 [3.38]

44
Biometrija 45

h i
β0S = .. . .. . [3.39]
µS . PS 1 PS 2 PS 3 .. MS 1 MS 2 . FS 1 FS 2 FS 3 .. bS 1 bS 2 bS 3

Parametri niso isti pri različnih lastnostih, saj pričakujemo pri vsaki lastnosti drugačne rešitve (ocene
oz. napovedi). Ne glede na to, ali sta modela enaka ali razli čna, potrebujemo za vsako lastnost druge
parametre. Vzemimo za primer samo srednjo vrednost µ. Izra čunati moramo dve srednji vrednosti: eno
za srednjo vrednost za dnevni prirast µ D in eno za debelino hrbtne slanine µS . Skupen rezultat ne bi imel
nobenega pomena, sicer pa tako in tako ne moramo šestevati vrednosti za dnevni prirast (v g/dan) in
vrednosti za debelino hrbtne slanine (v mm).
Ponovitve pri debelini slanine smo opravljali le z namenom, da izboljšamo zanesljivost meritev, saj
meritev slanine z ultrazvokom ni dovolj zanesljiva. Ponovitve tako ne vplivajo na število parametrov, ki
jih želimo oceniti. Seveda pa to velja za ponovitve, ki jih lahko razglasimo kot paralelke.
Drugače je v primeru, ko so meritve na isti živali (ali drugi opazovani enoti) opravljene v razli čnih ča-
sovnih razmikih, včasih tudi v različnem okolju. Kot primer naj navedemo analizo vzorcev mleka pri
posameznih kontrolah, v različnih laktacijah, velikost gnezda pri posameznih kotitvah, tehtanja odra-
slih živali v različnih časovnih razmikih, lahko pa so to tudi rezultati kemi čnih analiz, ko proučujemo
zanesljivost metode. Tudi meritve debeline hrbtne slanine, merjene pri razli čnih masah, bi sodile v ta
sklop. Meritve niso paralelke in enakovredne. Pri takih meritvah nas zanima ponovljivost, zato v model
vključimo dodatni vpliv, ki ocenjuje skupno okolje, ki je meritvam na eni živali oz. kaki drugi opazovani
enoti skupen. Število nivojev pri takem vplivu je obi čajno veliko, za vsako žival vsaj eno. V primeru
meritev lastnosti mleka pa ločimo dve skupni okolji. Najprej je eno okolje, ki je skupno vsem meritvam
pri samici (kravi, ovci, kozi...), in ga imenujemo kar permanentno okolje, saj traja vse življenje. Drugi
del skupnega okolja pa je vezan na eno laktacijo: meritve znotraj laktacije so bolj primerljive, podobne,
kot meritve med laktacijami. Imenujemo ga kar skupno okolje (v laktaciji). Nivojev pri tem vplivu pa je
celo več: pri vsaki živali za vsako laktacijo eden. Torej jih je za eno žival toliko, kot ima žival laktacij.

Pri speciesih z več mladiči v gnezdu (drobnica, prašiči, kunci...) predstavlja skupno okolje za velikost
gnezda pri samici okolje, ki ga samica nudi vsem svojim potomcem. Lastnosti, ki bi podrobno opisovale
to okolje, praviloma ne moremo zmeriti. Predstavljajo pa tako imenovane materinske lastnosti, kot npr.
mlečnost pri samicah, obnašanje matere (agresivnost, nerodnost, požrtvovalnost....), pa tudi nekatere
železne navade rejca, ki povzročajo razlike med samicami. Trajne posledice za plodnost pa imajo le tisti
vplivi, ki so kreirali razvoj samice, torej okolje iz njene mladosti. Če so bili pogoji v mladosti optimalni,
bodo tudi proizvodni rezultati lahko optimalni. Na te, materinske lastnosti vpliva lahko tako genotip
(maternalni genetski vplivi) kot okolje (permanentno okolje).
V vektorjih naključnih vplivov u1 (3.40), u D (3.41), u2 (3.42), uS (3.43) in u(3.44) so nanizani naključni
vplivi, kot npr. aditivni genetski vpliv, pogosto imenovan kar preprosto “žival”. Tako smo posamene
elemente vektorjev označili kar s črkami a, ki nas spominjajo na aditivni genetski vpliv. Meritve smo
opravili na enajstih živalih, sorodstva pa pri njih nismo poznali.
 
u01 = a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111 [3.40]
 
u0D = aD1 aD2 aD3 aD4 aD5 aD6 aD7 aD8 aD9 aD10 aD11 [3.41]
 
u02 = a21 a22 a23 a24 a25 a26 a27 a28 a29 a210 a211 [3.42]
 
u0B = aB1 aB2 aB3 aB4 aB5 aB6 aB7 aB8 aB9 aB10 aB11 [3.43]
 
u0 = u01 u02 [3.44]

V primeru, da imamo še dodatne živali iz porekla, za katere bi tudi radi napovedali plemensko vrednost
(aditivni genetski vpliv), živali vstavimo v vektor. V našem primeru bomo 4 prednike živali v poskusu
dodali na konec vektorja. Prikazali bomo le vektor u 01 (3.45), ostali se prav tako ustrezno podaljšajo.
 
u01 = a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111 a112 a113 a114 a115 [3.45]

45
46 Biometrija

3.6.2 Matrike dogodkov

Z matrikami dogodkov poskus natanko opišemo.


Vse živali pripadajo celotnemu vzorcu in bodo pri oceni “enakopravno” sodelovale.

Za sistematske vplive

Matriko dogodkov za sistematske vplive X 1 za dnevni prirast nastavimo tako, da pred matriko nastavimo
vektor opazovanj y1 , da si s tem pomagamo pri nastavljanju vrstic. Nad stolpce pa si lahko napišemo
vektor parametrov β01 . Če parameter, ki označuje stolpec, prisostvuje pri meritvi, ki jo v dani vrstici
opisujemo, napišemo vrednost 1, v obratnem primeru pa 0.

 
 β1
0
 → µ1  P11 P12 P13 M11 M12 F11 F12  F13
506 1 1 0 0 1 0 1 0 0
 550   1 1 0 0 1 0 0 1 0 
   
 532   1 1 0 0 0 1 0 0 1 
   
 577   1 1 0 0 0 1 1 0 0 
   
   
 512   1 0 1 0 1 0 0 1 0 
y1 →     ← X1 [3.46]
 499   1 0 1 0 0 1 0 1 0 
   
 466   1 0 1 0 0 1 0 0 1 
   
 545   1 0 0 1 1 0 1 0 0 
   
 549   1 0 0 1 1 0 0 0 1 
   
 600   1 0 0 1 0 1 0 0 1 
610 1 0 0 1 0 1 0 1 0

Tudi pri debelini hrbtne slanine ravnamo enako. Le pri regresijskih koeficientih vpišemo vrednost neod-
visne spremenljivke x. Če model tako zahteva, jo korigiramo na konstantno vrednost ali povpre čje.

 
β02 → µ P21 P22 P23 M21 M22 F21 F22 F23 b21 b22 b23
  2 
12 1 1 0 0 1 0 1 0 0 2. 0 0
 15   1 1 0 0 1 0 0 1 0 −2. 0 0 
   
 15   1 1 0 0 0 1 0 0 1 5. 0 0 
   
 14   1 1 0 0 0 1 1 0 0 3. 0 0 
   
 19   1 0 1 0 1 0 0 1 0 0 −4. 0 
   
 23   1 0 1 0 0 1 0 1 0 0 1. 0 
   
 26   1 0 1 0 0 1 0 0 1 0 3. 0 
   
 25   1 0 0 1 1 0 1 0 0 0 0 −1. 
   
 21   1 0 0 1 1 0 0 0 1 0 0 0. 
   
 22   1 0 0 1 0 1 0 0 1 0 0 −3. 
   
   
 23   1 0 0 1 0 1 0 1 0 0 0 2.  [3.47]
y2 →     ← X2
 13   1 1 0 0 1 0 1 0 0 2. 0 0 
   
 14   1 1 0 0 1 0 0 1 0 −2. 0 0 
   
 16   1 1 0 0 0 1 0 0 1 5. 0 0 
   
 12   1 1 0 0 0 1 1 0 0 3. 0 0 
   

 17 


 1 0 1 0 1 0 0 1 0 0 −4. 0 

 24   1 0 1 0 0 1 0 1 0 0 1. 0 
   
 24   1 0 1 0 0 1 0 0 1 0 3. 0 
   
 27   1 0 0 1 1 0 1 0 0 0 0 −1. 
   
 19   1 0 0 1 1 0 0 0 1 0 0 0. 
   
 23   1 0 0 1 0 1 0 0 1 0 0 −3. 
15 1 0 0 1 0 1 0 1 0 0 0 2.

46
Biometrija 47

 
  β0 →  β01 β02 
y1 X1 0 [3.48]
y→ ←X
y2 33x1
0 X2

Za naključne vplive

 
 u1 →  a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111
0

506 1 0 0 0 0 0 0 0 0 0 0
 550   0 1 0 0 0 0 0 0 0 0 0 
   
 532   0 0 1 0 0 0 0 0 0 0 0 
   
 577   0 0 0 1 0 0 0 0 0 0 0 
   
   
 512   0 0 0 0 1 0 0 0 0 0 0 
y1 →     ← Z1 [3.49]
 499   0 0 0 0 0 1 0 0 0 0 0 
   
 466   0 0 0 0 0 0 1 0 0 0 0 
   
 545   0 0 0 0 0 0 0 1 0 0 0 
   
 549   0 0 0 0 0 0 0 0 1 0 0 
   
 600   0 0 0 0 0 0 0 0 0 1 0 
610 0 0 0 0 0 0 0 0 0 0 1

 
u02 → a21 a22 a23 a24 a25 a26 a27 a28 a29 a210 a211
   
12 1 0 0 0 0 0 0 0 0 0 0

 15 

 0
 1 0 0 0 0 0 0 0 0 0 
 15   0 0 1 0 0 0 0 0 0 0 0 
   
 14   0 0 0 1 0 0 0 0 0 0 0 
   
 19   0 0 0 0 1 0 0 0 0 0 0 
   
 23   0 0 0 0 0 1 0 0 0 0 0 
   
 26   0 0 0 0 0 0 1 0 0 0 0 
   
 25   0 0 0 0 0 0 0 1 0 0 0 
   
 21   0 0 0 0 0 0 0 0 1 0 0 
   
 22   0 0 0 0 0 0 0 0 0 1 0 
   
   
y2 →  23   0 0 0 0 0 0 0 0 0 0 1  ← Z2 [3.50]
   
 13   1 0 0 0 0 0 0 0 0 0 0 
   
 14   0 1 0 0 0 0 0 0 0 0 0 
   
 16   0 0 1 0 0 0 0 0 0 0 0 
   
 12   0 0 0 1 0 0 0 0 0 0 0 
   

 17 

 0
 0 0 0 1 0 0 0 0 0 0 
 24   0 0 0 0 0 1 0 0 0 0 0 
   
 24   0 0 0 0 0 0 1 0 0 0 0 
   
 27   0 0 0 0 0 0 0 1 0 0 0 
   
 19   0 0 0 0 0 0 0 0 1 0 0 
   
 23   0 0 0 0 0 0 0 0 0 1 0 
15 0 0 0 0 0 0 0 0 0 0 1

 
  u0 →  u01 u02 
y1 Z1 0 [3.51]
y→ ←Z
y2 33x1
0 Z2

47
48 Biometrija

3.6.3 Matrike varianc in kovarianc

Izpeljimo strukturo varianc in kovarianc za dnevni prirast y 1 (fenotipske variance in kovariance).



V1 = var (y1 ) =  var X1 β1 + Z1 u1 + e1 =  
= cov X1 β1 , β01 X01 + cov Z1 u1 , β01 X01 + cov e1 , β01 X01 + cov X1 β1 , u01 Z01 +
| {z } | {z } | {z } | {z }
0  0  0  0  [3.52]
+cov Z1 u1 , u01 Z01 +cov e1, u01 Z01 + cov X1 β1 , e01 + cov Z1 u1 , e01
| {z } | {z } | {z }
 0 0 0
+cov e1 , e01 = Z1 var (u1 ) Z01 + var (e1 ) = Z1 G1 Z01 + R1

Matrika varianc in kovarianc za ostanek (R) je pogosto enostavna (3.53) na diagonali so variance za
ostanek, nediagonalni elementi, ki predstavljajo kovariance med dvema meritvama, pa so enake ni č.
 
 e1 →   e11 e12 e13 e14 e15 e16 e17 e18 e19 e110 e111 
0

e11 σ2e1 0 0 0 0 0 0 0 0 0 0
 e   0 σ2 0 0 0 0 0 0 0 0 0 
 12   e1 
 e   0 0 σ 2 0 0 0 0 0 0 0 0 
 13   e1 
 e   0 0 0 σ2e1 0 0 0 0 0 0 0 
 14   
   
 e15   0 0 0 0 σ2e1 0 0 0 0 0 0 
e1 →     ← R1 = Iσ2e1 [3.53]
 e16   0 0 0 0 0 σ2e1 0 0 0 0 0 
   
 e17   0 0 0 0 0 0 σ2e1 0 0 0 0 
   
 e18   0 0 0 0 0 0 0 σ2e1 0 0 0 
   
 e19   0 0 0 0 0 0 0 0 σ2e1 0 0 
   
 e110   0 0 0 0 0 0 0 0 0 σ2e1 0 
e111 0 0 0 0 0 0 0 0 0 0 σ2e1

V izjemnem primeru, ko merimo na isti živali samo eno meritev in živali med seboj niso sorodne, je tudi
matrika varianc in kovarianc za naključne vplive (G1 ) enostavna (3.54). Vedeti pa moramo, da je to prej
izjema kot pravilo!
 
 u1 →   a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111 
0

a11 σ2a1 0 0 0 0 0 0 0 0 0 0
 a   0 σ2 0 0 0 0 0 0 0 0 0 
 12   a1 
 a   0 0 σ2a1 0 0 0 0 0 0 0 0 
 13   
 a   0 0 0 σ2a1 0 0 0 0 0 0 0 
 14   
   2 
 a   0 0 0 0 σ 0 0 0 0 0 0 
u1 →  15   a1
 ← G1 = Iσ2a1 [3.54]
 a16   0 0 0 0 0 σ2a1 0 0 0 0 0 
   
 a17   0 0 0 0 0 0 σ2a1 0 0 0 0 
   
 a18   0 0 0 0 0 0 0 σ2a1 0 0 0 
   
 a19   0 0 0 0 0 0 0 0 σ2a1 0 0 
   
 a110   0 0 0 0 0 0 0 0 0 σ2a1 0 
a111 0 0 0 0 0 0 0 0 0 0 σ2a1

V tem izjemnem primeru je tudi matrika fenotipskih varianc in kovarianc V diagonalna matrika, posa-
mezni diagonalni elementi pa so vsota okoliške (σ 2e1 ) in genetske (σ2a1 ) komponente variance.
 
V1 = Z1 G1 Z01 + R1 = I σ2a1 + σ2e1 = diag σ2a1 + σ2e1 [3.55]

Za debelino hrbtne slanine imamo dvakrat toliko opazovanj: na vsaki živali po dve. Ker smo merili
z istim aparatom, delo je opravljal isti delavec..., so meritve identi čno porazdeljene (imamo samo eno

48
Biometrija 49

varianco za ostanek). Vendar pa meritvi na isti živali praviloma nista neodvisni - žival smo pitali pod
istimi pogoji, zato je tudi okolje v enaki meri ponagajalo. Če se je žival zaradi tega bolj zredila, kot bi se
pod strogimi pogoji testa, bomo namerili tudi debelejšo slanino pri obeh ponovitvah. Med ponovitvama
na isti živali torej obstaja podobnost - kovarianca. Oblika matrike varianc in kovarianc za ostanek je
odvisna od razporedive meritev v vekorju y. Če razvrstimo meritve tako, da najprej nanizamo prve
meritve na vseh živalih in nato dodamo še druge meritve (prvi vektor za debelino hrbtne slanine v ena čbah
(3.31), dobimo matriko iz enačbe (3.42). Ko pa razvrstimo ponovitvi po parih - znotraj živali (drugi
vektor za debelino hrbtne slanine v enačbah (3.31)), pa dobimo matriko iz enačbe (3.43) in (3.44).
   
Iσ2e2 Iσe22 σ2e2 σe22
R2 = = ⊗ I11 = R0 ⊗ I11 [3.56]
Iσe22 Iσ2e2 22x22
σe22 σ2e2 2x2

49
h i
..

50
e02 →
e21 1 e22 1 e23 1 · · · e29 1 e2101 e2111 . e21 2 e22 2 e23 2 · · · e29 2 e2102 e2112
2 ..
 σ e2 . σe22 
 .. 
 

 σ2e2 . σe22 

e21 1  .. 
 σ2e2 . σe22 
 e22 1   
   .. .. .. 

 e23 1 



. . . 

 ..   .. 
 .   σ2e2 . σe22 
   .. 
 e29 1   
   σ2e2 . σe22 
 e2101   .. 
   
   σ2e2 . σe22 
e2 →  e2111   ..  ← R2 [3.57]
 ···   ··· ··· ··· ··· ··· ··· ··· . ··· ··· ··· ··· ··· ··· ··· 
   
 e21 2   .. 
   σ . σ2e2 
 e22 2   e22 
   .. 
 e   σe22 . σ2e2 
 23 2   
 ..   .. 
 .   σe22 . σ2e2 
   
50

 e   .. .. .. 
 29 2   . . . 
 e   
2102  .. 
e2112 
 σe22 . σ2e2 

 .. 

 σe22 . σ2e2 

.. 2
σe22 . σ e2

Biometrija
h i
.. . .. . .. .. ..

Biometrija
e02 → e211 e212 . e22 1 e22 2 .. e23 1 .e23 2 .. · · · · · · . e29 1 e29 2 . e2101 e2102 . e2111 e2112
 .. .. .. .. .. .. 
σ2e1 σe22 . . . . . .
 .. .. .. .. .. .. 
 
 σe22 σ2e1 . . . . . . 
 .. . .. . .. .. 
 
   ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 
e211  .. . .. .. .. .. 
 

 e212 
  . σ2e1 σe22 .. . . . . 
   .. . .. .. .. .. 
 ······   . σe22 σ2e1 .. . . . . 
   
 e22 1   .. . .. . .. .. 
   ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 
 e22 2  



   .. .. . .. .. .. 
 ······   . . σ2e1 σe22 .. . . . 
 e23 1   .. .. .. .. .. .. 
   2 
   . . σe22 σ e1 . . . . 
 e23 2   
  .. . .. . .. ..
 ······  
 ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 

 ..   .. .. .. . . .. .. .. 
   .  [3.58]
 .   . . . . . .  ← R2
e2 →  ..   .. .. .. . . .. .. .. 
 .   . . . . . . . 
 
51

   
 ······   .. . .. . .. .. 
  
 ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 

 e29 1   .. .. .. .. . .. 
   σ2e1 σe22 .. 
 e29 2  
. . . . .

   .. .. .. .. . .. 
 ······   . . . . σe22 σ2e1 .. . 
   
 e2101   .. . .. . . .. 
   ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. · · · · · · .. ··· ··· . ··· ··· 

 e2102 
  
 .. .. .. .. .. . 

 ······ 
  . . . . . σ2e1 σe22 .. 
   
e2111  .. .. .. .. .. . 
 . . . . . σe22 σ2e1 .. 
e2112  .. . .. . .. . 
 ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . · · · · · · .. ··· ··· 
 
 .. .. .. .. .. .. 
 . . . . . . σ2e1 σe22 
 
.. .. .. .. .. ..
. . . . . . σe22 σ2e1

51
52 Biometrija

 
σ2e2 σe22
R2 = I11 ⊗ = I11 ⊗ R0 [3.59]
σe22 σ2e2 2x2

Ker so živali nesorodne, za debelino hrbtne slanine pa želimo samo eno plemensko vrednost, je matrika
varianc in kovarianc za direktni aditivni vpliv enostavna, kot jo prikazujemo v (3.60).

G2 = I11 σ2a2 [3.60]

Sedaj pa izračunajmo še matriko fenotipskih varianc in kovarianc V 2 . Vzemimo primer, ko so nanizane


najprej prve meritve in nato še ponovitve. Rezultat (3.61) je izjemoma, zaradi že omenjenih predpostavk,
blokdiagonalna matrika.
   
I11   I11 I11
V2 = Z2 G2 Z02 + R2 = I11 σ2a2 I11 I11 + R0 ⊗ I11 = σ2a2 + R0 ⊗ I11 =
 2  I11
   2 I 11 I 11  [3.61]
σ a2 σ2a2 σ2e2 σe22 σa2 + σ2e2 σ2a2 + σe22
= ⊗ I11 + ⊗ I11 = ⊗ I11 = V0 ⊗ I11
σ2a2 σ2a2 σe22 σ2e2 σ2a2 + σe22 σ2a2 + σ2e2

Sedaj pa za vajo ponovimo še izračun kovariance med meritvami za dnevni prirast y 1 in ostanki e1 ter
med meritvami y1 in slučajnim vplivom u1 .
  
cov y1 , e01 = cov X1 β1 + Z1 u1 + e1 , e01 = Z1 cov u1 , e01 + var (e1 ) = R1 [3.62]

    
cov y1 , u01 = cov X1 β1 + Z1 u1 + e1 , u01 = cov X1 β1 , u01 + cov Z1 u1 , u01 + cov e1 , u01
[3.63]
= Z1 cov u1 , u01 = Z1 var (u1 ) = Z1 G1 = C1

Pričakovane vrednosti ter variance in kovariance za slu čajne vplive so pogosto predstavljene v združeni
obliki. V nasednjih enačbah smo prikazali model (3.34) z obema lastnostima.
   
u1 0
E  e1  =  0  [3.64]
y1 X1 β1

  
u1 G1 0 G1
var  e1  =  0 R1 R1  [3.65]
y1 G1 Z01 R1 Z1 G1 Z1 + R 1
0

Vajo ponovite še za debelino hrbtne slanine in za model z obema lastnostima skupaj! Potrebovali bomo še
rezultate iz naslednje razpredelnice. Pripišite rezultate, da jih ne bomo kasneje iskali! Nato pa sestavite
enačbo za pričakovane vrednosti po zgledu (3.62) in prikažite strukturo varianc in kovarianc po zgledu
(3.63).

cov y2 , e02 =
cov y2 , u02 =
cov (y, e0 )=
cov (y, u0 )=

cov y, e02 = 
cov y1 , u02 =
cov y2 , e01 =
cov y2 , u01 =
cov y1 , y02 =
cov y2 , y01 =

52
Biometrija 53

Pri dvolastnostnem modelu splošno obliko enačb še razčlenite, da bodo vidne povezave med lastnostima.
Izpopolnite naslednji dve enačbi!
 
u1  
 u2  ···············
   
 e1   · · · · · · · · · · · · · · · 
E   
 e2  =  · · · · · · · · · · · · · · · 
   ··············· 
 y1 
···············
y2
 
.. .. .. .. ..
 . . . . . 
 . . . . . 
 · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · 
 
 .. .. .. .. .. 
 . . . . . 
 .. .. .. .. .. 
   
u1  ······ . ······ . ······ . ······ . ······ . ······ 
 
 u2   .. .. .. .. .. 
   . . . . . 
 e1   .. .. .. .. .. 
var  =
 e2   · · · · · · . · · · · · · . · · · · · · . · · · · · · . · · · · · · . · · · · · · 

   .. .. .. .. .. 
 y1   . . . . . 
 
y2  . . . . . 
 · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · 
 
 . . . . . 
 .. .. .. .. .. 
 
 . . . . . 
 · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · 
 
.. .. .. .. ..
. . . . .

3.7 Determinanta

3.8 Inverzna matrika

3.9 Splošna inverza

Vzemimo, da imamo sistem enačb Ax = r. Rešitev za vektor neznanih parametrov x dobimo tako, da od
spredaj množimo z A−1 , kar lahko storimo ob pogoju, da ima matrika A poln rang. Vendar pa obstajajo
številni primeri, ko to ne drži: rang matrike A je manjši od reda matrike, determinanta matrike je enaka
nič. Sistem enačb v tem primeru nima ene same rešitve. Če ima rešitev, jih ima neskončno mnogo. Eno,
izbrano rešitev pa lahko dobimo tako, da uporabimo splošno inverzo. Ozna čili jo bomo z A− . Izbrali pa
bomo tisto, pri kateri velja: AA− A = A. Praviloma pa niti AA− niti A− A nista enaka identični matriki I.
Matrika A ima neskončno mnogo splošnih inverz, če ima vsaj eno. Pri vsaki možni rešitvi sistema
uporabimo drugo splošno inverzo. Poglejmo pa si enostaven postopek, da najdemo prvo splošno inverzo.
    
3 −2 1 x1 2
 −2 0 1   x2  =  1  [3.66]
1 −2 2 x3 3

• v matriki A poiščite vse odvisne vrstice, jih napolnite z ničlami. Z ničlami napolnimo tudi stolpec.
Pri simetričnih matrikah izberemo isto vrstico in isti stolpec.
         
3 −2 0 3 0 1 0 0 0 0 −2 1 3 0 1
 −2 0 0  ali  0 0 0  ali  0 0 1  ali  0 0 1  ali  −2 0 1  . . .[3.67]
0 0 0 1 0 2 0 −2 2 0 0 0 0 0 0

• ostane vam samo toliko neodvisnih vrstic in stolpcev, kot je rang sistema

53
54 Biometrija

• iz neodvisnih vrstic in stolpcev nastavite podmatriko in poiš čite njeno inverzo


         
3 −2 3 1 0 1 −2 1 3 1
... [3.68]
−2 3 1 3 −2 −2 0 1 −2 1
         
1 0 2 1 2 −1 1 −2 −1 1 1 −1 1 1 −1
− − ... [3.69]
4 2 3 5 −1 3 2 2 0 2 0 −2 5 2 3

• inverzi dodajte izpuščene vrstice in stolpce, ki so polni samih ničel


         
0 2 0 2 0 −1 0 0 0 0 1 −1 1 0 −1
1 1 1 1 1
−  2 3 0  0 0 0  0 2 −1  0 0 −2  2 0 3  . . .[3.70]
4 5 2 2 5
0 0 0 −1 0 3 0 2 3 0 0 0 0 0 0

Tako pripravljene inverze lahko uporabimo pri reševanju sistema ena čb. Rešitev lahko dobimo neskončno
mnogo, objavili pa bomo le tisto, kar je enako pri vseh rešitvah - ocenljive funkcije.

3.10Direktna vsota
 
A 0
A⊕B = [3.71]
0 B

Možni so različni zapisi.


 
Xi 0 · · · 0
k  0 Xi · · · 0 
 
Σ⊕i Xi = Σ+i Xi = ⊕ Xi = Xi ⊕ Xi ⊕ · · · ⊕ Xi =  .. .. . . .  [3.72]
i
 . . . .. 
0 0 · · · Xi

Za vključene matrike sploh ni potrebno, da bi bile istega ranga.



x0 0 0
x0 ⊕ X ⊕ z =  0 X 0  [3.73]
0 0 z

Za matrike odgovarjajočega ranga drži


     
A 0 C 0 A+C 0
(A ⊕ B) + (C ⊕ D) = + = = A+C⊕B+D [3.74]
0 B 0 D 0 B+D

Če je Ai polnega ranga, velja naslednje:


 −1  
Ai 0 · · · 0 A−1
i 0 ··· 0
 ⊕ −1 
 0 Ai · · · 0 


 0 A−1
i ··· 0 

Σi Ai = .. .. . . .  = .. .. .. ..  = Σ⊕i A−1
i [3.75]
 . . . ..   . . . . 
0 0 · · · Ai 0 0 · · · A−1
i

Za determinanto pa velja:

k
⊕ Y
Σ Ai = |Ai | [3.76]
i
i=1

54
Biometrija 55

3.11 Kronecker produkt

Vzemimo primer, kjer imamo dve lastnosti (y in z) za vsako od dveh živali. Če lahko zapise opišemo z
linearnim modelom, imamo
    
  
y1 µy uy1 ey1
 z2   µz   uz1   ez1 
   +    [3.77]
 y3  =  µy   uy2  +  ey2 
z4 µz uz2 ez2
   
uy1 σ2a1 σa12 a12 σ2a1 a12 σa12
 uz1   σa12 2
σa2 a12 σa12 a12 σ2a2 
var  =
 uy2   a12 σ2
 [3.78]
a1 a12 σa12 σ2a1 σa12 
uz2 2
a12 σa12 a12 σa2 σa12 σ2a2
    2  
σ2a1 σa12 σa1 σa12  
 1 a
σa12 σ2a2  12  σa12 σ2a2   1G0 a12 G0

=   = A ⊗ G0 [3.79]
σ2a1 σa12 σ2a1 σa12  = a12 G0 1G0
a12 1
σa12 σ2a2 σa12 σ2a2

Matrika A predstavlja matriko sorodstva. Element a 12 je koeficient sorodstva med obema živalima. Ma-
trika G0 vsebuje genetske variance in kovariance med lastnostima, merjenima na isti živali.
Poglejmo sedaj še varianco za ostanek (3.80)! Lastnosti merjene na isti živali so med se
   2 
ey1 σe1 σe12 0 0
 ez1   σe12 σ2 0 0 
var   
 ey2  =  0
e2  [3.80]
0 σ2e1 σe12 
ez2 0 0 σe12 σ2e2
     
σ2e1 σe12 σ2e1 σe12  
 1 σe12 σ2 0
σe12 σ2e2   1R 0 0R 0
=  2 e2   = = I ⊗ R0 = R [3.81]
 σe1 σe12 σ2e1 σe12  0R0 1R0
0 1
σe12 σ2e2 σe12 σ2e2

Navedimo še nekaj lastnosti Kronecker produkta. Vzemimo matriki A pxq in Bmxn .

A ⊗ B = C pm×qn [3.82]

(A ⊗ B)0 = A0 ⊗ B0 [3.83]

x0 ⊗ y = yx0 = x0 ⊗ x0 [3.84]

k ⊗ A = kA = A ⊗ k [3.85]
   
A1 A2 ⊗B= A1 ⊗ B A 2 ⊗ B [3.86]
   
A⊗ B1 B2 , A ⊗ B1 A ⊗ B2 [3.87]

Če obstajajo produkti, velja:

(A ⊗ B) (X ⊗ Y) = AX ⊗ BY [3.88]

55
56 Biometrija

(A ⊗ B)−1 = A−1 ⊗ B−1 [3.89]

rang (A ⊗ B) = rang (A) • rang (B) [3.90]

tr (A ⊗ B) = tr (A) • tr (B) [3.91]

|Mm×m ⊗ Nn×n | = |M|m |N|n [3.92]

Lastna_vrednost (A ⊗ B) = Lastna_vrednost (A) • Lastna_vrednost (B) [3.93]

(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C) [3.94]

kA ⊗ B = A ⊗ kB = k (A ⊗ B) [3.95]

(A + B) ⊗ C = (A ⊗ C) + (B ⊗ C) [3.96]

3.12 Odvajanje matrik

Pri odvajanju uporabimo splošni model (3.97), poljubno vrstico i pa bomo prikazovali na dva na čina, kot
(3.98) ali (3.99).

y = Xβ + Zu + e [3.97]

y1 = x0i β + z0i u + e0i [3.98]

p
X q
X
yi = xi j β j + zi j u j + e i [3.99]
j=1 j=1

3.12.1 Odvod matrike po skalarju

Vzemimo matriko Y reda m × n, katere elementi so funkcije skalarja z. Potem je:

   red (Y) = m × n
∂Y ∂yi j
= =A red (z) = 1 × 1 [3.100]
∂z ∂z
red (A) = m × n

3.12.2 Odvod skalarja po matriki

Naj bo skalar h (X) funkcija matrike X.


   

 ∂h (X) ∂h (X) 


 ··· 

 ∂x11 ∂x1n 
∂h (X)  . ..

= .
. . =A [3.101]
∂X 
   


 ∂h (X) ∂h (X) 


 ··· 

∂xm1 ∂xmn

red (X) = m × n
red (h (X)) = 1 × 1 [3.102]
red (A) = m × n

56
Biometrija 57

3.12.3 Odvod vektorja po vektorju


. . . i
∂y h ∂y ∂y ∂y
= · · · = [3.103]
∂z0 ∂z1 ∂z2 ∂zn
 . . . 
∂y1 ∂y1 ··· ∂y 1

 .∂z1 .∂z2 .∂zn 


 ∂y2 ∂y2 ∂y 2 
 ··· 
=  ..
∂z1
..
∂z2
..
∂zn 
 [3.104]
 .. 
 .. .. . .
. 
∂yk ∂yk ··· ∂yk
∂z1 ∂z2 ∂zn k×n

red (z0 ) = 1 × n
red (y) = k × 1 [3.105]
red (A) = k × n

Vzemimo sedaj model (3.97) in odvajajmo y najprej na β 0 in nato še na β.


 . . . 
∂y ∂y ∂y ∂y
= ··· = [3.106]
∂β0 ∂β1 ∂β2 ∂β p

 . . . 
∂y1 ∂y1 · · · ∂y1  
 .∂β p  x11 x12 · · · x1p
 ∂y . .∂β2
∂β1

 2 ∂y2 · · · ∂y2   x21 x22 · · · x2p 
 ∂β p  =  

.
∂β1
.
∂β2
.
  .. .. . . ..  = X [3.107]
 .. .. .. .   . . . . 
 . . . .. 
  xn1 xn2 · · · xnp
∂yn ∂yn · · · ∂yn
∂β1 ∂β2 ∂β p

red (y) = n × 1
red β0 = 1 × p [3.108]
red (X) = n × p

Poglejmo si tipični element matrike odvodov (3.109) in nato še primer za prvo opazovanje in drugi
parameter v modelu (3.110).
P Pq 
p
∂yi ∂ j=1 x i j β j + j=1 z i j u j + e i
= = xik [3.109]
∂βk ∂βk
P Pq 
p
∂yi ∂ x
j=1 1 j j β + z
j=1 1 j j u + e 1
= = x12 [3.110]
∂β2 ∂β2
 .   . . . 
∂y ∂y1 ∂y2 · · · ∂yn  
 .∂β1   .∂β1  x11 x12 · · · x1n
  ∂y1 . 1 ∂y2 . 1
∂β ∂β
 ∂y 
∂y     · · · ∂yn   x21 x22 · · · x2n 
∂β2  =  ∂β2  =  
= .   .
∂β2
.
∂β2
.   .. .. .. .  = X0 [3.111]
∂β 
 ...
 
  .. .. ..
. ..   .
 . . .. 
 ∂y   ∂y . ∂y2
. .  x p1 x p2 · · · x pn
1 · · · ∂yn
∂β p ∂β p ∂β p ∂β p

red (y) = n × 1
red (β) = p × 1 [3.112]
red (X0 ) = n × p

∂Zu
= Z0 [3.113]
∂u

57
58 Biometrija

3.12.4 Odvajanje produkta matrik

V skalarni algebri velja

   
∂uv ∂u ∂v
= v+u [3.114]
∂x ∂x ∂x

V skalarni algebri velja isto pravilo najdemo tudi v matri čni algebri (3.115). Matrika U je reda m × n ter
matrika V reda n × q. Elementi matrik so funkcije skalarne spremenljivke x.

   
∂UV ∂U ∂V
= V+U [3.115]
∂x ∂x ∂x

PRIMER:
V sistemu normalnih enačb pri metodi najmanjših kvadratov (3.116) dobimo vsoto kvadratov za model
z izrazom (3.117).
b = X0 y
X0 Xβ [3.116]
0
b b
β X0 Xβ [3.117]

Odvajajmo vsoto kvadratov za model na eno izmed ocen (npr. β i ):

b0 X0 Xβ
∂β b ∂βb0 X0 0 ∂Xβ b
= b+b
Xβ β X0 [3.118]
∂β̂i ∂β̂i ∂β̂i
Poskusimo sedaj rešiti samo košček problema:
 
x1i
∂Xβ b  
 x2i  red (ti ) = n
=  .  = ti [3.119]
∂β̂i .
 .  i = 1, 2, . . . , p
x4i

Sedaj bo pa že šlo:

∂β0 XXβ
=
∂βi

t0i Xβ b0 X0 ti = 2t0 Xβ
b +β b
| {z } i
= | {z } [3.120]
skalar skalar

Še malo posplošimo:

   
2t 0 Xβb t01
0
b X0 Xβ
b  1
∂β ..   ..  Xβ
.  b = 2X Xβ
0 b
= .  = 2 [3.121]
b
∂β
2t0p Xβb t0p

58
Biometrija 59

PRIMER:
Skupno vsota kvadratov (total sum of square, TSS) za opazovanja lahko odvajamo na dva na čina. TSS
je skalar, vektor opazovanj y pa stolpični vektor reda n × 1, zato bo rezultat tudi stolpični vektor istega
reda. Ker vemo, da je TSS vsota kvadratov za opazovanja, lahko uberemo naslednjo pot.
 P . 
∂ y21
 
 P .∂y1  2y1
 ∂ y2 
∂y0 y  
2   2y2 
∂y2   
=
.  =  ..  = 2y [3.122]
∂y  ..   . 
 
 P 2.  2yn
∂ yn
∂yn

Po postopku za odvajanje produkta matrik po sklarju, moramo odvod najprej razbiti tako, da dobimo v
imenovalcu skalarje (3.123). Nato vsako vrstico odvajamo, kot to prikazuje (3.124). Pri tem si poma-
gamo še z enačbo (3.125). Dobljene vrednosti za posamezne vrstice vstavljamo nazaj v ena čbo (3.123).
Rezultat je podoben kot pri skalarni algebri.
 ∂y0 y   
∂y1 2y1
 ∂y0 y   
 ∂y2    2y2
 ..    ..
∂y0 y 
 .
 
   .
 = 2y
= ∂y0 y = [3.123]
∂y    2yi 
 ∂yi   . 
 ..   . 
 .  . 
∂y0 y 2yn
∂yn

∂y0 y ∂y0 ∂y
= y + y0 = t0i y + y0 ti = yi + yi = 2yi [3.124]
∂yi ∂yi ∂yi

∂y0  
= 0 0 · · · 1i · · · 0 = t0i [3.125]
∂yi

3.12.5 Odvajanje inverze

Vzemimo matriko M s polnim rangom in inverzno matriko M −1 . Hitro lahko ugotovimo, da velja (3.126),
saj identična matrika ni funkcija skalarne spremenljivke z.

∂MM−1 ∂I
= =0 [3.126]
∂z ∂z

Če bi zadevo poskusili rešiti na način, ki smo ga obdelali v prejšnjem poglavju (3.127), nam ostane
neznanka prav odvod inverzne matrike M −1 po skalarni spremenljivki z. Rezultat pa itak že poznamo.

∂MM−1 ∂M −1 ∂M−1
= M +M =0 [3.127]
∂z ∂z ∂z

Sedaj pa nam ostane samo, da uganemo neznani odvod. Pravzaprav bomo (3.128) samo preoblikovali:
poznani prvi člen bomo prenesli na drugo stran enačbe (pridobimo negativen predznak) in obe strani od
spredaj množili z inverzno matriko M −1 .

∂M−1 ∂M −1
= −M−1 M [3.128]
∂z ∂z

59
60 Biometrija

3.12.6 Odvajanje splošne inverze

Splošna inverza je vsaka matrika G, ki zadovolji:

AGA = A [3.129]

Matrika A je lahko katerakoli matrika, lahko je torej tudi vrsti čni ali stolpični vektor. Naj bosta matriki
A in G funkciji skalarja x. Sedaj pa poiščimo odvod matrike A po x-u.

∂A ∂AGA ∂A ∂GA ∂A ∂G ∂A
=− = GA + A = GA + A A + AG [3.130]
∂x ∂x ∂x ∂x ∂x ∂x ∂x

Poskusimo sedaj množiti od spredaj z AG in od zadaj z GA.

∂A ∂A ∂G ∂A
AG GA − AG GA = A A + AG GA [3.131]
∂x ∂x ∂x ∂x

∂G ∂A
0=A A + AG GA [3.132]
∂x ∂x

∂G ∂A
A A = −AG GA [3.133]
∂x ∂x

Rezultat je podoben kot (3.128), če je G = A−1 .

3.12.7 Odvajanje funkcije determinante

Za matriko A s polnim rangom velja (Searle,1982)

∂ |A| −1
= |A| A0 [3.134]
∂A

∂ln |A| 1 ∂ |A| |A| (A0 )−1 −1


= • = = A0 [3.135]
∂A |A| ∂A |A|

∂ln |V|     
= tr ∂ln|V|
∂x = tr ∂ln|V|
∂V •
∂V
∂x = tr V−1 ∂V
∂x
| ∂x
{z } [3.136]
skalar

3.12.8 Chain-ovo pravilo

3.13 Sled matrike

Definicija: Sled matrike (ang. trace) je vsota diagonalnih elementov matrike.

 X
A = ai j ⇒ tr (A) = ai j [3.137]

Zakon ciklične komutativnosti

  
tr A pxn Bnxm Cmxp = tr Cmxp A pxn Bnxm = tr Bnxm Cmxp A pxn [3.138]

60
Biometrija 61

Sled skalarja je skalar.


tr σ2e = σ2e [3.139]

Sled vsote matrik

tr (A + B) = tr (A) + tr (B) [3.140]

Sled produkta matrike s skalarjem


tr (R) = tr I4 σ2e = σ2e tr (I4 ) = 4σ2e [3.141]

Matematično upanje in sled matrike

E (tr (A)) = tr (E (A)) [3.142]

tr (B) = V sota lastnih vrednosti (eigenvalues) matrike B [3.143]

P
∂tr (B) ∂ ni=1 bii
= =I [3.144]
∂B ∂B

∂tr (AB) ∂tr (BA)


= = A, [3.145]
∂B ∂B

∂tr (ABC) ∂tr (BCA)


= = A , C, [3.146]
∂B ∂B

∂tr (B, AB)


= BA + A, B [3.147]
∂B

∂tr (B, AB)


A = A, ⇒ = 2AB [3.148]
∂B

n
! n
X X
Etr (X) = E xii = E (xii ) = trE (X) [3.149]
i=1 i=1

61
62 Biometrija

PRIMER: Opravili smo dve meritvi na dveh nesorodnih živalih. Rezultati so v naslednji tabeli. Nasta-
vimo matriko varianc in kovarianc za aditivni genetski vpliv (G), ostanek (R) in opazovanja (V)! Pri tem
predpostavimo naslednji model. Izračunajmo tudi sledi matrik G, R in V!
a1 a2
y11 y21
y12 y22

yi j = µ + a i + e i j
 
ai ∼ IID 0; σ2a ; ei j ∼ IID 0; σ2e
   2 
e11 σe
 e12   σ2e 
R = Var  = 
 e21   σ2e 
e22 σ2e
   
a1 σ2a
G = Var =
a2 σ2a
  2  
y11 σe + σ2a σ2a
 
y12    σa2 σe + σ2a
2 
V = R + ZGZ, = Var (y) = Var  = 
 y21   σ2e + σ2a σ2a 
y22 σ2a σ2e + σ2a

tr (R) = tr I4 σ2e = σ2e tr (I4 ) = 4σ2e
X
tr (G) = σ2a = 2σ2a
X  
tr (V) = σ2e + σ2a = 4 σ2e + σ2a

Slednje lahko izračunamo tudi po naslednjem postopku.



tr (V) = tr (R + ZGZ, ) = tr (R) + tr (ZGZ, ) = 4σ2e + tr Z, ZI2 σ2a = 4σ2e + 4σ2a

62
Biometrija 63

PRIMER:

y = Xβ + Zu + e

E (yi ) = xi β

Var (yi ) = σ2e + σ2u

Po definiciji je

V = E (yy, ) − E (y) E (y, )

E (yy, ) = V + E (y) E (y, )


   
E (yy, ) = E (tr (yy, )) = E tr (yy, ) = tr E (yy, ) =
!
β, X, Xβ
= tr (V + Xββ X ) = tr (V) + tr | {z }
, ,

P  skalar

= n σ2e + σ2u + β, X, Xβ = n σ2e + σ2u + β, X, Xβ
   
E (yy, ) = E (Xβ+Zu + e) (Xβ+Zu + e), = E (Xβ+Zu + e) (β, X, + u, Z, + e, )
= E (Xββ, X, ) + E (Zuβ, X, ) + E (eβ, X) + E (Xβu, Z, ) + E (Zuu, Z, ) +
+E (eu, Z, ) + E (Xβe, ) + E (Zue, ) + E (ee, )
= ZGZ, +R + Xββ, X, = V + Xββ, X,

3.14 KVADRATNE OBLIKE (QUADRATIC FORM)

Splošna oblika kvadratne oblike (quadratic form) je y , Qy. Matriko Q imenujemo matriko kvadratne
oblike. Predpostavimo lahko, da je simetrična. V primeru, da Q ni simetrična, lahko poiščemo drugo
matriko kvadratne oblike po enačbi (3.150).
 
Q + Q,
[3.150]
2

Za odvisne spremenljivke (opazovanja) v vektorju y naj velja, da so porazdeljene po naslednjem poraz-


delitvenem zakonu:

y ∼ (Xβ, V) [3.151]

Pripravimo si še nekaj enačb

V = var (y) = var (y − Xβ) = E (y − Xβ) (y − Xβ), =


= E (yy, −yβ, X, −Xβy, + Xββ, X, ) = yy, − (Ey) β, X, − Xβ (Ey, ) + Xββ, X, = [3.152]
= yy, −Xββ, X, −Xββ, X, +Xββ, X, = yy, −Xββ, X,

yy, = V + Xββ, X, [3.153]

E (yy, ) = E (V + Xββ, X, ) = E (V) + E (Xββ, X, ) = V + Xββ, X, [3.154]

V statistiki kvadratne oblike predstavljajo matrični zapis za vsote kvadratov. Da ocenimo posamezne
komponente variance, vsoto kvadratov izenačimo s pričakovano vrednostjo za vsoto kvadratov, zato si

63
64 Biometrija

oglejmo, kako dobimo pričakovane vrednosti.

E (y, Qy)        
| {z } = E tr (y, Qy) = E tr (Qyy, ) = tr E (Qyy, ) = tr QE (yy, ) =
skalar  
= tr Q (V + Xββ, X, ) = tr (QV) + tr (QXββ, X, ) = [3.155]
(β, X, QXβ)
= tr (QV) + tr | {z } = tr (QV) + β, X, QXβ
skalar

To velja ne glede na to, ali je porazdelitev normalna. Če pa je porazdelitev normalna, pa velja tudi
naslednje.

var (y, Qy)


1. | {z }
skalar

2.

PRIMER:
yi = µ + e i

• Vsota kvadratov opazovanj


X
y2i = yy,

Q = I; rank(Q) = n

• Vsota kvadratov za model


 P 2 P 2
2 yi yi 1 1
nȳ = n = = y, 1 • 1 , y = y, Jn y
n n n n

Jn
Q= ; rank(Q) = 1
n

• Nepristranska ocena variance:


P P P   
(yi − ȳ)2 y2i − ( yi ) n y, y − 1n y, Jn y 1 , J
= = = y I− y
n−1 n−1 n−1 n−1 n
 
1 J
Q= I− ; rank(Q) = n − 1
n−1 n

64
Biometrija 65

PRIMER:
yi j = µ + A i + e i j ; i = 1, A; j = 1, N; n = NA
 
y, = y,1 y,2 · · · y,A

Vir variabilnosti Stopinje prostosti (d.f.) Vsota kvadratov (SS) Povpre čni kvadrat (SS/d.f.)
µ 1 CF - za povprečje CF/1
Vpliv A A-1 CBSS - med skupinami CBSS/(A-1)
Ostanek A(N-1) ESS - za ostanek ESS/(A(n-1))
Skupaj AN TSS - skupna

• Skupna vsota kvadratov


XX
TS S = y2ji = y, y
i j

Q = I; rank(Q) = AN

• Vsota kvadratov za “povprečje”

1 ,
CF = y JNA y
AN

JAN
Q= ; rank(Q) = 1
AN

• Vsota kvadratov UBSS:


 2 
1 P A P N 2
1 PN 2 P
N
2 P
N
UBS S = N i j yi j = N j y1 j + y
j 2j + ··· + j yA j
1
 
= N y1 1 N
,
· 1,N y1 + y,2 1N ·1N y2
+ ··· + ,
y,A 1N · 1,N yA  
1N · 1,N y1
  1N · 1,N  y2 
1 ,   
= N y,1 y,2 · · · yA  ..  .. 
 .  . 
P  1N · 1,N yA
⊕ JN
= y, i N y


!
X JN
Q= ; rank(Q) = A
N
i

• Vsota kvadratov CBSS:



! ⊕
!
X JN 1 , 1 X 1
CBS S = UBS S − CF = y, y− y JAN y = y, JN − JAN y
i
N AN N i AN


!
1 X 1
Q= JN − JAN ; rank(Q) = A − 1
N AN
i

• Vsota kvadratov za ostanek

ES S = T S S − MS S

65
66 Biometrija

3.15 CHOLESKY DEKOMPOZICIJA (KVADRATNI KOREN)

66
Biometrija 67

Poglavje 4

OCENJEVANJE IN INTERPRETACIJA PARAMETROV


V tem poglavju se bomo seznanili s statističnimi metodami za oceno lokacijskih parametrov in krite-
riji oziroma pogoji, ključnimi za izbiro metode. Izbor metode je v največji meri odvisen od strukture
podatkov in porazdelitve lastnosti.
Za oceno parametrov so nam na voljo številne metode. Izberemo lahko enostavna povpre čja, metodo
najmanjših kvadratov, tehtanih najmanjših kvadratov, splošnih najmanjših kvadratov, metodo najve čje
zanesljivosti, itd...

4.1 Kriteriji za izbor metode

4.1.1 Struktura podatkov

Uravnoteženi in neuravnoteženi poskusi


Pri uravnoteženih poskusih, kamor lahko štejemo tudi skrbno na črtovane poskuse po posebnih shemah
(split-plot, latinski kvadrat...) lahko obdelamo z enostavno metodo, ki je znana pod imenom analiza
variance z oznako ANOVA. Uravnoteženi poskusi so v živinoreji redki. V poskusih, ki jih izvajamo na
kmetijah ali celo večjih obratih, smo vezani na velikost obratov in strukturo črede, ki jo imajo. Le redko
imamo priližnost, da je hlev prazen in naselimo tiste živali, ki jih želimo
Vsekakor morajo biti ti poskusi izvedeni korektno. Ne smemo si zatiskati o či pred pomembnimi vplivi,
ki jih nismo mogli izničiti ali kontrolirati. Sorodne živali, če jih imamo, morajo biti uravnoteženo po-
razdeljene po skupinah. Če imamo v poskusu s prašiči štiri skupine, bomo v poskus vključili nesorodne
živali ali pa vzeli štiri prašiče iz istega gnezda in v vsako skupino dali po enega. Imamo sicer še nekaj
možnosti, vseh niti ne moremo našteti. Paziti moramo, da so "kršene" predpostavke uravnoteženo po-
razdeljene med skupinami. To pravilo je na videz v nasprotju z zahtevo po naklju čni porazdelitvi živali
oziroma enot v poskus. Tisto, kar poskus moti, to pa so "nezaželeni" vplivi in "kršene" predpostavke,
moramo načrtno izbrati in porazdeliti po skupinah. Le tako lahko zagotovimo, da ne okužimo tistih vpli-
vov, ki jih moramo proučiti. To velja pravzaprav za vse poskuse, tudi za tiste, za katere že vnaprej vemo,
da bomo uporabili zahtevnejšo metodo za obdelavo podatkov. Nobena metoda ne more nadoknaditi slabo
zastavljenega poskusa!

Naključni in selekcionirani vzorci

Pri običajnih poskusih bomo živali ali kakšne druge poskusne enote praviloma naklju čno uvrstili v sku-
pine. To pa vedno ni mogoče. Eden od razlogov je etične narave (primer 4.1). V živinoreji se pogosto
srečamo z obilico proizvodnih podatkov zbranih v dokaj urejenih informacijskih sistemih. Ti podatki
niso naključno izbrani: to so proizvodni rezultati živali na kmetijah, praviloma vseh.
Neumnost bi bilo iz teh podatkov izbrati naključni vzorec, da bi zadovoljili pogoje za obdelavo. Prav
gotovo vsi podatki več povedo, kot vzorec. Imajo pa kmetje različno število živali, različnih genotipov,
različno kvalitetne silaže, različen interval med molžama itd. Še najbolj problematično pa je, da potomce
odbirajo od najboljših krav in odličnih bikov. Potomci torej niso naključni: ker smo v teorijo dedovanja
prepričani, morajo biti tisti, ki so namenjeni proizvodnji in reprodukciji, boljši.
Primer 4.1: Ko želimo proučiti neko lastnost pri zdravih in bolnih živalih, bi naklju čni izbor pomenil,
da izberemo za poskus zdrave živali in jih okužimo. To bomo naredili le izjemoma, z dobro utemelje-
nim razlogom. Rezultati poskusa morajo biti dovolj tehtni, da za to žrtvujemo zdravje živali. Postopali
68 Biometrija

bomo pravzaprav drugače. Poiskali bomo obolele živali iz iz njih nastavili eno skupino, v drugo pa dali
zdrave. Ali je tu kršeno pravilo o naključnih vzorcih? Pravzaprav ne! Zdravstveno stanje je vpliv in tega
izberemo načrtno. V ozadju belezni se lahko sicer skriva marsikaj, da so te živali obolele, druge pa ne.
Lahko je to izpostavljenost povzročiteljem bolezni, kar samo po sebi ne bi dalo izkrivljenih rezultatov.
Lahko so bile živali izpostavljene dodatnim stresom, med njimi pa so lahko take, ki bi motile poskus.
Vzemimo, da so bile obolele živali preslabo krmljene, zdrave pa ravno prav. V tem primeru bodo proi-
zvodni rezultati morda bolj posledica slabe prehrane kot pa bolezni in poskus ne bi dal pravih rezultatov.
Tečav, torej tudi poskusa, se moramo lotiti na povsem drugem koncu. Bolezen je torej posledica, prav bi
torej bilo, da bi bila objekt proučevanja, naša opazovana lastnost. Odpraviti bo potrebno vzroke, da je do
bolezni sploh prišlo. Bolj bi bilo torej primerno, da prou čujemo, kako prehrana vpliva na pojav bolezni...

4.1.2 Porazdelitev

Porazdelitev preverjamo za vse naključne vplive, ostanek in opazovanje. Najprej preverimo porazdelitev
za opazovanja, ker pač ostankov še nimamo. Vsekakor pa pri opazovanjih, pri katerih imamo dvome,
opravimo preizkuse na ostanku.

Porazdelitvena funkcija
Zaželjeni so normalno porazdeljeni podatki. Pri teh podatkih lahko pa č uporabimo enostavne metode,
kot so ANOVA, metoda najmanjših kvadratov, metoda tehtanih najmanjših kvadratov in metodo splošnih
najmanjših kvadratov. Opišemo jih lahko s pričakovanimi vrednostmi ter merami razpršenosti (parametri
disperzije). Pri drugih porazdelitvah pred povprečjem izberemo parametre, ki to porazdelitev najbolje
opišejo. V živinoreji se boste dostikrat srečali tudi z lastnostmi, ki imajo specifično porazdelitev, biološko
utemeljeno, a jih ne moremo opisati z znanimi porazdelitvami. Pri teh porazdelitvah pogosto odpadejo
običajne statistike, povprečje in razpršenost prav nič ne povesta o podatkih.
Pri izboru metode upoštevamo porazdelitev opazovanj, ki je posledica porazdelitve naklju čnega dela
modela. Pri sistematskih modelih, ki so zelo pogosti pri obdelavi poskusov, je porazdelitev opazovanj
odvisna od ostanka.
Ko se izkaže, da lastnost ni porazdeljena po znani porazdelitvi, najprej poskusimo z razli čnimi trans-
formacijami. Na transformiranih opazovanjih in ostankih preizkus ponovimo. Druga možnost je tudi
približek prave porazdelitve z eno od znanih porazdelitvev, kadar so odstopanja zanemarljiva. Pri tem
statističnih parametrov za odločitev pravzaprav nimamo in so potrebne predvsem izkušnje in zadostno
število opazovanj. Zanemarjanje porazdelitve je pogosto posledica nepoznavanja drugih metod, rezultati
takih analiz pa so lahko zavajajoči.
S porazdelitvami, ki se ne dajo transformirati ali aproksimirati, se boste sre čali že med študijem in pri
diplomskih nalogah. Nimamo prostora, da bi imenovali vse primere in se bomo omejili le na nekatere.
Vam so že poznani nekatere lastnosti obnašanja, dnevni ritmi in podobno. Pri rejah pa se boste spoznavali
z nekaterimi lastnostmi plodnosti, ki se ne obnašajo, kot bi v statistiki radi. Omenimo lahko lastnosti
povezane z vitalnostjo, preživitvijo ali izgubami mladi čev, z dobami od poroda (odstavitve) do pripusta
in z življenjsko prirejo. Za začetek lahko lastnosti opišemo enostavno s porazdelitvijo in porazdelitve
primerjamo med seboj. Morda se lahko poslužimo mediane ali modusov, kombiniranih transformacij,
a je zelo težko dati splošno veljaven postopek obdelave podatkov. Razgovor z nekom, ki ima bogate
izkušnje pri obdelavi podatkov, bo gotovo primeren za četek.

Identična ali heterogena porazdelitev


V manjših poskusih velja poskusiti zagotoviti homogenost variance. To dosežemo tako, da imamo iste
instrumente, stalno in usklajeno ekipo. Ko pa živali rastejo in jim spremljamo maso od rojstva pa jih ne
moramo tehtati z isto tehtnico: tista za odrasla goveda, razlik med rojenimi teleti skoraj ne zazna. Tista,
ki pa je primerna za tehtanje telet, pa bi se potrla pod maso odraslega goveda.

68
Biometrija 69

Neodvisna ali odvisna porazdelitev

V praksi dostikrat privzamemo, da so nivoji znotraj posameznega vpliva neodvisni. Do sedaj smo ome-
njali odvisnost med sorodniki pri aditivnem genetskem vplivu. Povezanost smo ugotavljali iz porekla
živali in jo vgradili v matriko sorodstva. To velja tako za direktne, maternalne in paternalne aditivne
genetske vplive. Povezanost imamo tudi pri neaditivnih genetskih vplivih: dominanci in epistazi, vendar
pa se v okviru tega predmeta z njimi ne bomo ukvarjali.
Samo omenili bomo tudi podobnost med primerjalnimi skupinami. Pri praši čih na testni postaji preiz-
kušamo prašiče od 30 do 100 kg. Živali naseljujemo vsak teden in vsak teden zapuš čajo testno postajo.
Primerjalno skupino tvorijo živali, ki jih istočasno preizkušamo. Če smo natančni, to pomeni, da tvorijo
primerjalno skupino živali, ki so v istem tednu končale preizkus. Teh pa je pogosto premalo, da bi dale
zadostno oceno vpliva skupnega okolja, ki ga praviloma imenujemo kar sezona. Pomagamo si lahko z
živalmi, ki so končale test en teden prej. Morda moramo zaradi števila živali dodati še kakšen teden...

Transformacije

S transformacijami lahko spremenimo porazdelitev spremenljivke tako, da je porazdeljena normalno ali


po drugem znanem porazdelitvenem zakonu. Porazdelitev je pomembna samo pri odvisnih spremenljiv-
kah. Pri neodvisnih spremenljivkah jo naredimo takrat, kadar z njeno transformacijo dosežemo enostav-
nejšo povezavo med odvisno in neodvisno spremenljivko, npr. iz eksponentne funkcije z logaritmiranjem
dobimo linearno povezavo. Logaritmiranje pa ni edina transformacija. Poslužujemo se lahko tudi raz-
ličnih korenov pri desno asimetričnih porazdelitvah ali potenciranja pri levo asimetri čnih porazdelitvah.
Pri transformacijah moramo paziti, da lahko pri transformaciji vse vrednosti spremenimo. Če je zaloga
vrednosti pri spremenljivki večja ali enaka nič, transformacija z logaritmom ni mogoča, ker ne poznamo
vrednosti log(0). Aproksimacija z eno od zelo majhnih vrednosti lahko rezultat mo čno preoblikuje. Ni
vseeno ali se vrednosti 0 približamo z vrednostjo 10 −2 ali 10−10 . Pri log-transformaciji dobimo v prvem
primeru vrednost −2, v drugem pa −10.

Aproksimacije

Pri manjših odstopanjih od normalne porazdelitve lahko pravo porazdelitev pravzaprav zanemarimo in
kot približek vzamemo normalno porazdelitev. Kot primer lahko navedemo velikost gnezda pri praši čih,
ki je porazdeljena po Poissonovi porazdelitveni funkciji s povpre čjem pri 10, minimumom 0 in maksi-
mumom okrog 20. Tukaj lahko privzamemo normalno porazdelitev. To pa ne velja za velikost gnezda pri
drobnici, kjer je porazdelitev tudi Poissonova, povpre čje pa je praviloma med 1 in 2, v gnezdu je najmanj
0 živorojenih mladičev in praktično nikoli ne presega pa 5 mladičev.

4.1.3 Število opazovanj

V statistiki poznamo tudi zakon velikih števil. V preprostem jeziku pove, da ne glede na porazdeli-
tev opazovanj se porazdelitev pričakovanih vrednosti približuje normalni porazdelitvi, če je le število
opazovanj dovolj veliko. Ta zakon pravzaprav dovoljuje nadomestitev prave porazdelitve z normalno
porazdelitvijo. Kaj je zadostno število, pa je povezano s porazdelitvijo in številom parametrov v siste-
matskem delu modela. Bolj kot porazdelitev odstopa od normalne, ve č opazovanj potrebujemo, da lahko
predpostavimo kar mormalno porazdelitev.

4.1.4 Načelo skromnosti, praktičnost, izvedljivost in interpretacija

V statistiki velja načelo skromnosti tudi pri izbiri metode. Uporabili bomo najpreprostejšo metodo, ki
nam še vedno daje zadovoljivo oceno rezultatov poskusa. Če je to navadno povprečje, bomo izbrali pač
povprečje.

69
70 Biometrija

4.1.5 Funkcija tveganja in funkcija izgube, loss function

Funkcija tveganja (risk function) ali kar tveganje in funkcija izgub ali izguba (loss function)

• vsota kvadratov za ostanek najmanjša

• vsota tehtanih kvadratov za ostanek najmanjša

• vsota splošnih kvadratov za ostanek najmanjša

• največja zanesljivost

4.2 Enostavna analiza variance (ANOVA)

V poskusih, kjer je struktura podatkov uravnotežena, lahko uporabljamo enostavno metodo, imenovano
ANOVA. Uporabna je v primerih, ko smo opravili uravnotežen preizkus in nimamo na voljo statisti čnih
paketov. Izračunamo in primerjamo lahko povprečja po skupinah. Za preizkuse postavljenih hipotez
pa uporabimo enostavne izračune vsot kvadratov za posamezne vplive, kar bomo opisali v poglavju o
preizkušanju hipotez. Analizo lahko opravimo kar s kalkulatorjem.

Toda v živinoreji prepogosto kršimo in to metodo uporabimo na neuravnoteženih podatkih in bolj se-
stavljenih modelih. Prav nič ne izgubimo, kadar uravnotežene podatke obdelamo z metodo najmanjših
kvadratov. Kadar bi lahko uporabili metodo ANOVA, bomo pri metodi najmanjših kvadratov dobili
popolnoma enake zaključke. Če pa se rezultati razlikujejo, pa je metoda najmanjših kvadratov boljša.

4.3 Metoda najmanjših kvadratov

Pri metodi najmanjših kvadratov (ang. Ordinary Least Square, OLS) predpostavimo, da je odgovarjajo či
model sistematski, ostanki pa so identično in neodvisno porazdeljeni. Število meritve po posameznih
skupinah se lahko razlikuje. Torej so podatki lahko neuravnoteženi. Pri uporabi metode ni nujno zahtevati
normalno porazdelitev, dokler se zadovoljimo samo z rešitvami. Ne smemo pa pozabiti, da se pri "divji"
porazdelitvi ocenjena vrednost lahko pojavi celo izven intervala zalog vrednosti. Torej dobimo lahko
vrednost, ki je nemogoča in neuporabna za interpretacijo.

4.3.1 Ilustracija metode najmanjših kvadratov

Najprej postopek ilustrirajmo s primerom. Za ilustracijo vzemimo podatke o spremembah krmnih dni
na živorojenega pujska v Sloveniji po letih iz tabele 4.1 in narišimo sliko 4.1! Krmni dnevi predstavljajo
lastno ceno živorojenega pujska v trdni “prašičerejski” valuti in so tako dober pokazatelj uspešnega
rejskega dela. Tako iz tabele kot iz grafa dobro vidimo, da so slovenski rejci izboljšali rejo praši čev.
Dosežen rezultat v posameznem letu je na grafu označen z rdečo kroglico.

Tabela 4.1: Število krmnih dni na živorojenega pujska po letih


80 81 82 83 84 85 86 87 88 89 90 91
26.33 24.14 22.95 22.97 21.76 21.21 21.66 21.88 21.13 20.44 18.21 17.59

70
Biometrija 71

27

25

23
KD / puj.

21

19

17
80 81 82 83 84 85 86 87 88 89 90 91
L e t o

Slika 4.1: KD na živorojenega pujska in prileganje razli čnih premic

Za obrazložitev uporabimo kar preprost model, ki vsebuje samo linearno regresijo z neodvisno spremen-
ljivko xi j kot sistematski vpliv. Verjetno bi polinom tretje stopnje bil primernejši, a bi si samo otežili
izračune in prikaze. Lahko pa vajo s polinomom tretje stopnje naredite doma za vajo. V skalarni obliki
bo torej model imel preprosto obliko, kot nakazuje ena čba 4.1, naslednji dve enačbi pa model predstavita
v matrični obliki (4.2, 4.3) in opišeta tudi običajne predpostavke.

yi = µ + bxi + ei [4.1]

y = Xβ + e [4.2]


y ∼ IID Xβ, Iσ2e [4.3]

Iz slednje enačbe (4.3) je razvidno, da so meritve y i identično in neodvisno porazdeljene, na kar nas
opozori oznaka IID in varianca Iσ2e , s pričakovano vrednostjo Xβ. Diagonalni elementi v matriki I
so identični - popolnoma enaki - saj je njihova vrednost natanko 1. Vsi nediagonalni imajo vrednost0,
kar pomeni, da so ostanki med seboj neodvisni, z drugo besedo nepovezani. Oznako IID bi lahko tudi
izpustili.
Porazdelitev naključnih spremenljivk v modelu moramo nujno preveriti, ko preizkušamo zna čilnost po-
stavljenih hipotez. Za preveritev hipotez bi lahko preprosto rekli, da preverjamo verodostojnost dobljenih
rezultatov. Ta nadaljni korak je praviloma pričakovan in povsem logičen, saj brez statističnega preiz-
kusa ne moremo rezultatov interpretirati. Analiza brez statisti čnega preizkusa bi bila torej brez pravega
učinka. Za presojo rezultatov je porazdelitev meritev pomembna. Dokazali pa smo že, da je porazdelitev
odvisna od naključnega dela modela - od naključnih spremenljivk. Kadar razmišljamo o varianci, pred-
postavimo, da je spremenljivka normalno porazdeljena ali pa je porazdeljena tako, da lahko pri obdelavi
predpostavimo normalno porazdelitev. Takšna predpostavka nam pride prav, ker lahko uporabimo me-
tode iz skupine najmanjših kvadratov. V živinorejskih poskusih tega ne smemo vedno narediti. Da bi ne
naredili napake, moramo vedno preveriti porazdelitev!
Prilagodimo na grafu 4.1 najprej 9 premic iz tabele 4.3. Zanima nas, katera od premic podatke najbolje
opiše ali pojasni. Z drugimi besedami: zanima nas, katera premica se podatkom najbolje prilega.

71
72 Biometrija

Tabela 4.2: Nekaj izbranih enačb za opis zgornjih podatkov


Oznaka Nekatere izbrane enačbe Oznaka Nekatere izbrane enačbe
1 yi = 39.033 − 0.20084 xi + ei 6 yi = 81.533 − 0.70084 xi + ei
2 yi = 47.533 − 0.30084 xi + ei 7 yi = 90.033 − 0.80084 xi + ei
3 yi = 56.033 − 0.40084 xi + ei 8 yi = 98.533 − 0.90084 xi + ei
4 yi = 64.533 − 0.50084 xi + ei 9 yi = 107.033 − 1.00084 xi + ei
5 yi = 74.146 − 0.6135 xi + ei

27
26
25

24
23
22
KD / puj.

21

20
19
18
17
16
80 81 82 83 84 85 86 87 88 89 90 91
L e t o

Slika 4.2: KD na živorojenega pujska in prileganje razli čnih premic

Odgovor je enostaven: najbolje se prilega srednja - modra premica. Izbrali smo jo zato, ker se to čke
modri premici najbolje prilegajo. “Prilegajo” pomeni, da so od nje najmanj oddaljene. Kakšna od to čk
lahko leži kar na najboljši premici, tu in tam pa imamo tudi precej oddaljene to čke. Ker je več točk,
moramo tako najti neko statistiko, ki bo merila skupno oziroma povpre čno oddaljenost. Oddaljenost točk
(meritev) od premice (pričakovane vrednosti) pa imenujemo ostanek. Ker pravih ostankov ne poznamo,
ocenimo pa jih lahko kot razliko med izmerjeno vrednostjo y i in pripadajočo pričakovano vrednostjo
E(yi ), kot to prikazuje enačba 4.4.

ebi = yi − E(yi ) [4.4]

Pri razmišljanju nas dostikrat zapelje želja, da bi izbrali rešitev tako, da bi bila vsota ostankov enaka 0
(4.5) ali morda celo najmanjša (4.6). V zgornjem primeru (graf 4.2) je vsota ostankov pri vseh premicah
enaka 0. Pravzaprav ta kriterij izpolnjuje cel šop premic, ki gredo skozi prese čišče premic na grafu.
Premic je celo neskončno mnogo. Torej je med njimi po tem kriteriju ni nobene najboljše - po tem
kriteriju ne bomo našli dobre rešitve.
X
(yi − E (yi )) = 0 [4.5]
i

X
(yi − E (yi )) = min. [4.6]
i

72
Biometrija 73

500

400

300
KD / puj.

ostanki so zelo majhne vrednosti


(velike negativne vrednosti)
200

100

0
8 0 81 82 83 84 85 86 87 88 89 90 91
Leto

Slika 4.3: Vsota ostankov je minimalna

Pri drugem kriteriju (4.6), da bi bila vsota ostankov najmanjša, tudi ne bi bili uspešni. Najmanjše niso
vrednosti blizu 0, ampak zelo “velike” negativne vrednosti. Po tem kriteriju bi poiskati tisto premico
(graf 4.3), ki bi dala najbolj negativno vsoto. Premice prav gotovo ne bi imeli na grafu! Od to čk -
opazovanj - bi bila odmaknjena neskončno daleč. Do nje bi potovali več svetlobnih let, če vam je tako
všeč. Rešitev, ki je daleč od opazovanj, bi o opazovanjih zelo malo povedala. Potem pa to sploh ni
rešitev!

Poiskali bi lahko še kak kriterij in morda bi bila obrazložitev, zakaj z njim nismo najbolj zadovoljni,
celo zahtevna. Poskusimo zato kar s kriterijem, na katerem je osnovana metoda najmanjših kvadratov.
Uporabiti moramo odklone, da se bo premica najbolje prilegala. Ker je v nazivu metode beseda “kvadra-
tov”, moramo odklone kvadrirati. Tako dobimo za vsako meritev eno vrednost - kvadrirani odklon. Če
pa kvadrirane odklone seštejemo, pa imamo statistiko, ki pa nam da rešitev. Statistiko bomo imenovali
vsota kvadratov ali vsota kvadratnih odklonov. Poglejmo, če je razmišljanje dobro!

Za vsa leta in vse enačbe imamo kvadratne odklone shranjene v tabeli 4.3 in jih v zadnji vrsti še se-
štejemo. Tako smo dobili vsoto kvadratnih odklonov (4.7), uporabljali bomo pa kar oznako RS S , kar
je povzeto po angleškem izrazu "Residual S um of S quares". Katera premica je torej najboljša? Zaradi
izbora metode prav gotova tista, pri kateri je vsota kvadratnih odklonov RS S najmanjša. To je v našem
primeru enačba 5, ki tudi predstavlja rešitev sistema. To pravzaprav ni naklju čno: pred tem postopkom
smo na skrivaj opravili izračun.

X
RS S = (yi − E (yi ))2 [4.7]
i

73
74 Biometrija

Tabela 4.3: Kvadrati za ostanke pri različnih prirejenih premicah (tabela, graf)
En. 1 2 3 4 5 6 7 8 9
b -0.20 -0.30 -0.40 -0.50 -0.61 -0.70 -0.80 -0.90 -1.00
80 11.316 8.2025 5.5885 0.74650 0.13264 0.01844 0.40424
81 1.8907 0.95070 0.33067 0.39057 1.0505 2.0305 3.3305
82 0.14890 0.00737 0.04585 0.26432 0.66279 1.2413 1.9997 2.9382 4.0567
83 0.36811 0.16542 0.04273 0.00004 0.03736 0.15467 0.35198 0.62929 0.98661
84 0.16196 0.25245 0.36293 0.49342 0.64391 0.81439 1.0049 1.2154 1.4459
85 0.56491 0.56491 0.56490 0.56490 0.56490 0.56490 0.56490 0.56490 0.56491
86 0.01015 0.00000 0.00985 0.03970 0.08954 0.15939 0.24925 0.35909 0.48893
87 0.10245 0.27048 0.51851 0.84655 1.2544 1.7426 2.3107 2.9587 3.6867
88 0.05248 0.00501 0.13758 0.45014 0.94269 1.6152 2.4678 3.5003 4.7129
89 0.51587 0.10128 0.00668 0.23210 0.77750 1.6429 2.8283 4.3337 6.1591
90 7.5482 5.0508 3.0534 1.5560 0.55801 0.06121 0.06381 0.56641 1.5690
91 10.027 6.5872 3.8674 1.8675 0.58761 0.02774 0.18787 1.0680 2.6681
RSS 32.7067 22.1582 14.5290 9.81981 8.02982 9.16137 13.212 20.183 30.074

Vseeno pa narišemo še graf (4.4): na abciso nanesimo regresijske koeficiente, na ordinato pa vsote
kvadratnih odklonov. Točke leže na paraboli, peta točka pa predstavlja minimum te parabole. Vsota
kvadratov je pozitivna vrednost. Vsaka druga premica, razen optimalne, pa daje ve čjo vsoto kvadratnih
odklonov.

32

28
Vsota kvadratov za ostanek

24

20 y = 74.146 - 0.6135 x + e
i i i
v vsota kvadratov
Najmanjsa
16

12

-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2


Smerni (regresijski) koeficient

Slika 4.4: Spreminjanje vsote kvadratov v odvisnosti od regresijskega koeficienta

Pri odločitvi smo torej poiskali minimum za vsoto kvadratnih odklonov. Kljub temu, da je metoda
najmanjših kvadratov za nas še neznanka, pa smo pravkar spoznali, da bo še najbolj sprejemljiva. Sedaj
pa metodo najmanjših kvadratov še izpeljimo!

4.3.2 Izpeljava metode v skalarni obliki

V tem poglavju se želimo osredotočiti na izpeljavo metode najmanjših kvadratov (OLS - Ordinary Least
Square), ki je v živinoreji je pogosto uporabljena. Metodo bomo izbrali takrat, ko število opazovanj ni

74
Biometrija 75

uravnoteženo (balansirano) med posameznimi razredi. Isto časno pa mora biti izpolnjen še en osnovni
pogoj: ostanki morajo biti neodvisno in identično porazdeljeni. Pri zgornjem modelu, opisanem v ena č-
bah 4.1, 4.2 in4.3, je slednji pogoj izpolnjen, kar dokazujeta oznaka IID pri opisu porazdelitve v ena čbi
4.3 in tudi identična matrika I pri opisu strukture variance. Zgornji model bomo za izpeljavo metode
najmanjših kvadratov razširili še za sistematski vpliv A i z nivoji4.8. Novi model se ne nanaša več na
zgornje podatke. Primeren pa bi bil za analizo sprememb po letih za ve č farm. Takrat bi sicer vpliv z
nivoji preimenovali, da bi nas oznaka spominjala na farmo.

yi j = µ + Ai + bxi j + ei j [4.8]

yi j ∼IID(µ + Ai + bxi j , σ2 ) [4.9]

Rešitve sistema poiščemo tako, da je vsota kvadratov za ostanek minimalna. Ker iš čemo minimum
vsote kvadratov, bomo funkcijo4.8 odvajali po vseh neznankah in vse prve delne odvode izena čili z nič.
Neznanke so lokacijski parametri µ, A 1 , A2 , ... in A pA in b. Enačbo 4.10 za RSS bomo najprej malo
preoblikovali.

p X
X ni
2
RS S = e e = 0
ei j [4.10]
i=1 j=1

V enačbo vstavimo izraz za ostanek in poenostavimo zapis pri vsoti (4.11).


X 2
RS S = yi j − E yi j [4.11]
ij

Potrebujemo torej pričakovano vrednost, ki jo predstavlja praviloma le sistematski del modela (4.12).

E yi j = µ + Ai + bxi j [4.12]

Tako dobimo za vsoto kvadratov za ostanek zapisano v naslednji obliki:


X 2
RS S = yi j − µ − Ai − bxi j [4.13]
ij

Od tu naprej sta dve možnosti. Po enem postopku lahko ena čbo 4.13 razčlenimo. To lahko naredite sami
za vajo. Tu pa bomo izhaljali kar iz te enačbe.Torej vrnimo se k naši nalogi. Iščemo torej minimum
funkcije za izračun RSS (4.14)!
X 2
yi j − µ − Ai − bxi j = min. [4.14]
ij

Funkcija ima obliko parabole. V prvem koraku moramo poiskati vse parcialne odvode. Najprej odva-
jajmo na parameter µ (4.15).
P 2
∂ yi j − µ − Ai − bxi j
ij
[4.15]
∂µ

Pri odvajanju bomo uporabili naslednje pravilo 4.16.

∂ f (g (x)) ∂ f (g) ∂g (x)


= · [4.16]
∂x ∂g (x) ∂x

75
76 Biometrija

Rezultat v enačbi 4.17 izenačimo z 0. Hkrati paramertre nadomestijo ocene, rešitve, ki bodo izpolnjevale
pogoje zahtevane pri metodi najmanjših kvadratov. Parametre in njihove ocene lo čimo tako, da ocene
nosijo strešico (enačba 4.18).
X 
2∗ yi j − µ − Ai − bxi j ∗ (−1) [4.17]
ij

X 
2∗ µ − Abi − b
yi j − b bxi j ∗ (−1) = 0 | ÷ (−2) [4.18]
ij

V enačbi 4.18 lahko desno in levo stran delimo z 2 ter dobimo ena čbo 4.19.
X 
µ + Abi + b
−yi j + b bxi j = 0 [4.19]
ij

Sedaj pa poskusimo enačbo še malo poenostaviti. Prav vseeno je, ali vsako meritev najprej o čistimo
sistematskih vplivov in tako dobljene ostanke seštejemo, kakor kaže ena čba 4.19. LahkoPpa levo stran
enačbe 4.19lahko najprej razčlenimo. Tako lahko posebej seštejemo vsa opazovanja ( yi j ), nato še
ij
P P P
vse srednje vrednosti ( b b b
µ), vplive Ai ( Ai ) in prispevke regresije ( bxi j ) in na koncu opravimo
ij ij ij
odštevanje, kot je to nakazano v enačbi 4.20.
X X X X
− yi j + b
µ+ Abi + b
bxi j = 0 [4.20]
ij ij ij ij

Člene z neznanimi parametri zadržimo na levi strani ena čbe, člen brez njih pa prenesimo na desno stran.
Poleg tega pa opravimo še kratek premislek. Pri izračunu ostanka smo vsakemu opazovanju odšteli
srednjo vrednost, torej smo to naredili natanko n−krat. Torej lahko vsoto nadomestimo z zmnožkom
(enačba 4.21).
X
b
µ=n ∗ b
µ [4.21]
ij

Podobno ravnamo tudi pri vplivih Ai . Nivojev za vpliv Ai je več in sicer smo predpostavili, da jih je p A ,
kjer pA predstavlja število nivojev in s tem tudi neznanih parametrov pri vplivu A. Vsota za vpliv A torej
vključuje n1 opazovanj pri nivoju A1 , n2 opazovanj pri nivoju A2 , ... in n pA opazovanj pri nivoju A pA .
Tretji člen iz enačbe 4.20 zapišemo v obliki 4.22.
X
Abi =n1 ∗ Ab1 + n2 ∗ Ab2 + ... + n pA ∗ AbpA [4.22]
ij

Tudi četrti člen iz enačbe 4.20 lahko preuredimo, kot kaže enačba 4.23, ker je vsaki člen pri vsoti po-
množen s parametrom b̂.
X X
b
bxi j = b
b xi j [4.23]
ij ij

Sedaj smo si pogledali vsak člen posebej in lahko tako preurejene vstavimo v enačbo 4.20. Naredimo
samo še nekaj: člene s parametri obdržimo na levi strani enačbe, člen brez parametrov pa prenesimo na
desno stran. Tako dobimo enačbo 4.24.
X X
µ + n1 ∗ Ab1 + n2 ∗ Ab2 + ... + n pA ∗ AbpA + b
n∗b b xi j = yi j [4.24]
ij ij

76
Biometrija 77

Dobili smo enačbo, s katero lahko izvrednotimo parameter µ. V enačbi pa so še drugi neznani parametri,
zato moramo poiskati še druge enačbe. Da bi problem rešili, potrebujemo za vsak neznan parameter po
eno enačbo. Na razpolago imamo še druge parcialne odvode.
Poskusimo odvajati tudi na parametre A 1 , A2 , · · ·, A pA . Postopek je identičen za vse parametre vpliva
A, zato bomo izpeljali postopek za katerikoli parameter in ga ozna čili z Ai0 . Na koncu pa bomo razvili
enačbo za vsak parameter posebej, saj mora imeti po eno ena čbo za vsak neznan parameter. Odvajati
moramo izraz v 4.25.
P 2
∂ ij yi j − µ − Ai − bxi j
= [4.25]
∂Ai0

Dobimo dve možnosti. Kadar je parameter A, na katerega odvajamo, isti kot tisti iz tretjega člena v
števcu enačbe 4.25, velja, da sta indeksa i in i 0 enaka. Tako moramo najti odvod iz 4.26.

∂ (−Ai )
= −1 [4.26]
∂Ai

V primeru, da sta indeksa i in i0 različna, pa moramo rešiti odvod v 4.27.

∂ (−Ai )
=0 [4.27]
∂Ai0

Končno lahko napišemo odvod, ki smo ga zastavili v enačbi 4.25. Omenili smo dve možnosti, ki jih
lahko nakažemo, kot prikazuje enačba 4.28.

X 
 (−1) ; k jer i = i0
=2∗ yi j − µ − Ai − bxi j ∗ [4.28]
(0) ; k jer i , i0
ij

Druga možnost v enačbi 4.28 je 0, iz prve možnosti pa dobimo izraz 4.29.


X 
=2∗ yi j − µ − Ai − bxi j (−1); k jer i = i0 [4.29]
ij

Delimo z −2 in izenačimo z 0. Parametre ob tem zamenjamo z njihovimi ocenami (ena čba 4.30). Spodnji
izraz predstavlja več enačb in sicer za i = 1, 2, ..., p A .

X 
µ − Abi − b
yi j − b bxi j = 0; k jer i = i0 [4.30]
ij

Najprej prikažimo enačbo, kjer je i = 1. Vstavimo vrednost 1 namesto oznake i in tako dobimo 4.31.
X X X X
y1 j − b
µ− c
A1 − b
bx1 j =0 [4.31]
1j 1j 1j 1j

Prvi člen, ki ne vsebuje parametrov, prenesimo na desno stran. Drugi člen predstavlja vsoto srednjih
vrednosti bµ za vse meritve opravljene pri nivoju A 1 . Meritev je natanko n1 , srednje vrednosti imajo iste
vrednosti, zato lahko drugi člen zapišemo tudi v obliki iz 4.32.
X
µ = n1 b
b µ [4.32]
1j

77
78 Biometrija

Tudi tretji člen lahko poenostavimo, kot prikazujemo v 4.33.


X
c
A1 = n1 ∗ Ab1 [4.33]
1j

Zadnji člen preuredimo po zgledu 4.23. Po preureditvi dobimo 4.34.


X X
µ + n1 ∗ Ab1 + b
n1 ∗ b b x1 j = y1 j [4.34]
1j 1j

V enačbi ni členov z ostalimi parametri vpliva A, vendar jih lahko brez škode dodamo, če jih pomnožimo
s konstanto 0.
X X
µ + n1 ∗ Ab1 + 0 ∗ Ab2 + · · · + 0 ∗ AbpA + b
n1 ∗ b b x1 j = y1 j [4.35]
1j 1j

Postopek od koraka 4.31 do 4.35 lahko ponovimo še za vse i od 2 do p A . Tako dobimo še preostale
enačbe za neznane parametre iz vpliva A. Prikazujemo ena čbi za i = 2 (4.36) in i = p A (4.37).
X X
µ + 0 ∗ Ab1 + n2 ∗ Ab2 + · · · + 0 ∗ AbpA + b
n2 ∗ b b x2 j = y2 j [4.36]
2j 2j

X X
µ + 0 ∗ Ab1 + · · · + 0 ∗ AbpA −1 + n pA ∗ AbpA + b
n pA ∗ b b x pA j = y pA j [4.37]
pA j pA j

Odvajati moramo še po enem parametru. To je regresijski koeficient b, kot smo zastavili v 4.38.

P 2
∂ ij yi j − µ − Ai − bxi j
[4.38]
∂b

Pri odvodu moramo paziti, da odvajamo po parametru b in ne po neodvisni spremenljivki x i j . To nas


lahko hitro zavede, ker smo bili pri matematiki vajeni, da smo neznanko poimenovali z x. V našem
primeru pa so neznani parametri v modelu. Torej je neznanka regresijski koeficient b, neodvisne spre-
menljivke xi j pa so bile izmerjene, ko smo poskus opravili. Tako so za oznako skrite konstante. Odvod
smo dobili v enačbi 4.39.
X  
2∗ yi j − µ − Ai − bxi j ∗ −xi j [4.39]
ij

Izenačimo dobljeni parcialni odvod z nič in spremenimo parametre v ocene parametrov (parameter s
strešico)! V enačbi 4.40 še nakažemo deljenje desne in leve strani s konstanto −2.
X  
2∗ µ − Abi − b
yi j − b bxi j ∗ −xi j = 0 | ÷ (−2) [4.40]
ij

Člene z ocenami parametrov zadržimo na desni strani ena čbe, na levo pa prestavimo člene brez njih.
Prestavljen člen je vsota produktov med opazovanji y i j in pripadajočimi neodvisnimi spremenljivkami
xi j (enačba 4.41).
X X X X
µ xi j +
b Abi xi j + b
b x2i j = yi j xi j [4.41]
ij ij ij ij

78
Biometrija 79

Iz vsot izpostavimo parametre (enačba 4.42). Pri tem dobimo nekaj več členov: pri vplivu A smo izpo-
stavili parametre za posamezne nivoje.
X X X X X X
b
µ xi j + Ab1 x1 j + Ab2 x2 j + ... + AbpA x pA j + b
b x2i j = yi j xi j [4.42]
ij 1j 2j pA j ij ij

Tako, sedaj imamo vse prve parcialne odvode pripravljene ??, 4.34, 4.35, 4.36 in 4.42. Ena čbe lahko
uredimo v matrično
h obliko. Ocene parametrov i bµ, Ab1 , Ab2 , ..., AbpA in b
b zberemo v vektor z ocenami
0
b
parametrov β = b b b b b
µ A1 A2 · · · A p b . Vsa nanizamo v vektor opazovanj y. Nastaviti moramo
A

tudi matriko dogodkov X. Začnimo na desni strani enačbe (ang. Right Hand Side, RHS): vektor je
zmnožek matrike dogodkov in vektorja opazovanj. Torej ga lahko predstavimo z X 0 y. Na levi strani
vektor ocen βb že poznamo. Matrika na levi se imenuje tudi matrika koeficientov ali matrika varianc
in kovarianc. Dobimo pa jo z množenjem transponirane matrike X 0 z matriko dogodkov X. Povsem
sprejemljiva je torej oznaka X0 X, ki hkrati ponazori, kako smo dobili matriko koeficientov.

 P 
n n1 n2 ··· n pA xi j
 ij
P    P 
 n1 n1 0 0 x1 j  y
 ···  b
µ P ij ij
 1j  b
A1   y 
 P    P1 j 1 j 
 n2 0 n2 ··· 0 x2 j    
 y 

 2j  Ab2   2j 2j

  .. = ..  [4.43]
 .. .. .. .. .. ..   
 . . . . . .  .   P . 

   
 .. P  b
A pA   PpA y pA j 

 n pA 0 0 . n pA x pA j  yi j xi j
 pP
Aj
 b
b
 P P P P 2
 ij
xi j x1 j x2 j · · · x pA j xi j
ij 1j 2j pA j ij

Sistem enačb 4.43 lahko zapišemo v matrični obliki 4.44. Dokaz si lahko preberete v poglavju, ki
prikazuje izpeljavo metode najmanjših kvadratov v matri čni obliki (4.3.4).

b = X0 y
X0 Xβ [4.44]

Sistem enačb pri metodi najmanjših kvadratov si bomo dobro zapomnili.

4.3.3 Vaje

Izpeljite metodo najmanjših kvadratov in nastavite sistem ena čb v matrični obliki za naslednje modele!

yi = µ + b11 x1i + b12 x21i + b13 sin(x1i ) + b21 x2i + b22 x22i + ei [4.45]

yi jk = µ + Pi + S j + ei jk [4.46]

yi jk = µ + Pi + S j + PS i j + ei jk [4.47]

yi jk = µ + Pi + S j + bi xi jk + ei jk [4.48]

yi jk = µ + Pi + S j + b x xi jk + bz zi jk + ei jk [4.49]

yi jk = µ + Pi + S j + b11 x1i + b12 x21i + b21 x2 j + b22 x22 j + ei jk [4.50]

Pri modelih 4.46, 4.47, 4.48, 4.49 in 4.50 vzemite, da je i = 1, 2, 3 in j = 1, 2, 3, 4.

79
80 Biometrija

4.3.4 Izpeljava metode v matrični obliki

Model, ki ga lahko obdelamo po metodi najmanjših kvadratov, vsebuje poleg ostanka samo še sistematske
vplive. V matrični obliki model zapišemo, kot je prikazano v enačbi 4.51.

y = Xβ + e [4.51]

Metoda najmanjših kvadratov zahteva, da je vsota kvadratnih odklonov za ostanek najmanjša. V matri čni
obliki vsoto kvadratnih odklonov zapišemo kot produkt vrsti čnega vektorja ostankov e0 s stolpičnim vek-
torjem ostankov e(enačba 4.52).

e0 e [4.52]

Iz modela 4.51 lahko izpeljemo enačbo za ostanek 4.53.

e = (y − Xβ) [4.53]

Nadomestimo vektorja ostankov iz 4.52 z desno stranjo ena čbe 4.53.

= (y − Xβ)0 (y − Xβ) = [4.54]

Transponirajmo prvi člen iz 4.54!



= y0 − β0 X0 (y − Xβ) = [4.55]

Pomnožimo člena v 4.55! V enačbi 4.56 smo tako dobili štiri člene. Če preverimo red pri posameznih
členih, ugotovimo, da imajo produkti samo eno vrstico in en stolpec - so torej skalarji.

= y0 y− y0 Xβ − β0 X0 y +β0 X0 Xβ
| {z } | {z } [4.56]
skalar skalar

Posebej pa sta za nas zanimiva druhi in tretji člen iz 4.56. Tretji člen je enak transponiranemu drugemu
členu. Ker pa sta oba člena le skalarja, je transponirana vrednost enaka vrednosti sami. Člena lahko
izjemoma, ker sta skalarja, izenačimo (enačba 4.57).
0
y0 Xβ = y0 Xβ = β 0 X0 y [4.57]

Namesto drugega člena v 4.56 vstavimo kat tretji člen. Člena sta nato enaka, zato ju lahko seštejemo
in tako dobimo enačbo 4.58. Lahko bi tudi tretjega zamenjali z drugim, a nam bi potem delalo nekaj
več preglavic pri odvajanju. Vztrajni pa lahko preverite, da tudi z drugo možnostjo pridemo do pravega
rezultata.

e0 e = y0 y − 2β0 X0 y + β0 X0 Xβ [4.58]

Sedaj pa moramo poiskati minimum funkcije na desni strani ena čbe 4.58. Postopamo povsem enako
kot pri skalarni obliki zapisa. Minimum funkcije najdemo pa č tako, da poiščemo prve parcialne odvode
po neznanih parametrih, jih izenačimo z nič in preuredimo, kot nam najbolje odgovarja. Ne smemo
pa pozabiti na dokaz, da smo našli minimum. V ta namen poiš čemo druge parcialne odvode in jih
izvrednotimo v točki, ki jo opisujejo naše rešitve. Pri minimumu morajo biti vrednosti drugih odvodov
pozitivne. Za odvajanje bomo poiskali pravila in jih uporabili.

80
Biometrija 81

Minimum funkcije najdemo tako, da v prvem koraku izra čunamo vse parcialne odvode po neznanih
parametrih β v 4.59.

∂ y0 y − 2β0 X0 y + β0 X0 Xβ
= [4.59]
∂β

∂y0 y ∂β0 X0 y ∂β0 X0 Xβ


= −2 + = [4.60]
∂β ∂β ∂β

= −2X0 y + 2X0 Xβ [4.61]

in odvode izenačimo z vektorjem 0 v 4.62.

b = 0 | /2
−2X0 y + 2X0 Xβ [4.62]

Po preureditvi dobimo sistem enačb 4.63, kjer X0 X predstavlja levo stran sistema, matriko koeficientov,
imenovano tudi matriko varianc in kovarianc, vektor X 0 y pa desno stran sistema (ang. right hand side,
oznaka RHS).

X0 X bβ = X0 y [4.63]

Če je matrika koeficientov (X0 X) polnega ranga, dobimo rešitve sistema enačb na enostaven način. Levi
in desno stran enačbe od leve pomnožimo z inverzo matrike koeficientov (X0 X)−1 , kot je nakazano v
enačbi 4.75.
−1   0
X0 X X0 X βb = X0 X −1 X y [4.64]

Na levi strani dobimo samo vektor ocen za parametre. Na desni strani ena čbe 4.76 pa je razvidno, kako
poiščemo rešitve. Prikazani način je praviloma računsko zelo zahteven ter numerično nestabilen (obču-
tljiv). Uporabljamo ga predvsem pri učenju, ko uporabljamo manjše primere. Pogosto pa v živinoreji
uporabimo računsko manj zahtevne algoritme za reševanje sistema ena čb.

−1
b
β = X0 X X0 y [4.65]

b V primeru minimuma
Delo bi končali šele, ko bi poiskali druge parcialne odvode in jih izvrednotili pri β.
b
je vrednost drugih odvodov v točki β pozitivna.

∂ y0 y − 2β0 X0 y + β0 X0 Xβ ∂ (−2X0 y + 2X0 Xβ)
= = 2X0 X [4.66]
∂β∂β0 ∂β0

Pri sistemu s polnim rangom je drugi odvod (X0 X) b pozitiven.


β=β
Izračunjamo še pričakovane vrednosti za rešitve sistema enač (enačba 4.67)!
 
b =
E β [4.67]

Namesto rešitev vstavimo desno stran iz enačbe 4.76.


 −1 
=E X0 X X0 y = [4.68]

81
82 Biometrija

Prvi del izraza v enačbi 4.68 je konstantna, saj množimo samo matriko dogodkov, katerih vsebina je po
izvedbi poskusa znana - torej konstantna. Tako lahko konstanto izpostavimo, kot prikazujemo v ena čbi
4.69. Premisliti moramo samo o pričakovanih vrednostih opazovanj v vektorju y.

−1
= X0 X X0 E (y) =
| {z } [4.69]
konstanta

−1
= X0 X X0 E (Xβ + e) = [4.70]

−1  
= X0 X X0 E (Xβ) + E (e) = [4.71]

−1
= X0 X X0 Xβ = [4.72]

=β [4.73]

b
Izračunjamo še pričakovane vrednosti (enačba 4.74) za rešitev β.
   −1
var b
β = var (X0 X)−1 X0 y = X0 X X0 var (y) X (X0 X)−1 = (X0 X)−1 X0 Iσ2e X (X0 X)−1 =
| {z }
konstanta [4.74]

= (X0 X)−1 (X0 X) (X0 X)−1 σ2e = (X0 X)−1 σ2e

b Iz inverze matrike koeficientov


Iz slednjega lahko izračunamo standardno napako za ocene parametrov β.
vzamemo pripadajoči diagonalni element in izračunamo kvadratni koren. Rezultat še pomnožimo s
standardnim odklonom (σe ).

4.3.5 Rešitev sistema enačb

Poskusimo dobiti rešitev sistema enačb 4.63 za metodo najmanjših kvadratov. Najprej se bomo poslužili
kar matrične oblike zapisa sistema enačb prav zaradi preglednosti. Opisani algoritem se je predstavnik
tako imenovanih direktnih metod.
V primeru, da je sistem enačb (matrika koeficientov) polnega ranga, lahko sistem rešimo tako, da v 4.63
obe strani enačbe pomnožimo z leve z inverzo matrike korficientov. Pri matrikah moramo biti pozorni, s
katere strani množimo enačbo. One strani morata biti množeni iz iste strani.

−1  
X0 X X0 X βb = X0 X −1 X0 y [4.75]

Na levi strani imamo zmnožek inverzne matrike koeficientov (X0 X)−1 in matrike koeficientov (X0 X),
ki da identično matriko I. Zmnožek identične matrike I in vektorja z ocenami parametrov β b je kar b
β,
ki ostane na levi strani enačbe. Desne strani pa nimamo kaj preurejati. Tako smo dobili izraz 4.76, ki
ponazarja izračun

−1
b
β = X0 X X0 y [4.76]

Pri nepolnem rangu pa rešitve dobimo s pomočjo splošne inverze 4.77. V tem primeru pa dobimo lahko
zelo različne rešitve, saj je splošnih inverz neskončno mnogo in prav toliko je tako tudi rešitev. Pri

82
Biometrija 83

podajanju rezultatov pač navajamo samo rezultate, ki niso odvisni od izbrane splošne inverze. Dobimo
jih s tako imenovanimi ocenljivimi funkcijami.

−
b
β = X0 X X0 y [4.77]

Primer 1 Vzemimo podatke v tabeli ...To so podatki za mladice, za za četek pa nastavimo sistem enačb
za debelino hrbtne slanine. Predpostavimo naslednji model (4.78).

yi j = µ + Pi + bxi j + ei j [4.78]

Privzemimo predpostavke, ki so pri metodi najmanjših kvadratov potrebne. Meritve in ostanki morajo
biti identično in neodvisno porazdeljeni, kar je razvidno iz 4.79.

yi j ∼IID(µ + Pi + bxi j , σ2e ) [4.79]

Sistem enačb lahko nastavite s pomočjo matrike dogodkov X, vektorja opazovanj y in vektorja z ocenami
b Sistem enačb nastavite po zgledu v enačbi 4.63.
parametrov β.
    
23 11 12 2300.3 b
µ 281
 11 1092.1   b   144 
 11 0   P1 =  [4.80]
 12 0 12 1208.2   P
b2   137 
2300.3 1092.1 1208.2 129322.79 b
b 30422.4

To je sistem enačb s štirimi neznankami in štirimi enačbami. Pogumni lahko pomnožite levo stran in
začnete z reševanjem enačb. Tisti, ki dajejo prednost ugodju in sodobnim orodjem, bodo uporabili
Žal so enačbe med seboj odvisne. Tretja enačba je razlika med prvo in drugo enačbo.

Primer 2 Praviloma pri neodvisnih spremenljivkah odštejemo povpre čje ali pa zaokrožimo na vre-
dnost, ki je blizu povprečja. Po živinorejsko temu preprosto rečemo, da korigiramo na povprečje oziroma
na izbrano vrednost. Poskusimo torej model 4.81, v katerem korigiramo na 100 kg.

yi j = µ + Pi + b(xi j − 100) + ei j [4.81]

Ponovno predpostavimo, da so meritve in ostanki porazdeljeni identi čno in neodvisno, kar je razvidno iz
4.82.

yi j ∼IID(µ + Pi + b(xi j − 100), σ2e ) [4.82]

Del sistem enačb 4.83, ki pripada ocenam za srednjo vrednost µ in za vpliva pasme 11 (P 1 ) in 22 (P2 ),
je enak prejšnjemu v enačbi 4.80. Spremenita se zadnja vrstica in zadnji stolpec v matriki koeficientov
in zadnji element v vektorju opazovanj.
    
23 11 12 0.3 b
µ 281
 11 11 0   b
−7.9   P1   144 
 =  [4.83]
 12 0 12 8.2   Pb2   137 
0.3 −7.9 8.2 223.79 b
b −137.7

83
84 Biometrija

4.4 Metoda tehtanih najmanjših kvadratov

Model, ki ga lahko obdelamo z metodo tehtanih najmanjših kvadratov bomo prikazali kar v matri čni
obliki. Tako imamo zajeto veliko modelov in v nekaj simbolih zajeta vsa najpomembnejša pravila. Z
metodo tehtanih kvadratov bomo obdelali samo podatke, za katere lahko uporabimo sistematski model
(enačba 4.84). V naključnem delu modela je torej samo ostanek, ki je edini vir variabilnosti.

y = Xβ + e [4.84]

Opazovanja v vektorju y so normalno porazdeljena (ena čba 4.85). Pravzaprav bi lahko izračunali rešitve
tudi pri drugih porazdelitvah, vprašanje pa je, kaj bi nam take rešitve pomagale. Torej bomo metodo
izbrali, ko bo porazdelitev primerna: normalna ali pa se približa normalni porazdelitvi toliko, da lahko
zanemarimo napako. Pričakovana vrednost je določena s sistematskim delom modela: Xβ. Varianca pa
je heterogena, kar pomeni, da opazovanja niso enako zanesljivo merjena.

y ∼ N Xβ, Σ⊕ σ2i [4.85]

Matriko varianc in kovarianc za ostanek smo zapisali kot direktno vsoto (ena čba 4.86), ki smo jo nakazali
s simbolom Σ⊕ . Direktno vsoto v našem primeru predstavlja diagonalna matrika, elementi na diagonali
pa so posamezne variance σ2i , ki predstavljajo zanesljivost merjenja posameznih meritev. V matriki
enačbe 4.86 imamo tri različne komponente: σ21 ,σ22 in σ23 .

 
σ21

 σ22 

 σ21 
 
R = Σ⊕ σ2i =  ..  [4.86]
 . 
 
 σ23 
σ21

Iz matrike varianc in kovarianc za ostanek (R) je tudi razvidno, da so kovariance - nediagonalni elementi
- enake 0. Torej morajo biti meritve neodvisne. Z drugimi besedami: živali naj ne bi bile sorodne, ali
iz istih gnezd, istih hlevov ... Meritve pri sorodnikih so genetsko povezane, vpliv na meritve ima lahko
skupno okolje v gnezdu ali skupno okolje v hlevu. Kadar te vplive uravnotežimo s posebnim na črtom
poskusa, potem jih lahko tudi zanemarimo. Predno pa naredimo ta usodni korak, pa moramo preveriti,
če je uravnoteženost zadostna.

4.4.1 Ilustracija metode tehtanih najmanjših kvadratov

Primeri meritev z različno natančnostjo


Analiza vrednosti z različno standardno napako ocene
4.4.2 Izpeljava funkcije pri metodi tehtanih najmanjših kvadratov

Tudi pri izpeljavi metode tehtanih najmanjših kvadratov bomo uporabili enostavni model 4.87. Razlika
med modeloma, primernima za metodo najmanjših kvadratov (OLS, 4.8) in metodo tehtanih najmanjših
kvadratov (WLS, 4.87), se pokaže šele pri opisu strukture varianc.

yi j = µ + Ai + bxi j + ei j [4.87]

Tako sta pričakovani vrednosti v obeh modelih (enačbi 4.9 in 4.88) enaki: predstavljeni sta s sistematskim
delom modela. Pri OLS so ostanki identično in neodvisno porazdeljeni (4.9), pri WLS pa pričakujemo

84
Biometrija 85

heterogene variance med posameznimi nivoji pri vplivu A. Varianco za ostanek tako dodatno ozna čimo
z indeksom vpliva, ki povzroča heterogenost. V našem primeru (4.88) je to indeks i od vpliva A.

yi j ∼IID(µ + Ai + bxi j , σ2i ) [4.88]

Ostanki, in s tem tudi meritve, sedaj niso več enakovredni. Ene meritve so bolj zanesljive in bi jim pri
izvrednotenju radi dali tudi večji pomen - večjo težo. Drugim meritvam pa manj verjamemo, ker imajo
večji standardni odklon - z drugimi besedami - so manj natan čno izmerjene. Pri izvrednotenju bi jih tako
radi manj upoštevali. Sedaj moramo najti še primerno težo za posamezne meritve in jih potem dati na
skupni imenovalec. Natančnost merjenja prikazujemo z merami razpršenosti, torej varianco in standardni
odklon. Za standardizacijo ostankov je primeren standardni odklon (4.89).

ei j yi j − E yi j
i j = = [4.89]
σi σi

Tako pridobljene standardizirane ostanke smo označili z grško črko  (4.89), prav tako bomo z odebeljeno
grško črko  (4.90) označili standardizirane ostanke, razporejene v vektor.

  
 0 = i j = 11 12 · · · i j · · ·  pn p [4.90]

Standardizirani ostanki (4.91) imajo pričakovano vrednost 0 in homogeno varianco 1.

i j ∼IID(0, 1) [4.91]

Iz enačbe 4.89 vidimo, da so elementi vektorja  0 standardizirani ostanki. V enačbi 4.92 prikazujemo te
standardizirane ostanke v matrični obliki, kot produkt ostankov in diagonalne matrike, katere diagonalni
elementi so inverzne vrednosti standardnih odklonov. Sliši se precej komplicirano. Veliko bolj boste
razumeli produkt, če vektor in matriko pomnožite. Ste dobili vektor standardiziranih odklonov?

 
σ−1
1
 σ−1 
 1 
   .. 
ei j   . 
0 = = e11 e12 · · · ei j · · · e pn p   [4.92]
σi  σ−1 
 i 
 .. 
 . 
σ−1
p

Vektor v enačbi 4.92 je vektor ostankov e, matriko pa bomo označili z L−1 . Oznaka za matriko L
pogosto uporabimo za spodnjo trikotno matriko. V našem primeru nimamo trikotne matrike, ampak
samo diagonalno. Če pa bi imeli bolj splošni model, pa bi ta matrika bila trikotna matrika, ki bi imela
od nič različne elemente na diagonali in pod diagonalno (spodnja trikotna matrika). Tako se nam zdi
primerno, da oznako prilagodimo bolj splošnemu primeru.

 0 = e0 L−1 [4.93]

Sedaj imamo pripravljeno vse, da izračunamo tehtano vsoto kvadratov za ostanek (4.94). Pri tem potre-
bujemo standardizirane ostanke v vektorju .

RS S =  0  = [4.94]

85
86 Biometrija

Zamenjajmo vektorja  z desno stranjo enačbe 4.93. Pri tem ne pozabite izraz ustrezno transponirati!

= e0 L−1 ()0 e = [4.95]

Pomnožimo najprej matriki L−1 ()0 (enačba 4.96).

  
σ−1
1 σ−1
1
 σ−1  σ−1 
 1  1 
 ..  .. 
 .  . 
   [4.96]
 σ−1  σ−1 
 i  i 
 ..  .. 
 .  . 
σ−1
p σ−1
p

Dobimo inverzo matrike varianc in kovarianc za ostanek (4.97). Struktura je enostavna: matriki R in
njena inverza sta diagonalni, elementi na diagonali pa so odvisni od tega, v katerih pogojih je bila meritev
opravljena. Zanesljivost meritev oziroma ostankov je tokrat ponazorjena z variancami, ki so specifi čne
za posamezne nivoje pri vplivu A.

 
σ−2
1
 σ−2 
 1 
 .. 
 . 
  = R−1 [4.97]
 σ−2 
 i 
 .. 
 . 
σ−2
p

Matriko lahko vstavimo v enačbo 4.95. Rezultat v enačbi 4.98 razločno pokaže, da pri računanju vsote
kvadratov “opravimo” tehtanje informacij z inverzo matrike varianc in kovarianc za ostanek R.

RS S = e0 R−1 e [4.98]

Izpišimo vektorja ostankov in inverzo matrike R (4.99)!

  
σ−2
1 e11
 σ−2  e12 
 1  
 ..  .. 
  .  . 
e11 e12 · · · ei j · · · e pn p    [4.99]
 σ−2   ei j 
 i  
 ..   .. 
 .  . 
σ−2
p e pn p

4.4.3 Izpeljava metode tehtanih najmanjših kvadratov v skalarni obliki

Vsoto kvadratov za ostanek pri metodi tehtanih najmanjših kvadratov v skalarni obliki (4.100) lahko
dobimo z množenjem vektorjev in matrike v enačbi (4.99).

 !2
X  ei j 2 X yi j − E yi j
RS S == = [4.100]
ij
σi ij
σi

86
Biometrija 87


V enačbo vstavimo izraz za pričakovano vrednost opazovanj E yi j in poenostavimo zapis pri vsoti
(4.101).
X 2
RS S = σ−2
i yi j − µ − Ai − bxi j [4.101]
ij

Sedaj smo že dobili funkcijo za vsoto kvadratov v taki obliki, da ji bomo kos. Poiskati ji moramo mi-
nimun, zato moramo najprej poiskati vse parcialne odvode po neznanih parametrih. Pri metodi tehtanih
najmanjših kvadratov (WLS) bomo kakšen korak presko čili. Če vam bo izpeljava delala preglavice, si
pomagajte z izpeljavo pri metodi najmanjših kvadratov (OLS). Postopka sta si zelo podobna. V funkciji
za WLS (4.101) imamo dodatni člen σ−2i , ki ga obravnavamo kot konstanto.

Najprej bomo odvajali funkcijo po neznanem parametru µ (4.102), ki predstavlja srednjo vrednost.

P 2
∂ σ−2
i yi j − µ − Ai − bxi j
ij
[4.102]
∂µ

Odvod v enačbi 4.103 bomo morali najprej izenačiti z 0.


X 
2σ−2
i yi j − µ − Ai − bxi j (−1) [4.103]
ij

Namesto parametrov dobimo ocene, označene s strešico, in delimo obe strani s konstanto 2. Ena čbo
4.104 bomo še malo preuredili.
X X X X
− i yi j +
σ−2 σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = 0 [4.104]
ij ij ij ij

Člene z neznanimi ocenami zadržimo na levi strani ena čbe, na desno stran pa prenesemo preostali člen,
ki predstavlja tehtano vsoto opazovanj. Dobili smo prvo ena čbo (4.105) v sistemu enačb za metodo
tehtanih najmanjših kvadratov.
X X X X
σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = i yi j
σ−2 [4.105]
ij ij ij ij

Odvajati moramo še po vseh parametrih vpliva A. Pri metodi najmanjših kvadratov smo se nau čili, da
lahko odvajamo kar po parametru Ai0 , ki nam bo predstavljal vse parametre pri vplivu A. Na koncu pa
izpeljemo enačbe za vse parametre vpliva A z indeksi i 0 = 1, 2, ..., p. Odvajajmo torej po parametru A i0
(enačba 4.106).
P 2
∂ σ−2
i yi j − µ − Ai − bxi j
ij
[4.106]
∂Ai0

Pri odvodu imamo dve možnosti. Pri prvi možnosti, nakazani v ena čbi 4.107 zgoraj, je vpliv pri meritvi
(Ai ) isti kot parameter, za katerega iščemo enačbo (Ai0 ) in smo po njem odvajali. Torej sta indeksa enaka
i = i0 . Pri drugi možnosti, nakazani v enačbi 4.107 spodaj, vpliv Ai0 , za katerega iščemo enačbo, ni
prisoten pri meritvah iz skupine Ai . Indeksa sta torej različna i , i0 , osvod je enak 0 in nas ne zanima
več.

X 
 (−1); k jer i = i0
2σ−2
i yi j − µ − Ai − bxi j [4.107]
0; k jer i , i0
ij

87
88 Biometrija

Nadaljujemo torej samo s prvo možnostjo. Ponovno ena čbo izenačimo z 0, parametri postanejo ocene
parametrov in delimo obe strani s konstanto 2. Varianca σ 2i je sicer tudi konstantna vrednost, a se od
meritve do meritve razlikuje, zato se je ne moremo znebiti.
X X X X
− i yi j +
σ−2 σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = 0 [4.108]
ij ij ij ij

Enačbo 4.108 preuredimo v 4.109 tako, da na levi strani zadržimo člene z neznankami - ocenami para-
metrov, na desno pa prenesemo preostali člen s tehtanimi meritvami.
X X X X
σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = i y1i
σ−2 [4.109]
ij ij ij ij

Zgornja enačba (4.109) je splošna in predstavlja vse enačbe za parametre pri vplivu A. Razvijmo torej
enačbo za vpliv A1 ! V enačbi 4.109 indeks i nadomestimo povsod z indeksom 1 (ena čba 4.110). Isto
postopajmo še za indekse i = 2 (4.110) in zadnji indeks i = p A (4.112). Za ostale indekse lahko poskusite
sami.
X X X X
σ−2
1 bµ+ σ−2 b
1 A1 + σ−2 b
1 bx1 j = 1 y1 j
σ−2 [4.110]
1j 1j 1j 1j

X X X X
σ−2
2 bµ+ σ−2 b
2 A2 + σ−2 b
2 bx2 j = 2 y2 j
σ−2 [4.111]
2j 2j 2j 2j

X X X X
σ−2
pA b
µ+ σ−2 b
pA A pA + σ−2 b
pA bx pA j = pA y pA j
σ−2 [4.112]
pA j pA j pA j pA j

Tako smo iz splošne enačbe 4.109 dobili kar p A novih enačb: po eno za vsak neznan parameter pri vlivu
A. Spomnite se tudi, da ste pri matematiki rekli, da za potrebujemo v sistemu toliko ena čb, kot imamo
neznank. Do sedaj smo našli eno enačbo za srednjo vrednost in p A enačb za vpliv A. Potrebujemo še
eno enačbo, saj model vsebuje še eno neznanko - regresijski koeficient b. Tako moramo odvajati še po
parametru b (4.113)

P 2
∂ σ−2
i yi j − µ − Ai − bxi j
ij
[4.113]
∂b
X  
2σ−2
i yi j − µ − Ai − bxi j −xi j [4.114]
ij

Odvod 4.114 izenačimo z 0, parametre spremenimo v ocene in delimo s konstanto 2 (ena čba 4.115).

X X X X
i yi j xi j −
σ−2 σ−2
i bµ xi j − σ−2 b
i Ai xi j − σ−2 b 2
i bxi j = 0 [4.115]
ij ij ij ij

Nazadnje preuredimo enačbo tako kot vse doslej. Nova enačba 4.116 predstavlja zadnjo enačbo, ki jo
potrebujemo za nastavitev sistema enačb.
X X X X
σ−2
i bµ xi j + σ−2 b
i Ai xi j + σ−2 b 2
i bxi j = i yi j xi j
σ−2 [4.116]
ij ij ij ij

88
Biometrija 89

Xberimo skupaj enačbe 4.105, 4.110, 4.111, ..., 4.112, 4.116. Priporočam, da jih lepo podpisujete. Iz
zbirke enačb pa nastavimo sistem enačb (4.117) in ga v našem primeru nekoliko preuredimo (4.117).

 P P P P P   P 
σ−2
i σ−2
1 σ−2
2 ··· σ−2
pA i xi j
σ−2
i yi j
σ−2
 ij 1j 2j pA j ij   ij
 P P P   P 
σ−2 σ−2 0 ··· 0 σ−2 x b
µ  
σ−21 y1 j 
 1 1 1 1 j 
 1j 1j 1 j  Ab1  
 P P P −2    1 j
P −2 
 σ−2 0 σ−2 ··· 0 σ2 x2 j     σ2 y2 j 
 2 2
 Ab2   
 2j 2j 2j
 = 2j 
[4.117]
 .. .. .. .. .. ..  ..   ..
 . . . . . .  .   
    P −2 . 
 P .. P P −2  AbpA  


σ pA y pA j 
 σ−2
pA 0 0 . σ−2
pA σ pA x pA j   
 pA j  b
b  pA j 
 P P P PpA j pP
Aj
2
 P
σi yi j xi j
−2
i xi j
σ−2 1 x1 j
σ−2 2 x2 j · · ·
σ−2 pA x pA j
σ−2 σ−2i x ij ij
ij 1j 2j pA j ij

 P   P 
nσ−2 n1 σ−2 n2 σ−2 ··· nPA σ−2 i xi j
σ−2
i 1 2 pA
ij i yi j
σ−2
 P    ij
P 
 n1 σ−2 n1 σ−2 0 0 
 1 1 ··· σ−21 x1 j  b
µ  σ−21 y1 j 

 1 j  b  
 P −2  A1   1j
P 
 n2 σ−2 0 n2 σ−2 ··· 0 σi2 x2 j     σ−22 y2 j 

 2 2
 Ab2  
 2j  = 2j 
[4.118]
 .. .. .. .. .. ..  ..   ..
 . . . . . .  .   
    P −2 . 
 .
.. P −2  b
A pA  


σ pA y pA j 
 nPA σ−2 pA 0 0 nPA σ−2
pA σ pA x pA j   
 pP
Aj
 b
b  pA j
P 
 P −2 P −2 P −2 P −2 
σi xi j σ1 x1 j σ2 x2 j · · · σ PA x pA j σi xi j
−2 2 σi yi j xi j
−2

ij 1j 2j pA j ij ij

4.4.4 Izpeljava metode v matrični obliki

Pri metodi tehtanih najmanjših kvadratov so vključeni primeri s heterogenimi variancami za ostanek
4.120. Te primere srečamo lahko pri izvedbi preizkusa v različnih okoljih, meritvami opravljenimi z
različnimi merili ali metodami, pri večlasnostnih modelih. Pri slednjih lahko med meritvami na isti enoti
(živali) obstaja podobnost - kovarianca 4.121. Model je še vedno samo sistematski 4.119, tudi druge
predpostavke iz metode najmanjših kvadratov še vedno držijo.

y = Xβ + e [4.119]

   
y1 Iσ2e1 0
y= R= [4.120]
y2 0 Iσ2e2

   
y1 Iσ2e1 Iσe12
y= R= [4.121]
y2 Iσe12 Iσ2e2

Porazdelitev lahko ponazorimo tudi v obliki, prikazani v ena čbi 4.122.

y ∼ (Xβ, R) [4.122]

Če hočemo podatke skupaj obdelati, moramo ostanke dati na skupni imenovalec - jih standardiziramo
(enačba 4.123).

ε1 = e1 σ−1
e1 ε2 = e2 σ−1
e2 [4.123]

89
90 Biometrija

Pri dvolastnostni analizi tudi poiščemo kvadratni koren matrike varianc in kovarianc med lastnostmi.
Operacijo 4.124 imenujemo Cholesky razčlenitev, standardizirane ostanke pa dobimo po enačbi 4.125.
  
  σ e1 0 σ e1 σe12 /σe1
σ2e1 σe12 r
2   
r
2   = LL0 [4.124]
R0 = =
σe12 σ2e2 σe12 /σe1 2 σ2e2 − σe12 /σe1 0 2 σ2e2 − σe12 /σe1

ε = L−1 e [4.125]

Vrnimo se k enolastnostni analizi iz 4.120, kjer smo standardizirane ostanke dobili v 4.123. Zastavimo
vsoto kvadratov (enačba 4.126).
 
 0 0 ε1
ε1 ε2 = ε01 ε1 + ε02 ε2 = [4.126]
ε2

Uporabimo enačbi v 4.123 in preuredimo (4.127).

= e01 σ−1
e1 σe1 e1 + e2 σe2 σe2 e2 = e1 Iσe1 e1 + e2 Iσe2 e2 =
−1 0 −1 −1 0 −2 0 −2
[4.127]

Vsoto ostankov lahko preuredimo v levi in desni produkt matrike varianc in kovarianc z vektorjem ostan-
kov (4.128). Tistim, ki si te preureditve ne predstavljate povsem jasno, priporo čamo, da vektorje in
matrike pomnožite. Dobili boste vsoto v enačbi 4.127.
  
  Iσ−2
e1 0 e1
= e01 e02 = [4.128]
0 Iσ−2
e2 e2

Iz enačbe 4.128 je razvidno, da se med ostanke e vrine inverza matrike R. Tako dobimo vsoto kvadratov
za metodo tehtanih najmanjših kvadratov. Ker ostanki niso enako natan čno merjeni, jih moramo stehtati.
Pomen (težo) predstavlja varianca: bolj je neka meritev površno zmerjena, torej je manj zanesljiva,
manjšo težo ji moramo dati pri obračunu. To dosežemo prav z množenjem z inverzo. Matriko R −1 dobili
iz 4.127 standardnih odklonov, ko smo standardizirali ostanke.

e0 R−1 e = [4.129]

Preuredimo vsoto kvadratov tako, da ostanke nadomestimo z razliko med vektorjem opazovanj (y) in
njihovo pričakovano vrednostjo (Xβ). Dobimo enačbo 4.130.

= (y − Xβ)0 R−1 (y − Xβ) = [4.130]

Transponirajmo prvi člen v enačbi.



= y0 − β0 X0 R−1 (y − Xβ) = [4.131]

Preurejeno enačbo 4.131.

= y0 R−1 y − y0 R−1 Xβ − β0 X0 R−1 y + β0 X0 R−1 Xβ =


| {z } | {z } [4.132]
skalar skalar

= y0 R−1 y − 2β0 X0 R−1 y + β0 X0 R−1 Xβ [4.133]

90
Biometrija 91

Enačbo 4.129 smo preuredili. Sedaj pa poiščimo odvode na neznane parametre v vektorju β(enačba
4.134 ).

∂ y0 R−1 y − 2β0 X0 R−1 y + β0 X0 R−1 Xβ
= −2X0 R−1 y + 2X0 R−1 Xβ [4.134]
∂β

Odvode izenačimo z vektorjem 0, parametre nadomestimo z ocenami in delimo s konstanto 2 4.135.

b=0
−X0 R−1 y + X0 R−1 Xβ [4.135]

Preuredimo (4.136)! Leva stran preurejene enačbe predstavlja matriko koeficientov ali matriko varianc
in kovarianc, desna stran pa predstavlja vsoto tehtanih opazovanj, ki pripadajo posameznim parametrom.

b = X0 R−1 y
X0 R−1 Xβ [4.136]
 
b - rešitve sistema - dobimo tako, da desno stran
Če je sistem polnega ranga, lahko ocene parametrov β
od spredaj pomnožimo z inverzo matrike koeficientov [4.2.13].
−1
b
β = X0 R−1 X X0 R−1 y [4.137]

Tako kot pri prvi metodi se moramo tudi tu prepričati,


 da smo našli minimum. Zato potrebujemo druge
b
parcialne odvode, ki jih izvrednotimo v točki rešitev β .

  h −1 i −1
E b
β = E X0 R−1 X X0 R−1 y = X0 R−1 X X0 R−1 E (y) =
| {z } [4.138]
konstanta

−1
= X0 R−1 X X0 R−1 Xβ = β [4.139]
 
−1
Var XR X XR y =
0 −1 0 −1
| {z } [4.140]
konstanta
h −1 0 −1 i
= Cov X0 R−1 X X R−1 y, y0 R−1 X X0 R−1 X = [4.141]

−1 −1
X0 R−1 X X0 R−1 var (y) R−1 X X0 R−1 X =
| {z } | {z } [4.142]
konstanta konstanta

−1 −1
= X0 R−1 X X0 R−1 RR−1 X X0 R−1 X = [4.143]

−1
= X0 R−1 X [4.144]

4.4.5 Rešitev sistema enačb

4.5 Metoda splošnih najmanjših kvadratov

Kadar pa se ukvarjamo z mešanimi modeli, imamo več odklonov in sicer za vsak naključni vpliv in
ostanek. V teh primerih jih poimenujemo po naključnih vplivih in po ostanku, seveda pa se moramo
takrat poslužiti zahtevnejše metode - metode splošnih najmanjših kvadratov.

91
92 Biometrija

4.5.1 Izpeljava metode v skalarni obliki

4.5.2 Izpeljava metode v matrični obliki

y = Xβ + Zu + ε [4.145]

y ∼ N (Xβ, V) [4.146]

V = ZGZ0 + R [4.147]

e0 V−1 e = y0 V−1 y − 2β0 X0 V−1 y + β0 X0 V−1 Xβ [4.148]



∂ y0 V−1 y − 2β0 X0 V−1 y + β0 X0 V−1 Xβ
= −2X0 V−1 y + 2X0 V−1 Xβ [4.149]
∂β

b = X0 V−1 y
X0 V−1 Xβ [4.150]
 
E β b =β [4.151]
  
b = X0 V−1 X −1
var β [4.152]
  
cov y, u0 = cov Xβ + Zu + ε, u0 = cov Zu, u0 = ZG [4.153]

Splošna formula za napoved naključne spremenlivke, ko so opazovanja normalno porazdeljena:



E (u | y) = cov u, y0 • var−1 (y) • (y − E (y)) [4.154]

Sedaj to preizkusimo na primeru za napoved plemenske vrednosti ( û). Pri tem bomo uporabili podatke -
opazovanja, zbrane v vektorju y.

û = E (u | y) = GZ0 V−1 (y − Xβ) = [4.155]

4.5.3 Rešitev sistema enačb

4.6 Metoda največje zanesljivosti

Funkcija
yanesljivosti
Predpostavljena
poraydelitev
Vyor;na distribucija

Slika 4.5: Funkcija zanesljivosti

a) diskretne spremenljivke

` (β, u | y) = f (y | β, u) = P Y1 = y1 , Y2 = y2 , ..., Yn = yn, [4.156]

b) zvezne spremenljivke

` (β, u | y) = f (y | β, u) = P (y1 ≤ Y1 < y1 + dy1 y2 ≤ Y2 < y2 + dy2 , . . . , yn ≤ Yn < yn + dyn ) [4.157]

92
Biometrija 93

4.6.1 Kako poiščemo maksimum neke funkcije?

1) Funkcija ima v dani točki maksimum, če so vsi parcialni odvodi v dani točki enaki 0.
2) Hkrati je vrednost drugih odvodov negativna.

4.6.2 Spremenljivke z naravno porazdelitvijo.

y = Xβ + Zu + e [4.158]

E (y) = Xβ [4.159]

V = R + Z GZ0 [4.160]

y ∼ N (Xβ, V) [4.161]

Pri tej metodi moramo poznati porazdelitveno funkcijo, ni pa nujno, da je to normalna porazdelitev.
Normalna porazdelitev je zanimiva zato, ker so metodo že dodobra obdelali: obrazložili in dokazali z
algebro ter napisali programske pakete za obdelavo podatkov. Nam ostane le, da izpeljavo ponovimo iz
dveh namenov: razumeti metodo, da jo pravilno uporabimo ter zaupamo rezultatom, in slediti postopku,
da morda razvijemo metodo za še neznani primer.
Za živinorejce je nadvse privlačno, da metoda dopušča neslučajne vzorce. Teh imamo na pretek: vse
naše populacije so selekcionirane na gospodarsko pomembne lastnosti in ravno te podatke z najve čjim
zanimanjem obdelujemo. Edini pogoj je, da so podatki, na osnovi katerih je bil izbor (selekcija) narejen,
zbrani v vektorju y. Pa še tu je izjema, sicer redka, pa vendar: če pa lastnosti, upoštevane pri izboru, niso
v nikakršni povezavi (med njima ni korelacije) z opazovano lastnostjo, potem teh ni potrebno uporabiti
pri obdelavi.
Slučajna spremenljivka y je porazdeljena po naravnem porazdelitvenem zakonu. Njena porazdelitvena
funkcija ima splošno obliko prikazano v enačbi 4.162.

p −1  
1 0  
f (y) = (2π)n | V | exp − y − E (y) V−1 y − E (y) [4.162]
2

Iz modela 4.158 razberemo, da želimo podatke opisati z lokacijskimi parametri β, za parametre disperije
(komponente varianc in kovarianc) pa smo predpostavili, da so znane. Tako bomo vektorju neznanih
parametrov θ (mala črka theta) priredili samo vektor β. Ker pa želimo postopek posplošiti, bomo za
vektor neznanih parametrov uporabili oznako θ.
Funkcija zanesljivosti na pove, s kolikšno zanesljivostjo se neznani parametri nahajajo na lokaciji θ, če
je vse, kar o populaciji vemo, nanizano v vektorju opazovanj y.

p −1  
1 0  
l (θ | y) = f (y | θ) = (2π)n | V | exp − y − Xβ V−1 y − Xβ [4.163]
2

n 1 1 0  
ln (l (θ | y)) = L (θ | y) = − ln (2π) − ln | V | − y − Xβ V−1 y − Xβ [4.164]
2 2 2

V literaturi boste našli tudi zapis [4.4.9] s znakom za sorazmerno (proportional) ” ∝ ”.


 0  
L (θ | y) ∝ ln (| V |) + y − Xβ V−1 y − Xβ [4.165]

Poiščimo maksimum funkcije! Poiskati moramo vse parcialne odvode in jih izena čiti z nič.

93
94 Biometrija

Prvi parcialni odvodi

∂L (y | θ)
= [4.166]
∂θ
 0  
∂ − n2 ln (2π) − 21 ln | V | − 21 y − Xβ V−1 y − Xβ
= = [4.167]
∂β
   0  
∂ − 2n ln (2π) + ∂ − 21 ln | V | + ∂ − 21 y − Xβ V−1 y − Xβ
= = [4.168]
∂β
   0  
∂ − 2n ln (2π) ∂ − 12 ln | V | ∂ − 12 y − Xβ V−1 y − Xβ
= + + = [4.169]
∂β ∂β ∂β

1 1
=0+0+ • 2X0 V−1 y − • 2X0 V−1 Xβ = X0 V−1 y − X0 V−1 Xβ [4.170]
2 2

b=0
X0 V−1 y − X0 V−1 Xβ [4.171]

b = X0 V−1 y
X0 V−1 Xβ [4.172]

b Sistematski vplivi so tako lahko


Dobili smo sistem normalnih enačb za oceno sistematskih vplivov β.
ocenjeni z metodo splošnih najmanjših kvadratov. Rezultati so najboljše linearne nepristranske ocene
(Best Linear Unbiased Estimator - BLUE). Lastnosti bomo dokazali kasneje v poglavju 4.5.
Matrika drugih parcialnih odvodov
Preveriti moramo, ali se v najdeni točki (rešitvi) res nahaja maksimum. Potrebujemo torej vse druge
parcialne odvode in jih izvrednotiti v točki b
θ - pri rešitvi sistema. Pri maksimalni vrednosti funkcije
morajo biti drugi odvodi negativni.
 
∂2 L (y | θ)
[4.173]
∂θ∂θ0 θ=θb

∂2 L (y | θ) ∂ X0 V−1 y − X0 V−1 Xβ
= = −X0 V−1 X [4.174]
∂β∂β0 ∂β0

Matrika X0 V−1 X je neodvisna od rešitev β.b Ker je matrika varianc in kovarianc, je pozitivno definitna.
Preprosto: matriko sestavljajo različne vsote kvadratov: le-te pa ne morejo biti negativne. Zaradi minusa
pred produktom matrik so vrednosti drugih odvodov negativne. Dokaz je torej uspel.
Informacijska matrika
   
∂2 L (y | θ) 0 −1
−E = E X V X = X0 V−1 X [4.175]
∂θ∂θ0

Matrika asimptotičnih (spodnja meja) varianc za ML ocene


  −1  −1
∂2 L (y | θ)
−E = X0 V−1 X [4.176]
∂θ∂θ0 θ=θb

Spodnje meje varianc za ML ocene najdemo na diagonali inverze za matriko koeficientov. Nediagonalni
elementi so kovariance med ocenama za različna parametra.

94
Biometrija 95

4.6.3 Selekcijski indeks

Selekcijski indeks je napoved naključnih vplivov, ko so sistematski vplivi znani. Tako opazovanja pred
izvrednotenjem plemenskih vrednosti očistimo sistematskih vplivov (opravimo korekcijo na sistemat-
ske vplive), naključni del pa z ozirom na variance in kovariance razdelimo po naklju čnih vplivih. Za
selekcijski indeks uporabimo samo aditivni genetski del.
Posamezni element vektorja u je plemenska vrednost u i - plemenska vrednost za i-to žival. Vektor kova-
rianc med opazovanji y in ui je vektor cov(y, ui ), kar je stolpec matrike kovarianc C = ZG. Označimo
pričakovano vrednost vektorja opazovanj z µ i , potem je E(y) = Xβ . Odstopanje y − Xβ je naključna
spremenljivka s pričakovano vrednostjo (srednjo vrednostjo) 0
Linearna napoved (ocena) plemenske vrednosti za i-to žival je û i = b0 (y − Xβ). Vektor b vsebuje teže
za vsak par (yi - µi ). Teže, ki maksimirajo korelacijo med oceno plemenske vrednosti û i in plemensko
vrednostjo ui in minimirajo vsoto kvadratov za razliko û i − ui , so podane v enačbi 4.177. Matrika V
predstavlja matriko fenotipskih varianc in kovarianc, stolpi čni vektor c pa vseguje genotipske kovarianco
med plemensko vrednosjo za lastnost, ki jo želimo izboljšati, in meritvami. Če izvajamo selekcijo na več
lastnosti, potem imamo za vsako lastnost en vektor c, ki jih lahko združimo skupaj v matriko kovarianc
C. Ostanimo kar pri eni lastnosti.

Vb = c ⇒ b = V−1 c
[4.177]
(Henderson, 1963)

µ̂i = b0 (y − Xβ) = c0 V−1 (y − Xβ) = c0 V−1 (y − Xβ) [4.178]

Pri tem predpostavimo, da so variance in kovariance ter sistematski vplivi (β) znani. Če primer posplo-
šimo in združimo enačbe za izračun plemenskih vrednosti za več živali hkrati, ko le-te temeljijo na istih
opazovanjih, je razširitev enostavna.

û = B0 (y − Xβ) [4.179]

VB = C ⇒ B = V−1 C [4.180]
−1
û = B0 (y − Xβ) = C0 V−1 (y − Xβ) = GZ0 R + Z GZ0 (y − Xβ) [4.181]

Selekcijski indeks je najboljša linearna napoved (Best Linear Predictor - BLP) plemenske vrednosti,
matrike varianc in kovarianc R in G ter vetor sistematskih vplivov β so znani. Je hkrati tudi najboljša
napoved (Best Prediktor - BP) med vsemi možnimi napovedmi, če so tako opazovanja v vektorju y kot
neznani parametri za naključne vplive v vektorju u porazdeljeni normalno (joint multivariate distribu-
tion).
Ker pa sistematski vplivi v β niso znani, smo jih nadomestili z ocenami 4.182. Tako dobimo najboljšo
linearno nepristransko napoved (Best Linear Unbiased Predictor - BLUP), če so ocene sistematskih
vplivov rezultat metode splošnih najmanjših kvadratov in so tako najboljše linearne nepristranske ocene
(BLUE).
 
b
û = C0 V−1 y − Xβ [4.182]

4.6.4 Sistem enačb mešanega modela

Matrika fenotipskih varianc in kovarianc V je pri večini primerov v živinoreji prevelika, da bi ji nepo-
sredno poiskali inverzo. Lahko pa izkoristimo pravilo 4.183. Ena čba nas sprva nekoliko prestraši, a ne
smemo obupati prehitro. Matriki R−1 in G−1 sta pogosto samo diagonalni ali kvečjemu blok-diagonalni

95
96 Biometrija

in ju je tako enostavno obrniti. Diagonalnim matrikam lahko poiš čemo inverzo kar na pamet, celo brez
računalnika. Matrika Z0 R−1 Z + G−1 pa je vedno manjša kot V in je zato manj dela za računalnik. Vedeti
moramo, da je izračun inverze računsko zelo zahtevna operacija.

−1 −1
V−1 = R + ZGZ0 = R−1 − R−1 Z Z0 R−1 Z + G−1 Z0 R−1 [4.183]

Sistem enažb mešanega modela bomo dobili tako, da bomo v sistemu normalnih ena čb 4.172 in formule
4.182 za izračun BLUP (u) zamenjali matriko V−1 z izrazom 4.183. Naredimo to najprej za drugo enačbo
4.182.
 −1 0 −1   
û = GZ0 R−1 − R−1 Z Z0 R−1 Z + G−1 ZR b
y − Xβ [4.184]

 
b od zadaj:
Razrešimo oklepaj tako, da pomožimo z GZ0 od spredaj in z izrazom y − Xβ

    
b − GZ0 R−1 Z Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
û = GZ0 R−1 y − Xβ b [4.185]

Izraz lahko najprej razširimo in sicer bomo na desni strani v drugem členu malo preuredili izraz pred
oklepajem. Zaradi preglednosti ga prikazujemo posebej v ena čbi4.186 .

GZ0 R−1 Z [4.186]

Sedaj pa se malo poigrajmo: matriko G pustimo zunaj, ostalo pa dajmo v oklepaj (ena čba 4.188). Produkt
je s tem ostal isti.

G Z0 R−1 Z [4.187]

S čaranjem še nismo zaključili. Če odvzamemo in dodamo isto matriko, potem se vrednost izraza v
oklepaju ne spremeni. Matrike morajo biti istega reda, da vsota obstaja. Sami preverite, da nismo
naredili nič napačnega!

G −G−1 + Z0 R−1 Z + G−1 [4.188]

Sedaj pa izraz 4.188 vstavimo nazaj v enačbo 4.185. Z enačbo 4.189 smo dobili ponovno priložnost, da
se poigramo z matrikami.
     
b − G −G−1 + Z0 R−1 Z + G−1 Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
û = GZ0 R−1 y − Xβ b [4.189]

V enačbi 4.190 smo preuredili člene tako, kot nam za nadaljevanje najbolj ugaja. Preverite, če je preure-
ditev korektna!
    
û = GZ0 R−1 b + GG−1 Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
y − Xβ b
 −1 0 −1   [4.190]
−G Z0 R−1 Z + G−1 Z0 R−1 Z + G−1 ZR b
y − Xβ

V drugem in tretjem členu množimo matriko z njeno inverzo. Tako po izračunu dobimo poenostavljen
izraz v enačbi 4.191.
      
b + Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
û = GZ0 R−1 y − Xβ b − GZ0 R−1 y − Xβ
b [4.191]

96
Biometrija 97

Ker pa sta prvi in zadnji člen v enačbi 4.191 izraza enaka, se odštejeta in nova enačba 4.192 je že veliko
bolj pregledna.
−1  
û = Z0 R−1 Z + G−1 b
Z0 R−1 y − Xβ [4.192]


Enačbo 4.192 smo nazadnje še od spredaj pomnožili z Z0 R−1 Z + G−1 .

  −1  
Z0 R−1 Z + G−1 û = Z0 R−1 Z + G−1 Z0 R−1 Z + G−1 b
Z0 R−1 y − Xβ
| {z } [4.193]
I

Na desni strani dobimo produkt matrike in njene inverze, kar zamenjamo z identi čno matriko I. Množenje
z identično matriko ničesar ne spremeni, zato smo jo tudi kar izpustili. Tako smo v ena čbi 4.194 dobili
drugo enačbo mešanega modela.

b
Z0 R−1 Z + G−1 û = Z0 R−1 y − Z0 R−1 Xβ [4.194]

Člene samo še preuredimo tako, da bo na prvem mestu člen s sistematskimi vplivi (β), na drugem člen s
naključnimi vplivi (u), na desni strani enačbe pa bomo zadržali tistega z opazovanji (y).

b + Z0 R−1 Z + G−1 û = Z0 R−1 y
Z0 R−1 Xβ [4.195]

Sedaj pa se lotimo še sistema normalnih enačb 4.172. Inverzo matrike fenotipskih varianc in kovarianc
V−1 nadomestimo z desnim izrazom v enačbi 4.183. Tako dobljena enačba 4.196 na prvi pogled izgleda
zelo kompleksna in razvlečena. Ko pa si stvari malo podrobneje pogledamo, pa se izkaže, da je lažje
opraviti vsa množenja in inverze v zamenjanem izrazu, kot pa poiskati inverzo matrike V.
 −1 0 −1    
X0 R−1 − R−1 Z Z0 R−1 Z + G−1 ZR b = X0 R−1 − R−1 Z Z0 R−1 Z + G−1 −1 Z0 R−1 y[4.196]

Delo pa si bomo olajšali, če enačbo 4.196 malo preuredimo. Pričnimo izraze na desni in levi razstavljati.
Na levi strani enačbeod spredaj množimo z matriko dogodkov X 0 ter od zadaj s členom Xβ. b Na desni
strani enačbe od spredat tudi množimo z matriko dogodkov X , od zadaj pa z vektorjem opazovanj y.
0

−1 −1
b 0 R−1 Z Z0 R−1 Z + G−1
X0 R−1 Xβ−X b = X0 R−1 y−X0 R−1 Z Z0 R−1 Z + G−1
Z0 R−1 Xβ Z0 R−1 y[4.197]

Pazite! Čeprav imamo na obeh straneh od spredaj isto matriko (X 0 ), pa jih ne moremo pokrajšati, kot smo
vajeni pri skalarni algebri. Matrika dogodkov nima inverze! Isto velja tudi za izraz X 0 R−1 , ki ga imamo
v vseh členih enačbe 4.197. Produkt nima inverze. To lahko uganemo že po tem, da je pravokotne in
ne kvadratne oblike. Pravokotne matrike pa nimajo inverze. Torej moramo še malo potrpeti in še naprej
premetavati matrike.
Zadnji člen na desni stranienačbe 4.197 prenesimo na levo stran enačbe 4.198. Zadnja dva člena na levi
−1 0 −1 
imata sedaj enak produkt X R Z Z R Z + G
0 −1 0 −1 −1 Z R , ki ga lahko spredaj izpostavimo.

−1  
b + X0 R−1 Z
X0 R−1 Xβ Z0 R−1 Z + G−1 b
Z0 R−1 y − Xβ = X0 R−1 y
| {z } [4.198]

V drugem členu enačbe 4.198 lahko na osnovi enačbe4.192 zamenjamo produkt, ki je posebej označen,
z vektorjem napovedi û . Enačba 4.199 je tako prva enačba v sistemu enačb mešanega modela.

b + X0 R−1 Zû = X0 R−1 y


X0 R−1 Xβ [4.199]

97
98 Biometrija


b + Z0 R−1 Z + G−1 û = Z0 R−1 y
Z0 R−1 Xβ [4.200]

Zaradi preglednosti smo ponovno navedli tudi drugo ena čbo mešanega modela 4.195. Ni potrebno veliko
spretnosti, da ju preuredimo v sistem enačb mešanega modela 4.201.

    
X0 R−1 X X0 R−1 Z  b
β X0 R−1 y
= [4.201]
Z0 R−1 X Z R−1 Z + G−1
0
û Z0 R−1 y

Sistematski in naključni vplivi so lahko ovrednoteni istočasno s sistemom enačb mešanega modela, ki
ga je razvil Henderson (1973). Za katerikoli mešani linearni model dobimo ekvivalentne rezultate kot
pri sistemu normalnih enačb 4.172 in nato še po enačbi 4.192 za naključne vplive. Rešitve so najbolše
linearne nepristranske ocene (BLUE) pri sistematskih vplivih in najboljše linearne nepristranske napo-
vedi (BLUP) pri naključnih vplivih. Sistem enačb mešanega modela je sorazmerno enostavno nastaviti
in rešiti.
Sistem enačb mešanega modela nastavljamo v dveh korakih. Najprej nastavimo sistem in se pri tem
pretvarjajmo, da so vsi vplivi sistematski. Dobili bomo naslednji sistem:

    
X0 R−1 X X0 R−1 Z b
β X0 R−1 y
= [4.202]
Z0 R−1 X Z0 R−1 Z û Z0 R−1 y

Če nato primerjamo dobljeni sistem 4.202 s sistemom ena čb mešanega modela 4.201, vidimo, da moramo
sistematskim vplivom dodati še inverzo matrike varianc in kovarianc za naklju čne vplive - matriko G−1 .

4.7 Lastnosti ocen in napovedi

Rešitve za sistematke vplive so najboljše (Best), linearne (Linear) in nepristranske (Unbiased) ocene
(Estimator), značilnosti označimo na kratko s kratico BLUE.
Rešitve za naključne vplive so najboljše (Best), linearne (Linear) in nepristranske (Unbiased) napovedi
(Prediktor), značilnosti označimo na kratko s kratico BLUP.
Oznaki BLUE in BLUP označujeta lastnosti rešitev in ne metode, kot jih v žargonu pogosto uporabimo!

4.7.1 Linearne ocene in napovedi

b in û linearni kombinaciji opazovanj y!


Dokažimo, da sta β

 −1
b=
β Z0 V−1 X X0 V−1 y
| {z } [4.203]
linearna kombinaci ja y

 −1 
û = GZ0 V−1 y − X X0 V−1 X X0 V−1 y
 −1 
= GZ0 V−1 I − X X0 V−1 X X0 V−1 y
 −1  [4.204]
= GZ0 V−1 − V−1 X X0 V−1 X X0 V−1 y
| {z }
linearna kombinaci ja y

98
Biometrija 99

4.7.2 Ocene in napovedi so najboljše

[4.205]

Dokaz je malo manj atraktiven in ga bomo zaenkrat izpustili. Za tistega, ki ga pa želi vseeno spoznati,
pa naj predstavlja iziv.
Naslov poglavja ne drži popolnoma. Ocene in napovedi so najboljše med vsemi tistimi možnimi oce-
nami, kjer sta istočasno zadovoljeni tudi drugi dve karakteristiki: da so ocene linearne kombinacije opa-
zovanj in so hkrati nepristranske. Če popustimo pri slednjih dveh in se zadovoljimo s pristansko oceno ali
pa ubereremo nekoliko zahtevnejšo pot nelinearnih kombinacij, pa bomo lahko dobili celo boljše ocene.

4.7.3 Nepristranske ocene in napovedi

Nepristranost ocen preverimo z izračunom pričakovane vrednosti. Če je pričakovana vrednost ocene
oziroma napovedi enaka pričakovani vrednosti parametra,ki ga želimo oceniti, potem bo naš rezultat
nepristranski. Tako je nepristranska ocena za sistematske vplive (ena čba 4.206), ki smo jo dobili po
metodi splošnih najmanjših kvadratov.
   −1 
b
E β = E X0 V−1 X X0 V−1 y
−1 −1 [4.206]
= X0 V−1 X X0 V−1 E (y) = X0 V−1 X X0 V−1 Xβ = β

Tudi napoved plemenske vrednosti je nepristranska (ena čba 4.207).

h −1 0 −1  i
E (û) = E Z0 R−1 Z + G−1 ZR b =
y − Xβ
−1 0 −1  
= Z0 R−1 Z + G−1 Z R E y − Xβ b = [4.207]
−1 0 −1  
= Z0 R−1 Z + G−1 Z R Xβ − Xβ = 0

4.7.4 Ni vse najboljše, kar je BLUE ali BLUP

Pa le omenimo primer iz živinoreje, da bi se prehitro ne razveselili. Prav verjetno bo kdo izmed vas
našel službo v selekcijski službi. Tam se na veliko ukvarjamo z ocenjevanjem komponent (ko)variance,
ki je osnovana na vsotah kvadratov. Vsote kvadratov so “kvadratne kombinacije opazovanj”, imenovali
jih bomo strokovno tudi kvadratne oblike. Problem rešimo z ve č metodami. Nekatere med njimi so celo
nepristranske, vendar pa je rezultat včasih prav nemogoč. Tako dobimo lahko negativne variance. Delež
posameznih komponent variance preseže vrednost 1, kar pomeni 100 %. To bi v praksi pomenilo, da
je ena komponenta variance večja kot vsota vseh. Č:e iz komponent varianc in kovarianc izračunamo
korelacije, so ocene izven parametrskega prostora - izven intervala možnih vrednosti. Tako so se bolje
obnesle metode, ki dajejo pristranske rezultate. Za te metode, ki jih obi čajno tudi izberemo, je značilno,
da so asimptotično nepristranske. Kadar imamo dovolj podatkov, so ocene torej tako malo pristranske,
da lahko to zanemarimo. Ne smemo pa na to pozabiti in komponent variance ocenjevati z nekaj 100 ali
še manj meritvami! tudi 10000 meritev ni prav veliko, raje jih imamo nekaj 100000. Nekaj pa je tudi
izjem, a o njih ne bomo razpravljali prezgodaj. Tako se kaj rado zgodi, da postanejo obi čajna praksa in
celo dokaz za “pravilnost” napačnih pristopov.
Poskusimo primerjati nepristransko in pristransko metodo (4.6). Sliko smo malo pretiravali, da bi bila
razlika bolj jasna. Če imamo kolikor toliko dobre podatke, bodo razlike bistveno manjše. Pristranske
ocene bodo manj precenjene, nepristranske pa bolj zanesljivo ocenjene (manj razpršene). Zeleno oziroma
pikčasto območje pa predstavlja parametrski prostor ali zalogo vrednosti. Kar je ve čje ali manjše od
parametrskega prostora, so vrednosti, ki jih naš prou čevani parameter pač ne mora imeti v nobenem
primeru.

99
100 Biometrija

Pristranost

Parameterski
prostor

b Porazdelitev najbolj¹ih
pristranskih ocen

Porazdelitev najbolj¹ih
linearnih nepristranskih
ocen

Slika 4.6: Primejava pristranske in nepristranske metode

Nepristranske meritve bodo, če bomo poskuse ponavljali, lahko precej različne. Tako kot vedno bodo
natančnost izvedbe preizkusa, natančnost meritev in število meritev odločali o zanesljivosti ocene. Pri
vsakem od ponovljenem poskusu pa obstaja enaka verjetnost, da bo rezultat ve čji ali manjši od parametra,
zato ne govorimo o tem, da so rezultati v posameznem poskusu pristranski. Ocene so porazdeljene okrog
parametra. Ker dejanskih vrednosti parametrov ne poznamo, tudi ne moremo oceniti za koliko odstopajo.
To bi lahko dobili le, če bi poskus mnogokrat ponovili. To pa bi ne bilo nič drugega kot en sam večji
poskus. Ker pa poiskusi vedno stanejo, delamo malo ve čje poskuse šele, ko smo zbrali zadosti zanesljivih
dokazov, da je uspeh zagotovljen.
Pristranske ocene pa niso porazdeljene okrog parametra. Vrh porazdelitve je pomaknjen v desno. Ocene,
ki nam jih metoda ponuja, so bolj pogosto večje od parametra. V tem primeru so ocene precenjene, na
naši sliki skoraj vedno. Če znamo izračunati pričakovano vrednost, bomo lahko ocenili tudi pristranost.
Pristranost ne bo ocenjevala odstopanje našega rezultata, ampak odstopanja pri čakovane vrednosti ocene
od parametra. Običajno je to funkcija parametra.

4.8 Metode preverjanja ocenljivosti

Linearna kombinacija k0 je ocenljiva, če velja:


− 
k0 X0 V−1 X X0 V−1 X = k0 [4.208]

Linearne kombinacije iščemo pri interpretaciji rezultatov in testiranju hipotez. Obravnavamo lahko samo
tiste linearne kombinacije k0 , ki so ocenljive. Tako smo že ugotavljali, da vpliv pasme ni ocenljiv,
ocenljive pa so razlike med pasmami - pa še to ne vedno! V primeru, da ni ocenljiva razlika med
pasmama, je gotovo slabo načrtovan poskus: struktura podatkov je slaba.
Le redko se lotimo testiranja posameznih hipotez. Radi imamo najprej namig, ali se z dolo čeno skupino
sploh splača ukvarjati. Npr., zanima nas, ali se pasme značilno razlikujejo. Vse linearno neodvisne
kombinacije nanizamo v matriko K in preizkusimo ocenljivost.
 
k01
 k02 
 
K= ..  [4.209]
 . 
k0p

100

1
Biometrija 101

Tako velja:
− 
K X0 V−1 X X0 V−1 X = K [4.210]
− 
K X0 V−1 X X0 V−1 X = H [4.211]

Toda H iz zgornje enačbe je ocenljiva, ker velja


− 
H X0 V−1 X X0 V−1 X = H [4.212]

Pri metodi najmanjših kvadratov je pravilo nekoliko enostavnejše. Matrika varianc in kovarianc V je
enostavna: meritve so med seboj neodvisne in identično porazdeljene.

V = Iσ2e [4.213]

Njena inverzna oblika je tudi enostavna:

V−1 = Iσ−2
e [4.214]

Inverzo matrike V iz enačbe 4.214 lahko vstavimo v enačbo 4.210.


− 0 −2 
e X
K X0 Iσ−2 X Iσe X = K [4.215]

Varianca za ostanek je skalar, prav tako tudi njena inverzna vrednost, ki nastopa v prvem in drugem
oklepaju v enačbi 4.215. Skalar lahko tudi izpostavimo iz oklepaja. Pri prvem oklepaju ne smemo
pozabiti na splošno inverzo, zato smo izpostavili varianco σ 2e , iz drugega člena pa izpostavimo inverzno
vrednost za varianco (σ−2
e ).
− 
K X0 IX σ2e σ−2
e X0 IX = K [4.216]

Enačbo 4.210 lahko še naprej poenostavimo. Produkt skalarja z njegovo inverzno vrednostjo je 1, ki pa
jo pri množenju lahko izpustimo.
− 
K X0 X X0 X = K [4.217]

Primer
 
22 6 8 8
  6 6 
X0 X = 
 8

 [4.218]
8
8 8

Če črtamo prvo vrstico in prvi stolpec (enačba ), smo v preostanku matrike dobili diagonalno matriko s
tremi vrsticami in stolpci.
 
0 0 0 0
 0 6 
A=
 0

 [4.219]
8
0 8
 
0 0 0 0
 0 1/6  
  = A − = X0 X − [4.220]
 0 1/8 
0 1/8

101
102 Biometrija

• Ali lahko napišete model za zgornji primer?

• Dobili smo eno od neskončno mnogo splošnih inverz:


... črtali prvo vrstico in prvi stolpec ...
− 
X0 X X0 X = [4.221]

 
22 6 8 8
 6 6 
 
 8 8 
8 8
   [4.222]
0 0 0 0 0 0 0 0
 0 1/6   1 1 0 0 
   
 0 1/8   1 0 1 0 
0 1/8 1 0 0 1

• Pazimo na vrstni red matrik!

• Matrika služi kot filter za preverjanje hipotez


− 
K X0 X X0 X = [4.223]

 
0 0 0 0
 1 1 0 0 
 
 1 0 1 0 
   1 0 0 1  [4.224]
0 1 −1 0 0 1 −1 0
 0 0.5 0 −0.5   0 0.5 0 −0.5 
0 0 2 −2 0 0 2 −2

• Pogoju ocenljivosti smo zadostili

• lahko uporabili katerokoli drugo splošno inverzo


 
22 6 8 0
  6 6 0 
X0 X = 
 8
 [4.225]
8 0 
0 0 0 0

 
0 0 0 0
−  0 1/6 
X0 X = 
 0

 [4.226]
1/8
0 1/8

102
Biometrija 103

Poglavje 5

POSTAVITEV IN TESTIRANJE HIPOTEZ


Testiranje hipotez je osrednja naloga pri vsaki obdelavi podatkov. Od postavitve hipotez je odvisen na črt
preizkusa, torej moramo hipoteze postaviti še pred izpeljavo poskusa. Po izvedbi poskusa je v časih
potrebno stvari celo popraviti ali prilagoditi, saj se kaj rado zgodi, da pri poskusu poteka kakšna re č
drugače, kot smo predvideli.
Preizkus hipotez opravimo v treh korakih:

1. Preizkusimo, ali je model značilen. Č

2. Preizkusimo, kateri vplivi v modelu so značilni in kateri niso.

3. Preizkusimo, kateri nivoji pri značilnih vplivih se med seboj razlikujejo.

Nikoli ne preizkušamo razlik med nivojema dveh razli čnih vplivov, izogibamo se tudi kombiniranim
razlikam. Hipoteze naredimo čimbolj enostavne, da jih je tudi enostavno razložiti.

5.1 Postavitev hipoteze

5.1.1 Ničelna in alternativna hipoteza

Hipoteza ima dve komponenti: ničelno hipotezo H0 (5.1) in alternativno hipotezo H1 (5.2). Ničelna
hipoteza ima lahko dve obliki. Prva oblika pomeni, da se linearne kombinacije K (lokacijskih) parame-
trov β ne razlikujejo od vektorja 0, v drugem primeru pa pri čakujemo pri rezultatu linearnih kombinacij
konstantno vrednost v vektorju m. Prvi primer je zelo obi čajen, saj najprej preverjamo ali so dobljeni
rezultati od 0 različne.

H0 : Kβ = 0 [5.1]

H0 : Kβ = m [5.2]

Alternativna hipoteza (H1 ali tudi Ha ) lahko zavzema vse druge možnosti ali pa samo del. Zelo po-
membno je, da alternativno hipotezo nazorno nakažemo. Hipotezi v naslednjih vrsticah vklju čujeta vse
alternative ničelni hipotezi. Pri prvi hipotezi 5.3, ki je alternativa ni čelni hipotezi 5.1, ovržemo ničelno
hipotezo, če da katerakoli linearna kombinacija iz matrike K rezultat razli čen od 0. Druga hipoteza v 5.4
je alternativa ničelni hipotezi v enačbi 5.2. Alternativno hipotezo sprejmemo, če je vrednost najmanj ene
linearne kombinacije iz matrike K različna od vrednosti v vektorju m. Ne moremo pa kombinirati niti
ničelno hipotezo v 5.1 z alternativno hipotezo v 5.4 niti ni čelno hipotezo v 5.2 z alternativno hipotezo v
5.3.

H1 : Kβ , 0 [5.3]

H1 : Kβ , m [5.4]

Če npr. ničelna hipoteza pokriva možnost, da med pasmami ni razlik, oziroma bolj dosledno, da so
razlike med pasmami enake nič, alternativna hipoteza predstavlja vse možnosti, ko med pasmami obsta-
jajo razlike. Že ob eni sami od nič različni razliki bo ničelna hipoteza zavržena in sprejeta alternativna
104 Biometrija

hipoteza. V primeru, da drži ničelna drži, nobena od razlik ni dokazano od nič različna. Vsako na-
daljnje razglabljanje in iskanje razlik je neprimerno. Le v primeru, da so razvidni kakšni trendi, lahko
predlagamo, da se poskus dopolni s potrebnimi meritvami ali pa ponovno zastavi s primernimi popravki
(velikost vzorca, način vzorčenja itd.), da bi dobili potrditev ali zavrnitev nakazanega trenda.
Alternativna hipoteza pa lahko vključuje samo del alternativnih možnosti. Najpogostejši obliki sta v
tem primeru hipotezi, ki vključujeta samo tiste možnosti, ko so ocene linearnih kombinacij ve čje od 0
(5.5), manjše od 0 (5.7), večje od konstant v vektorju m (5.6) ali manjše od konstant v vektorju m (5.8).
Alternativni hipotezi v 5.5 in 5.7 lahko kombiniramo z ni čelno hipotezo 5.1, ostali dve (5.6 in 5.8) pa z
5.2. Drugih možnosti ni.

H1 : Kβ > 0 [5.5]

H1 : Kβ > m [5.6]

H1 : Kβ < 0 [5.7]

H1 : Kβ < m [5.8]

Za ponazoritev moramo poiskati nov primer, nesmiselno bi bilo primer razlagati na primeru pasem.
V selekcijkskem programu predvidevamo, da bo selekcijsko delo prineslo na črtovan genetski napredek.
Čez leta lahko genetski napredek preverimo. Ker je bilo vloženega dela in kapitala mnogo, se ne moremo
zadovoljiti z genetskim trendom, ki bi bil samo razli čen od nič. Negativni trendi, vrednosti manjše od
nič, so še slabše, kot če bi genetskega napredka sploh ne gi bilo (genetski trend enak ni č). Torej nas
zanima le genetski napredek (trend) z ocenami, ki so ve čje od nič. Še bolj pogosto pa se odločamo v tem
primeru za hipotezo, ki v vektorju m hrani načrtovane, planirane genetske spremembe.
Vlogi hipotez pa sta v praksi nekoliko drugačni kot v statistični teoriji. V praksi praviloma želimo
dokazati, da obstajajo razlike, da obstajajo trendi ali povezave med spremenljivkami. Tako bi nam bilo
skoraj bolj razumljivo, da poskušamo postaviti to kot ni čelno, izhodiščno hipotezo. V statistiki pa vedno
najprej ovržemo možnost, da razlik ni oziroma niso dovolj velike. Šele nato iš čemo, kateri nivoji se
med seboj razlikujejo. Če smo dobili odgovor, da nivoji niso različni od nič, je vsako nadaljne iskanje
samo izguba časa. Nobena razlika ni značilna. Po domače bi rekli "ni dovolj pomembna" ali "ni dovolj
prepričljiva". Paziti moramo, ker nam lahko napačno izbrani testi razliko pokažejo, čeprav so nam z
njimi na krožniku postregli najboljši statistični paketi. Naloga statističnih paketov je, da uporabniku
olajšajo delo tako, da jim ni potrebno poznati vseh številnih formul. Tudi mi bomo lahko po izpitu
kakšno pozabili. Ne morejo pa pomagati pri izboru orodij, med njimi tudi pravilnih statisti čnih testov.
Tako kot moramo na kmetiji vedeti, s katerimi stroji bomo pomolzli krave in s čim bomo orali njivo,
moramo vedeti, katera so najprimernejša orodja za obdelavo podatkov, ki jih v živinoreji zbiramo. O
izboru metod za obdelavo podatkov smo raypravljali v predhodnem poglavju.

5.1.2 Postavitev linearnih kombinacij

Hipoteze lahko predstavimo oziroma oblikujemo v matri čni obliki. Z matrično obliko lahko nazorno
ponazorimo posamezne hipoteze. Kot smo prikazali v skalarni obliki, so hipoteze pogosto enostavne.
Takšne je tudi laže razložiti. Če pa je struktura podatkov nekoliko bolj zapletena (manjkajo či podatki,
interakcije...), je lahko hipoteza tudi bolj sestavljena.
Našo hipotezo predstavimo v matriki linearnih kombinacij parametrov K. Če je hipoteza ocenljiva,
potem bo produkt Kβ vedno enak, ne glede na to katero izmed neskon čno velikega števila možnih rešitev
smo izbrali. Za matriko hipotez je pomembno, da ni v njej linearno odvisnih hipotez. Te dodatne hipoteze
ne prinesejo novih spoznanj, ampak samo prikažejo rezultate v drugi lu či.
PRIMER:

104
Biometrija 105

Vzemimo npr. primer mladic iz preizkusa v proizvodnih razmerah. Prou čujemo le vpliva pasme (Pi ) in

b0 (enačba
farme F j s po tremi nivoji. Ocene parametrov za sistematske vplive so nanizane v vektorju β
5.9). Pri tem ne smemo pozabiti na srednjo vrednost (µ).

0  
b
β = b1 P
µ P
b b2 P
b3 Fb1 Fb2 Fb3 [5.9]

Zanimajo nas razlike med pasmami. Imamo tri možne razlike (prva-druga, prva-tretja in druga-tretja).
Prvi dve razliki smo vnesli v prvi dve vrstici matrike H. Lahko pa bi nas zanimala tudi dvakratna razlika
med drugo in tretjo pasmo, kar smo ponazorili v tretji vrstici. V matriki H je tretja vrstica dvakratna
razlika med drugo in prvo vrstico: je linearna kombinacija prvih dveh. To v praksi pomeni, da je tretja
razlika logični zaključek prvih dveh. V matriki, ki jo uporabljamo pri testiranju hipotez, uporabimo
katerokoli kombinacijo samo linearno neodvisnih vrstic iz matrike H. Matriko katerekoli teh kombinacij
bomo poimenovali K. Imeti mora polni rang v vrsticah, po stolpcih pa ni omejitve.
 
0 1 −1 0 0 0 0
H =  0 1 0 −1 0 0 0  [5.10]
0 0 2 −2 0 0 0

Razlike med pasmami torej testiramo z naslednjimi hipotezami. Našli bi lahko še druge možnosti. Vre-
dnosti, ki so različne od nič, so pogosto 1 in -1, tako kot v spodnjih dveh. Tako zapišemo npr. razliko
med dvema nivjema znoraj vpliva.
 
0 1 −1 0 0 0 0
K= [5.11]
0 1 0 −1 0 0 0

 
0 1 −1 0 0 0 0
K= [5.12]
0 0 1 −1 0 0 0

Vajo bi lahko ponovili tudi za razlike med farmami. Z linearnimi kombinacijami iz 5.13 pa si ne moremo
veliko pomagati. Poskušajmo prebrati prvo vrstico. Zanima nas razlika med prvo pasmo in drugo farmo.
Takšna vrednost pa živinorejca bolj malo zanima. Kaj bi se iz razlike nau čil? Ali bi kupil živali prve
pasme, ali pa morda farmo 2? Vsekakor takšne dileme ne obstajajo. Odlo čamo se med pasmami ali med
farmami. Konec koncev bi se lahko zgodilo, da bi želel kupiti farmo in živali. Še vedno pa bi farmo
izbiral med farmami in bi te primerjave ločno opravil. Pasme (živali) pa bi izbiral med pasmami.
 
0 1 0 0 −1 0 0
K= [5.13]
0 0 0 −1 0 0 1

Če bi bili pogoji med farmami zelo različni, bi pred nakupom živali hotel preveriti, ali s pasmami dosega
različne proizvodne rezultate na posameznih farmah. V tem primeru pa bi želel preveriti tudi interakcije.

0  
b
β = b1 P
µ P
b b2 P
b3 Fb1 Fb2 Fb3

0
h i
b
β = b1 P
µ P
b b3 Fb1 Fb2 Fb3 PF
b2 P c 12 PF
c 11 PF c 21 PF
c 13 PF c 23 PF
c 22 PF c 32 PF
c 31 PF c 33

Če imamo težavo s postavitvijo hipoteze, si lahko pomagamo na naslednji na čin.


1) Sestavite linearno kombinacijo (vrstico), ki predstavlja pri čakovano vrednost pri določeni pasmi!

E (yi ) = 1µ + 1Pi + 1/3 (F1 + F2 + F3 ) [5.14]

105
106 Biometrija

140

130 Iymerjena vrednost


Indeks plemenske vrednosti

ostanek
120

110

100 Ocenjena vrednost

90

80

70

60
80 82 84 86 88 90
Leto preiykusa

Slika 5.1: Napoved ostanka

Sestavimo linearni kombinaciji za pričakovano vrednost pri pasmah 1 in 2. Pri tem upoštevamo srednjo
vrednost, vpliv izbrane pasme in povprečen učinek farm. Ker so farme tri, vzamemo tretjino vsake farme.
 
k10 = 1 1 0 0 13 13 31 [5.15]
 1 1 1

k20 = 1 0 1 0 3 3 3 [5.16]

2) Sestavite linearno kombinacijo (vrstico), ki predstavlja razliko pri čakovanih vrednosti med izbranima
pasmama i in i’.
Poiščimo razliko pasme 1 (5.15) in pasme 2 (5.16). Iz dobljenega rezultata 5.17 vidimo, da je razlika
med pasmama očiščena drugih vplivov.
 
k12
0
= k10 − k20 = 0 1 −1 0 0 0 0 [5.17]

5.2 Vsota kvadratov in stopinje prostosti

Metode najmanjših kvadratov, tehtanih najmanjših kvadratov in splošnih najmanjših kvadratov spreje-
majo svoje zaključke na osnovi

• vsote kvadratov, ki ga pojasnijo posamezni vplivi,


• vsote kvadratov za ostanek, ki praviloma služi za primerjavo, in
• stopinj prostosti, to je, številu parametrov, ki smo jih porabili za opis posameznega vpliva.

Pri biometriji moramo biti zelo natančni: ostanek (e) je razlika med resnično in ocenjeno vrednostjo. Ker
pa resnične vrednosti ne poznamo, na njeni osnovi ne moremo narediti nobenih zaklju čkov. Preostane
nam samo ena ali več meritev, s katerimi se poskušamo čimbolj približati dejanski vrednosti. Razlika
med izmerjeno in ocenjeno vrednostjo je tako nadomestek dejanskega ostanka, je torej samo napoved za
ostanek (ê). Brali boste lahko tudi o oceni ostanka, a ocena je povezana s sistematskimi vplivi, ostanek
pa je naključna spremenljivka.
Vsote kvadratov si bomo ogledali kasneje, s stopinjami prostosti pa smo se spoznali že v poglavju o
modelih.

106 1
Biometrija 107

5.3 Preveritev modela

Primer . Za ilustracijo primera ponovno obudimo primer enajstih merjenih mladic. V prvem delu
bomo uporabili samo meritve za dnevni prirast (tabela 5.1). Poskusimo preveriti model! Zaradi lažjega
razumevanja pa začnimo pri najbolj enostavnem modelu: v prvi model smo dali samo srednjo vrednost
in ostanek. Ker bomo parametre ocenjevali po metodi najmanjših kvadratov, je kriterij za odlo čitve
vsota kvadratov za ostanek. Seveda pa moramo najprej oceniti neznane parametre. V našem preprostem
primeru je to samo srednja vrednost µ, ki znaša 550 g/dan.

yi = µ + e i [5.18]

Tabela 5.1: Izračun vsote kvadratov za ostanek pri modelu 5.18


Žival Pasma Mesec Dnevni prirast µ̂ êi = yi − E (yi ) ê2i j
(g/dan)
1 SL JAN 540 550 -10 100
2 SL JAN 550 550 0 0
3 SL FEB 550 550 0 0
4 SL FEB 580 550 30 900
5 LW JAN 520 550 -30 900
6 LW FEB 500 550 -50 2500
7 LW FEB 490 550 -60 3600
8 NL JAN 560 550 10 100
9 NL JAN 550 550 0 0
10 NL FEB 600 550 50 2500
11 NL FEB 610 550 60 3600
Skupaj 14200

Razvrstimo rezultate v tabelo 5.2. Vsoto kvadriranih meritev smo tako razdelili na del, ki ga pojasni
srednja vrednost in ostanek. Vsoto kvadratov smo razdelili torej na dve neodvisni komponenti. Sre-
dnja vrednost je pojasnila skoraj vso variabilnost, za to pa smo porabili samo en parameter, eno stopinjo
prostosti. V ostanku pa je ostalo še 10 stopinj prostosti. Ko ugotavljamo pomen parametrov, upora-
bimo srednji kvadrat. Ta pove, koliko vsote kvadratov v povpre čju pojasni ena stopinja prostosti. Za
primerjavo si praviloma izberemo srednji kvadrat za ostanek, le izjemona kaj drugega.

Tabela 5.2: Viri variabilnosti za dnevni prirast iz modela 5.18


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 2343.3 <0.0001
Ostanek 10 14200.00 1420.00
Skupno 11 3341700.00


Sedaj lahko obogatimo primer še s formulami. Uporabili bomo oznake izpeljane iz angleških izrazov.

a) Skupna vsota kvadratov (Total Sum of Square, T S S ) je vsota kvadriranih opazovanj.


X
TS S = y2i [5.19]

V matrični obliki je skupna vsota kvadratov zapisana s kvadratno obliko 5.20. Matrika kvadratne oblike,
ki predstavlja skupno vsoto kvadratov, je inverza matrike fenotipskih varianc (V −1 ). Z njo pri izračunu
skupne vsote kvadratov stehtamo opazovanja.

T S S = y0 V−1 y [5.20]

107
108 Biometrija

Ko so ostanki identično in neodvisno porazdeljeni (V = Iσ 2e ), je skupna vsota kvadratov poenostavljena


v 5.21.

T S S = y0 V−1 y = y0 Iσ−2
e y = y yσe
0 −2
[5.21]

Ker je v tem primeru varianca za ostanek σ −2


e konstantna vrednost, ista pri vseh meritvah, in nastopa pri
vseh vsotah kvadratov, deljenje z varianco ni potrebno. Pri testiranju hipotez vedno ra čunamo razmerje
dveh vsot kvadratov. Tako se varianca iz vsote kvadratov v števcu in imenovalcu pokrajšata. Skupno
vsoto kvadratov lahko izračunamo torej brez tehtanja, enostavno kot vsoto kvadriranih opazavanj iz 5.22.

T S S = y0 y [5.22]

b) Korigirana skupna vsota kvadratov Iz skupne vsote kvadratov najprej odstranimo vsoto kvadra-
tov, ki jo pojasnjuje ocena srednje vrednosti µ.
X X
CT S S = y2i − bµ2 [5.23]

Povprečno vrednost v matrični obliki zapišemo v obliki 5.24, v kateri 1 0 predstavlja vrstični vektor samih
enic, kot je prikazano v enačbi 5.22.

1 0
b
µ= 1y [5.24]
n
 
10 = 1 1 ··· 1 [5.25]

Korigirano skupno vsoto kvadratov zapišimo v obliki kvadratne forme! Predpostavimo še, da so ostanki
identično in neodvisno porazdeljeni, zato tehtanje z variancami ni potrebno. Prvi člen iz 5.23 je skupna
vsota kvadratov iz 5.23
 
11 0 1 0
CT S S = y y − y 1 1 y = y I − 2 11 y
0 0 0
[5.26]
nn n

Poskusite napisati korigirano skupno vsoto kvadratov, če so meritve korelirane, struktura varianc in ko-
varianc pa ponazorjena v matriki V!

c) Vsota kvadratov za model (model sum of square, MS S ) je enaka vsoti kvadratov 5.27 za pri čako-
vane vrednosti potem, ko smo odstranili vsoto kvadratov, ki jo pojasnjuje srednja vrednost. Z drugimi
besedami MS S 5.28 predstavlja razliko med korigirano vsoto kvadratov CT S S in vsoto kvadratov za
ostanek RS S .
X X
MS S = (E(yi ))2 − bµ2 [5.27]

MS S = CT S S − RS S [5.28]

Izjema je model, ki vsebuje samo srednjo vrednost in ostanek. Tam ne izvrednotimo korigirane skupne
vsote kvadratov, vsota kvadratov za model je kar vsota kvadratov, ki jo pojasnjuje srednja vrednost.
Preizkusimo se še v matričnem zapisu!

11 0
MS S = y0 1 1y
nn

108
Biometrija 109

d) Vsota kvadratov za ostanek (residual sum of square, RS S ) je vsota kvadriranih ostankov5.29.


X
RS S = (yi − E(yi ))2 [5.29]

e) Srednji kvadrat 5.30 dobimo tako, da vsoto kvadratov delimo s stopinjami prostosti. Znak x v
enačbi zamenjamo s katerokoli vsoto kvadratov za model ali za posamezni vpliv.

xS S
MS x = [5.30]
d. f. x

f) F−statistika je razmerje med dvema srednjima kvadratoma. V imenovalcu je tistai srednji kvadrat, s
katerim primerjamo ostale. Kar praviloma je to srednji kvadrat za ostanek. F-statistika ima porazdelitev
F, ko drži ničela hipoteza.

MS x
F= [5.31]
MS e

g) P−vrednost je verjetnost, da vpliv (v našem primeru je to tudi celoten model ali pa smo srednja
vrednost) ni pomemben. Pravzaprav bi morali reči, da je to verjetnost, da drži ničelna hipoteza. Da
pa bi lažje razumeli, smo pač ubrali preprostejšo obliko. S testiranjem modela in posameznih vplivov
presojamo, koliko variabilnosti smo pojasnili. Primerjavo praviloma delamo z variabilnostjo ostanka.
Po domače bi lahko rekli, da del, ki ga pojasni posamezni vpliv, primerjamo z informacijami, ki so v
ostanku še ostale.

h) Analiza variance za model Izračunane vrednosti uredimo v tabelo t5.3, kjer razčlenimo vsote kva-
dratov na posamezne komponente in določimo stopinje prostost (d. f ). Pri preizkušanju modela v celoti
imamo samo tri komponente: srednjo vrednost, ostali del modela in ostanek. Nato izvrednotimo sre-
dnje kvadrate, F−vrednosti in iz tabel odčitamo P−vrednosti. Praviloma nas ne zanima vrstica, ki je
namenjena srednji vrednosti (prva vrstica v tabeli), test je usmerjen na model (druga vrstica v tabeli).

Tabela 5.3: Viri variabilnosti za dnevni prirast za model


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat
P 2
F-vrednost P-vrednost
P 2 b
µ MS µ
Srednja vrednost 1 b
µ 1 MS e
MS M
Model d. f. MS S MS M MS e
Ostanek n − 1 − d. f. RS S MS e
Skupno n TS S

Značilnost srednje vrednosti nas zanima, kadar obdelujemo razlike med pari. Tako bi poskus opravljali
lahko na enojajčnih dvojčkih, sestrah/bratih in polsestrah/polbratih. Imamo dve pokusni skupini. So-
rodnike uvrstimo v različni skupini in tako sestavimo pare. Skupini nista neodvisni: meritve povezuje
genetski del variabilnosti. Da bi se motnji izognili, ne obdelamo meritev samih, ampak razlike med
živalima v paru. Pri ničelni hipotezi je pričakovana vrednost (srednja vrednost) enaka nič.

Primer . Skupno vsoto kvadratov (T S S ) bomo sedaj razdelili na tri komponente in sicer na tisto:

• kar pojasni srednja vrednost (S S (µ̂)),

• kar pojasnijo ostali vplivi v modelu (MS S ) in

• kar je ostalo (RS S ).

109
110 Biometrija

Skupna vsota kvadratov 5.32 in vsota kvadratov 5.33, ki jo pojasni srednja vrednost µ, se nista spremenili
v primerjavi z modelom 5.18 (glej tabelo 5.2). Korigirana vsota kvadratov CT S S iz 5.34 je enaka kot
vsota kvadratov za ostanek v enostavnem modelu 5.18.

T S S = 5402 + 5502 + 5502 + 5802 + ... + 6002 + 6102 = 3341700.00 [5.32]

S S (µ̂) = 5502 + 5502 + 5502 + ... = 11 ∗ 5502 = 3327500.00 [5.33]

CT S S = T T S − S S (µ̂) = 3341700.−3327500. = 14200.00 [5.34]

Uredimo v tabelo za analizo variance 5.4. Iz tabele lahko vidimo samo, da je srednja vrednost zelo
različna od 0. Seveda to za dnevni prirast pri rastočih živalih tudi pričakujemo. Pri odraslih živalih,
zlasti samicah v času laktacije, pa lahko imamo tudi negativne dnevne priraste. Ker živalim primanjkuje
hranilnih snovi v zaužiti krmi za prirejo mleka, koristijo telesne rezerve. V takih primerih so lahko
rezultati tudi drugačni. Na splošno pa nas povprečja ne zanimajo, da bi zmanjšali numerične probleme,
ki jih računalnikom povzročajo velike številke, se statistični paketi srednje vrednosti znebijo in opravijo
analizo variance brez nje. Mi jo bomo v prikazih zaradi kompletnosti obdržali, rezultati pa zaradi tega
niso nič boljši in nič slabši. So enaki.

Tabela 5.4: Viri variabilnosti za dnevni prirast iz modela 5.18


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 2343.31 <0.0001
Ostanek 10 14200.00 1420.00
Skupno 11 3341700.00

Pravzaprav v ostanku pri modelu 5.18 ni ostalo veliko stvari nepojasnjenih. Vseeno dodajmo modelu
5.18 vpliv pasme (Pi ). Tako dobimo še vedno preprost model 5.35.

yi j = µ + P i + e i j [5.35]

Vpliv pasme predstavlja edini res pravi vpliv v modelu5.35. Tako smo iz vsote kvadratov za ostanek iz
tabele 5.42 oziroma CT S S iz 5.34 pojasnili še dodatno variabilnost, ki je ocenjena v ena čbi 5.36. Slednja
vsota predstavlja kvadrirane odklone srednjih vrednosti po pasmah od skupne srednje vrednosti za vsako
meritev. Ker vemo, da imamo pri pasmi 1 štiri meritve, pri pasmi 2 tri in pri pasmi 3 zopet štiri meritve,
smo izračun pač nekoliko poenostavili (enačba 5.36).

MS S = S S (P) = 4 ∗ (555 − 550)2 + 3 ∗ (503.33 − 550)2 + 4 ∗ (580 − 550)2 = 10233.33 [5.36]

Za isto vsoto pa se je zmanjšala vsota kvadratov za ostanek 5.37.

RS S = ê2i j = 3966.67 [5.37]

Izračun posameznih vsot kvadratov smo ponazorili tudi v tabeli 5.5.


Sedaj uredimo vsote kvadratov še v tabelo za analizo variance (5.6) in izvrednotimo srednje kvadrate,
F−stratistiko in določimo P−vrednost. Srednja vrednost je tudi v tem modelu pojasnila najve čji del
variabilnosti, za kar smo porabili 1 stopinjo prostosti. V podatkih smo imeli 3 pasme, zato porabimo za
vpliv pasme 2 stopinji prostosti, za ostanek nam je ostalo samo 8 stopinj prostosti. Kljub temu razmerje
med srednjim kvadratom za vpliv pasme in srednjim kvadratom za ostanek pokaže, da je vpliv pasme
pomemben. Tudi P−vrednost, ki jo preberemo iz tabel oziroma izra čunamo, potrjuje naše sklepanje.
Ker je vpliv pasme edini vpliv v modelu 5.35, veljajo isti zaklju čki tudi za celotni model. Kot smo že
omenili, vsoto kvadratov, ki jo povzroča srednja vrednost, obravnavamo posebej. Pravzaprav se z njo
praviloma niti ne ukvarjamo.

110
Biometrija 111

Tabela 5.5: Izračun vsote kvadratov za ostanek pri modelu 5.35


Žival Pasma Mesec Dnevni prirast µ̂ + P̂i Pˆ2 i êi = yi − E (yi ) ê2i j
(g/dan)
1 SL JAN 540 555.00 25.00 -15.00 225.00
2 SL JAN 550 555.00 25.00 -5.00 25.00
3 SL FEB 550 555.00 25.00 -5.00 25.00
4 SL FEB 580 555.00 25.00 25.00 625.00
5 LW JAN 520 503.33 2177.77 16.67 277.89
6 LW FEB 500 503.33 2177.77 -3.33 11.09
7 LW FEB 490 503.33 2177.77 -13.33 177.69
8 NL JAN 560 580.00 900.00 -20.00 400.00
9 NL JAN 550 580.00 900.00 -30.00 900.00
10 NL FEB 600 580.00 900.00 20.00 400.00
11 NL FEB 610 580.00 900.00 30.00 900.00

Tabela 5.6: Viri variabilnosti za dnevni prirast iz modela 5.35


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 6710.97 <0.0001
Pasma 2 10233.33 5116.67 10.32 0.0061
Ostanek 8 3966.67 495.83
CTSS 10 14200.00
Skupno 11 3341700.00

Primer . Vzemimo še en enostaven model in vključimo vanj le vpliv meseca (Mi )5.38.

yi j = µ + M i + e i j [5.38]

Vsoto kvadratov za model (enačba 5.39) izračunamo podobno kot v zgornjem primeru (enačba 5.36).
Pojasnjena vsota je precej manjša kot pri pasmi. Dobili smo jo tako, da smo kvadrirali odklone srednjih
vrednosti po pasmah od skupne srednje vrednosti za vsako meritev. Pri čakovana vrednost za januar je
544, za februar pa 555. Ker vemo, da imamo v januarju pet meritev, v februarju pa šest, smo izra čun pač
nekoliko poenostavili (enačba 5.39).

MS S = S S (M) = 5 ∗ (544 − 550)2 + 6 ∗ (555 − 550)2 = 330.00 [5.39]

Izvrednotiti moramo še vsoto kvadratov za ostanek (5.40). Dobimo jo lahko tako, da izra čunamo ostanke,
jih kvadriramo in kvadrate seštejemo.

RS S = ê2i j = 13870 [5.40]

Lahko pa uberemo krajšo pot (enačba 5.41). Od korigirane skupne vsote kvadratov (CT S S ) smo odšteli
tisti del (MS S ), ki ga pojasni model.

RS S = CT S S − MS S = 14200 − 330 = 13870 [5.41]

Uredimo izračune v tabelo za analizo variance 5.7. Vpliv meseca je nepomemben. Vsota kvadratov in
srednji kvadrat sta majhna v primerjavi z ostankom. Ker je bil vpliv pasme pomemben, že sedaj vemo,
da so zaključki iz modela z mesecem neuporabni. Model smo uporabili le zato, da bomo kasneje lažje
razmišljali o dodajanju vplivov v modele in presojanju pomena dodatnih vplivov.

111
112 Biometrija

Tabela 5.7: Viri variabilnosti za dnevni prirast iz modela 5.35


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 2159.16 <0.0001
Mesec 1 330.00 330.00 0.21 0.6545
Ostanek 9 13870.00 1541.11
CTSS 10 14200.00
Skupno 11 3341700.00

Primer . Dodajmo modelu z vplivom pasme (enačba 5.35) še vpliv meseca, kot prikazuje model 5.42.

yi jk = µ + Pi + M j + ei jk [5.42]

Skupna vsota kvadratov in vsota kvadratov za srednjo vrednost sta ostali nespremenjeni. Iz tega sledi, da
je nespremenjena tudi korigirana vsota kvadratov CT S S . Vsota kvadratov za ostanek 5.43 je zmanjšana,
kar je pričakovano: z novim vplivom pričakujemo, da bodo podatki bolje predstavljeni.

RS S = 2900.00 [5.43]

Vsota kvadratov za model 5.44 je tako povečana. Oba vpliva v modelu skupaj pojasnita pomemben
delež variabilnosti. Srednji kvadrat za model je zmanjšan, ker smo za pojasnitev porabili ve čje število
stopinj prostosti. Nekoliko se je zmanjšala tudi F−statistika, kar pa ni mo čno vplivalo na verjetnost P.
To seveda ne velja za vse modele. V našem primeru imamo majhno število opazovanj, dokaj izena čene
skupine, izbrali pa smo tudi meseca, ko so proizvodni rezultati bolj podobni. Dodatno je bilo pojasnjeno
le nekaj malega vsote kvadratov. Dobra informacija o tem, koliko model doprinese, je vsota kvadratov, ki
jo pojasni ena stopinja prostosti. V modelu 5.42 imamo tri stopinje prostosti, vsota kvadratov za model
je nekoliko povečana, srednji kvadrat, vsota kvadratov na stopinjo prostosti pa je zmanjšana. Model je
še vedno značilen, med dvema vplivoma v modelu je vsaj eden statisti čno značilen, pri vsaj enem bomo
ovrgli ničelno in sprejeli altrnativno hipotezo. Naša naloga je, da sedaj ugotovimo, kateri vpiv je to.
Lahko pa bi bila tudi oba.

MS S = CT S S − RS S = 14200.00 − 2900.00 = 11300.00 [5.44]

Tabela 5.8: Viri variabilnosti za dnevni prirast iz modela 5.42


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 8031.90 <0.0001
Model 3 11300.00 3766.67 9.09 0.0082
Ostanek 7 2900.00 414.29
Skupno 11 3341700.00

5.4 Preveritev vplivov

Nadaljujmo kar z istim primerom. Novi model (5.42) je skupno pojasnil ve čjo vsoto kvadratov, na
porabljeno stopinjo prostosti smo pojasnili nekoliko manj kot pri prejšnjem modelu (5.35), a je kljub
temu zadostovalo, da je model značilen. Nadalje nas zanima, koliko k modelu doprineseta posamezna
vpliva.

112
Biometrija 113

5.4.1 Vsota kvadratov tipa I

Vsota kvadratov tipa I je izračunana iz razlike med polnim modelom in poenostavljenim modelom, kjer
smo predpostavili, da je opazovani vpliv nepomemben in smo ga zato izpustili. V tem primeru smo vsoto
kvadratov razdelili tako, da je vsota vseh posameznih vsot kvadratov natanko skupna vsota kvadratov.
Imenujemo jih tudi sekvenčne vsote kvadratov.
Nastavimo tabelo za analizo variance pri modelu 5.42. Vsoto kvadratov za model (ena čba 5.44) moramo
razdeliti na vsoto, ki jo pojasni pasma, in vsoto, ki jo pojasni mesec. Vsoto kvadratov za pasmo smo
že izračunali v enačbi 5.36. Razlika (5.47) med vsotama kvadratov za modela 5.42 in 5.35 je vsota
kvadratov, ki jo pri tipu I pripišemo vplivu mesec. Mesec je v tem primeru vklju čen za pasmo.

S S (M) = 11300.00 − 10233.33 = 1066.67 [5.45]

Uredimo rezultate v tabelo za analizo variance 5.9. Razvidno je, da so med pasmami razlike, med meseci
pa ne. Toda pa bodite pozorni! Verjetnost (P-vrednost) se je za mesec precej zmanjšala v primerjavi, ko
v modelu ni bilo pasme (tabela 5.7). Tako je vpliv meseca skoraj postal zna čilen, kar pri pitanju prašičev
običajno pričakujemo. Neznačilen je morda zato, ker imamo malo opazovanj ali pa se meseca januar in
februar nista bistveno razlikovala v temperaturi ali drugih klimatskih dejavnikih. Praviloma sta to tipi čna
zimska meseca.

Tabela 5.9: Viri variabilnosti za dnevni prirast iz modela 5.42 tip - I


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 8031.90 <0.0001
Pasma 2 10233.33 5116.67 12.35 0.0051
Mesec 1 1066.67 1066.67 2.57 0.1526
Ostanek 7 2900.00 414.29
Skupno 11 3341700.00

Sedaj pa uporabimo isti model, le vrstni red vplivov v modelu zamenjajmo.

yi jk = µ + Mi + P j + ei jk [5.46]

Vsoto kvadratov za ostanek se ne spremeni. Ker je mesec prvi vpliv, zanj velja vsota kvadratov, izra ču-
nana v enačbi 5.39.

S S (P) = 11300.00 − 330.00 = 10970.00 [5.47]

Uredimo rezultate še v tabelo za analizo variance 5.10. Vsoto kvadratov za model smo razdelili v prvem
(tabela 5.9) in drugem (tabela 5.10) primeru različno. Zaključki sicer slučajno niso različni, vendar pa
se lahko zgodi celo to. Ko smo vpliv dodali kot drugi vpliv, je pojasnil ve č variance kot takrat, ko smo
ga napisali na prvo mesto. Primer pa nam vseeno jasno pokaže, da je pri tem na činu izbora vsot lahko
dobimo različne zaključke. Če se držimo nenapisanega pravila, da navajamo vplive v modelih glede
na značilnost (oziroma glede na srednje kvadrate), in predvsem pravilno interpretiramo, pa se neljubim
zapletom lahko izognemo. Kljub vsemu bi se radi izognili razli čnim rezultatom, zato bomo poiskali
boljšo rešitev. Vrstni red v modelu pač ne sme vplivati na zaključke.
Vsota kvadratov tipa I je izračunana vsakokrat avtomatsko. Izračunana vsota kvadratov je odvisna od
vrstnega reda vplivov v modelu. Zanje tudi velja, da vsota predstavlja vsoto kvadratov za model brez
vsote kvadratov, ki jo pojasni srednja vrednost. V primeru neuravnoteženih podatkov vsot kvadratov tipa
I ne smemo uporabljati, ker so odvisne od strukture podatkov.
Preizkusi tipa I so primerni za:

113
114 Biometrija

Tabela 5.10: Viri variabilnosti za dnevni prirast iz modela 5.46 tip - I


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 8031.90 <0.0001
Mesec 1 330.00 330.00 0.80 0.4018
Pasma 2 10970.00 5485.00 13.24 0.0042
Ostanek 7 2900.00 414.29
CTSS 10 14200.00
Skupno 11 3341700.00

Tabela 5.11: Zmanjšanje vsote kvadratov v modelu s tremi vplivi


Vpliv Tip I Tip II Tip III Tip IV
A R(A) R(A | B, C)
B R(B | A) R(B | A, C)
C R(C | A, B) R(C | A, B)

• uravnotežene ANOVA modele, če zagotovimo pravilni vrstni red vplivov (npr. interakcije za glav-
nimi vplivi ...)

• popolnoma hierarhične modele, če zagotovimo pravilni vrstni red vplivov (npr. vgnezdeni za
nadrejenimi ...)

• regresijske modele s polinomi, če zagotovimo pravilni vrstni red vplivov (npr. višje stopnje sledijo
nižjim ...).

Zmanjšanje vsote kvadratov za ostanek

Predno nadaljujemo se bomo dogovorili še za poseben zapis, s katerim bomo opisali zmanjšanje (reduk-
cija) vsote kvadratov za ostanek.
R(P) - zmanjšanje vsote kvadratov zaradi vpliva P
R(P|µ)- zmanjšanje vsote kvadratov za ostanek, ko modelu s srednjo vrednostjo dodamo še vpliv P
R(P|µ, M)- zmanjšanje vsote kvadratov za ostanek, ko modelu s srednjo vrednostjo in vplivom M dodamo
še vpliv P
Pri modelu s tremi vplivi A, B in C razdelimo vsoto kvadratov na na čina prikazana v tabeli 5.11. Vsote
kvadratov pri tipu I dobimo tako, da sekvenčno dodajamo vplive. Vrstni red dodajanja vplivov je po-
memben. Pri tipu II pa izvrednotimo, koliko pridobimo, če ostalim vplivom v modelu dodamo še vpliv,
za katerega računamo vsoto kvadratov.

5.4.2 Vsota kvadratov tipa II

Vsota kvadratov pri tipu II ni odvisna od vrstnega reda vplivov v modelu. Hipoteze naj bi bile pravilne za
večino setov podatkov, primerov, če lahko zagotovimo, da ni v modelu interakcij ali vgnezdenih vplivov.
Vsota kvadratov za interakcijo in dodatni vpliv je pravilna, nepravilna je vsota kvadratov za vpliva, med
katerima nastopa interakcija. Če je interakcija neznačilna, bo test za glavni vpliv tudi sprejemljiv.

Tabela 5.12: Zmanjšanje vsote kvadratov v modelu z dvema vplivoma in interakcijo


Vpliv Tip I Tip II Tip III Tip IV
A R(A) R(A | B)
B R(B | A) R(B | A)
A ∗ B R(A ∗ B | A, B) R(A ∗ B | A, B)

114
Biometrija 115

Pričakovano se je spremenila razporeditev vsote kvadratov med vplivoma pasma in mesec ter ostankom.
Novi vpliv mesec je pojasnil dobro četrtino ostanka iz enostavnejšega modela 5.35. Nekoliko ve čja je
bila tudi vsota kvadratov za pasmo. Ta prerazporeditev je posledica nekoliko spremenjenih rešitev za
vpliv pasme, ko vključimo dodatno še vpliv meseca.

S S (P) = 10970.00 [5.48]

S S (M) = 1066.67 [5.49]

Vsota kvadratov za model naj bi bila tudi vsota kvadratov vseh vplivov v modelu. V našem primeru
imamo vpliv pasme in vpliv meseca. Če vsoti seštejemo 5.50, pa dobimo večjo vsoto kvadratov kot pri
5.44. Vsote kvadratov niso neodvisne. Tako smo razliko 12036.67 − 11300.00, kar znese 736.67, šteli
dvakrat: enkrat pri pasmi in enkrat pri mesecu. Oba vpliva smo obravnavali s pretvezo, da drugega ni v
modelu. Tako smo prišli do nelogičnega rezultata, da skupek vplivov pojasni več variabilnosti kot model.
Na ta način pojasnjujemo neko dodatno variabilnost, ki je sploh ni.

MS S = S S (P)+S S (M) =10970.00+1066.67=12036.67 [5.50]

Vsota kvadratov za model, ko smo odstranili vsoto kvadratov za srednjo vrednost, pri tipu I znaša
11300.00. Pri tipu II je vsota kvadratov za model večja in sicer znaša 12036.67.
Vsekakor razliko 736.67 ne smemo kar izbrisati, potem bi bil seštevek premajhen. Ena od možnosti je
prikazana v tabeli 5.13, da razliko 736.67 upoštevamo pri vplivu pasme, pri vplivu meseca pa ne. Vpliv
pasme je značilen, pomemben, kar smo dokazali že s preprostejšim modelom 5.35, v modelu 5.42 z
dodatnim vplivom se je vpliv pasme še bolj potrdil. To sicer ne smemo posplošiti na vse primere. Vsota
kvadratov za vpliv meseca je v tem primeru sorazmeroma majhna (330.00). Ko imamo v modelu že
pasmo, z mesecem ne pridobimo veliko.

Tabela 5.13: Viri variabilnosti za dnevni prirast iz modela 5.42 tip - II


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 8031.81 <0.0001
Pasma 2 10970.00 5485.00 13.24 0.0042
Mesec 1 1066.67 330.00 0.797 0.1526
Ostanek 7 2900.00 414.29
CTSS 10 14200.00
Skupno 11 3341700.00

yi jk = µ + Pi + M j + PMi j + ei jk [5.51]

Pri modelu z interakcijami za glavna vpliva P in M ne moremo poiskati vsote kvadratov, ki bi model
očistila tudi interakcije PM. Interakcijo lahko vklju čimo šele, ko sta v modelu oba glavna vpliva. Kadar
je interakcija značilna, preizkus glavnih vplivov s pomočjo vsote kvadratov tipa II ni primeren.
Tip II vsote kvadratov so primerne:

• za uravnotežene primere (drugače odvisni od strukture podatkov)

• za modele samo z glavnimi vplivi

• za čiste regresijske modele

• za vpliv, ki ni vključen v drugi vpliv

• uporaben tudi za popolnoma hierarhične modele

115
116 Biometrija

Tabela 5.14: Viri variabilnosti za dnevni prirast iz modela 5.51 tip - II


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00
Mesec 1 1066.67 1066.67 8.21 0.0352
Pasma 2 10970.00 5485.00 42.19 0.0007
Mesec*pasma 2 2250.00 1125.00 8.65 0.0238
Ostanek 5 650.00 130.00
CTSS 10 14200.00
Skupno 11 3341700.00

5.4.3 Vsota kvadratov tipa III in IV

Vsote kvadratov za ta dva tipa so vse izračunane z medodo splošnih linearnih hipotez. Uporabnik mora
poznati ocenljive funkcije ali pa si jih izpisati, da prepozna hipoteze, ki so bile preverjene. Potreboval jih
bo pri interpretaciji rezultatov.
Vsota kvadratov tipa III 5.14 za posamezni vpliv je neodvisna od vrstnega reda. Predstavlja vsoto, ki
je dodatno pojasnjena, če je vpliv v modelu, oziroma je izpuščen. Pri tem smo popustli pri dejstvu, da
se vsote kvadratov seštejejo do skupne vsote kvadratov. Izra čun vsote kvadratov temelji na hipotezi,
ki jo želimo preveriti. O hipotezah in ocenljivosti se bomo pogovarjali kasneje. Ker izra čun vsot kva-
dratov za posamezne vplive ni enostaven, bomo verjeli statisti čnim paketom. Iste preizkuse živinorejci
poznajo iz “Harvey-evega programa”. Tip III lahko prakti čno vedno uporabljamo. Vsote tipa I ali II pa
uporabljamo v živinoreji samo takrat, ko so vrednosti v tabelah enake kot pri tipu III ter pri popolnem hi-
erarhičnem modelu. Učimo se jih bolj zaradi razumevanja. Včasih moramo poznati enostavnejši primer,
da razumemo malo bolj zapletene.
Pomembna predpostavka pri tipu III je, da so vse celice − vsi podrazredi− zasedeni. Polna celica ima
najmanj eno opazovanje. Praviloma to ni zadostno za dober poskus, a to je že druga zgodba. Če vemo,
da je ena celica slabo zasedena, pa tistih nekaj podatkov pustimo v obelavi, ker bo izpeljava hipotez in
s tem interpretacija lažja. Vedeti pa moramo, da bodo vse primerjave s slabo zasedeno celico oziroma
skupino nezanesljive. Če so pri interakciji manjkajoče celice, izberemo vsote kvadratov tipa IV, ker so
lahko boljše. Še vedno velja, da poskus ni bil najbolj posre čeno zasnovan. Zgodi pa se lahko, da smo
šele na koncu poskusa ugotovili, da je interakcija pomembna. Takrat pa celic ne moremo ve č popolniti
in iz poskusa poskušamo izvleči, kar se da.
Pri modelu z vplivom meseca in pasme 5.42 je delitev vsote kvadratov pri tipu III (tabela 5.15) enaka
kot pri tipu II (tabela 5.13). Vpliv meseca ni značilen. Če dodamo vpliv pasme, dodatni vpliv pojasni
vsoto kvadratov v znesku 10970.00 in za to porabi dve stopinji prostosti. Dodani del variabilnosti tudi v
tem primeru pojasni pomemben delež variabilnosti. Vpliv pasme je zna čilen. Za preizkus vplivov lahko
uporabimo vsoto kvadratov po tipu II ali III.

Tabela 5.15: Viri variabilnosti za dnevni prirast iz modela 5.42 tip - III
Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00
Mesec 1 1066.67 1066.67 2.57 0.1526
Pasma 2 10970.00 5485.00 13.24 0.0042
Ostanek 7 2900.00 414.29
CTSS 10 14200.00
Skupno 11 3341700.00

Pri modelu z vključeno interakcijo (5.51) se vsote kvadratov med tipoma II (5.14) in III (5.16) razlikujeta.
Pri interakciji je vsota kvadratov enaka, pri glavnih vplivih pa je pri tipu II precenjena. Pri podobnih
modelih uporabljamo pri preizkušanju vplivov vsote kvadratov, izra čunane po tipu III.

116
Biometrija 117

Tabela 5.16: Viri variabilnosti za dnevni prirast iz modela 5.51 tip - III
Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00
Mesec 1 558.57 558.57 4.45 0.0887
Pasma 2 8450.00 4225.00 32.50 0.0014
Mesec*pasma 2 2250.00 1125.00 8.65 0.0238
Ostanek 5 650.00 130.00
CTSS 10 14200.00
Skupno 11 3341700.00

V uporabljenih modelih so vsote kvadratov pri tipu IV enake kot pri tipu III, ker nimamo praznih celic.

5.4.4 Analiza variance v modelih za debelino hrbtne slanine

Uporabimo ista modela 5.35 in 5.13 še pri debelini hrbtne slanine. Pri tej lastnosti je ve č opazovanj,
dodali pa bomo še model s korekcijo na skupno maso 100 kg.

yi jkl = µ + Pi + M j + b(xi jk − 100) + ei jkl [5.52]

Tabela 5.17: Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 tip I
Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 8800.00
Pasma 2 399.29 199.65 30.49 <0.0001
Mesec 1 19.38 19.38 2.96 0.1035
Masa 1 0.023 0.023 0.00 0.9537
Ostanek 17 111.31 6.55
CTSS 21 530.00
Skupno 22 9330.00

Tabela 5.18: Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 za tip II, III in IV
Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 8800.00
Pasma 2 256.44 128.22 19.58 <0.0001
Mesec 1 10.87 10.87 1.66 0.2148
Masa 1 0.023 0.023 0.00 0.9537
Ostanek 17 111.30 6.55
CTSS 21 530.00
Skupaj 22 9330.00

yi jkl = µ + Pi + M j + PMi j + b(xi jk − 100) + ei jkl [5.53]

5.5 Preveritev nivojev znotraj vpliva

5.6 Nov naslov

V naslednji tabeli
Povprečja po pasmah in letih. Model.

117
118 Biometrija

Tabela 5.19: Viri variabilnosti za debelino hrbtne slanine


Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F1-vrednost P-vrednost
Srednja vrednost 1 8800.00
Pasma 2
Mesec 1
Pasma*mesec 2
Masa 1
Ostanek 15
CTSS 21
Skupaj 22 9330.00

Ali so razlike

180

160
Indeks plemenske vrednosti

140

120

100

80

60
80 82 84 86 88 90 92 94 96
Leto preiyku[nje

180

160
Indeks plemenske vrednosti

140

120

100

80

60
80 82 84 86 88 90 92 94 96
Leto preiyku[nje
118
Biometrija 119

Tabela 5.20: Povprečja po pasmah in letih


2
xi j Pi yi j y2i j yi j − E yi j
80 11 68
81 11 82
82 11 90
83 11 109
84 11 104
85 11 105
86 11 107
87 11 111
88 11 115
89 11 114
90 11 115
91 11 122
92 11 128
93 11 140
94 11 132
95 11 140
96 11 167
97 11 169
80 22 89
81 22 105
82 22 100
83 22 120
84 22 114
85 22 111
86 22 108
87 22 113
88 22 115
89 22 116
90 22 110
91 22 118
92 22 123
93 22 137
94 22 126
95 22 142
96 22 166
97 22 154
83 33 125
84 33 128
85 33 121
86 33 122
87 33 130
88 33 129
89 33 126
90 33 125
91 33 131
92 33 132
93 33 146
94 33 130
95 33 139
96 33 166
97 33 166 119
120 Biometrija

160

Indeks plemenske vrednosti 140

120

100

80

60
80 82 84 86 88 90 92 94 96
Leto preiykusa

160
Indeks plemenske vrednosti

140 Odstopanje meritve od pri;akovane


vrednosti ya pasmo duroc

120

100
Odstopanje pri;akovane vrednosti ya
pasmo duroc od pri;akovane vrednosti
celotnega vyorca
80

60
80 82 84 86 88 90 92 94 96
Leto preiykusa

F-test in t-test Pri testiranju modelov bolj preprost model, ki privzame ni čelno hipotezo, primerjamo z
obsežnejšim, kompleksnejšim modelom, ki zastopa alternativno hipotezo. Preprostejšega dobimo tako,
da postavimo na nič nekatere parametre, parametre izenačimo ali izenačimo z neko komstanto iz obse-
žnejšega modela. Pri preizkušanju modelov praviloma predpostavimo, da eden od vplivov ni pomemben
in ga tako izpustimo.
Pri testiranju hipotez uporabljamo F−test, kadar imamo ve č nivojev pri proučevanih vplivih. V izjemnih
razmerah lahko uporabimo tudi t−test in sicer ima prou čevani vpliv samo dva nivoja. V tem primeru je
t−statistika le kvadratni koren F−statistike.
y0 Ay/ fA
F 0 ( fA , f B , λ A ) = [5.54]
y0 By/ fB

Oba testa zahtevata, da so neodvisne slučajne spremenljivke in ostanki normalno porazdeljeni. To omo-
goča, da je vsota kvadratov porazdeljena po distribuciji χ 2 .

χ2 (r(Q), λ = β0 X0 QXβ/2) [5.55]

120
1
Biometrija 121

Primer:
Vzemimo opazovanja y (5.56), ki so porazdeljena normalno s pri čakovano vrednostjo Xβ in varianco V.
Model vključuje naključno spremenljivko u, ki je tudi normalno porazdeljena (5.57).

y∼N (Xβ, V) [5.56]

u∼N (0, G) [5.57]

e∼N (0, R) [5.58]

Poleg tega morata biti kvadratni formi neodvisni. Pri kvadratni formi v imenovalcu mora biti λ = 0.

1) Preveri ocenljivost hipoteze! Hipoteza je ocenljiva, če velja:


− 
K X0 V−1 X X0 V−1 X = K [5.59]

Preverjanje ocenljivosti je potrebno tudi zaradi interpretacije rezultatov. Če določena linearna kombina-
cija ni ocenljiva, se je moramo izogibati tudi pri interpretaciji.
PRIMER: Podatki za test mladic
Tako npr. ni ocenljiv sistematski vpliv pasme, zato v tekstu ne moremo napisati: “Vpliv pasme P 1 je
bil večji kot vpliv pasme P2 .” K sreči so lahko ocenljive razlike med pasmami. Tako lahko napišemo:
“Prašiči P1 so bili boljši (slabši) kot prašiči P2 .” Zgodi pa se lahko, da zaradi strukture podatkov tudi
razlike med pasmami niso ocenljive. Če se nam poskus zavleče več mesecev, moramo imeti pasme v
vseh mesecih, da lahko ločimo vpliva sezone in pasme.
Preizkusite ničelno hipotezo, da so razlike med pasmami enake 0.
Ponovite vajo tako, da pri pasmi švedska landrace ne upoštevate podatkov v januarju in februarju. •

2) Preuči distribucije odvisnih (y) in neodvisdnih (u ) naključnih spremenljivk in ostanka (e)! Ta


zahteva, da so podatki porazdeljeni normalno, je lahko bila kršena dokler smo iskali rešitve. Brž ko
jih začenjamo primerjati, z drugimi besedami testirati hipoteze, pa morajo biti opazovanja y (5.56),
naključne spremenljivke u (5.57) in ostanek e (5.58) normalno porazdeljene.

3) Preveri, ali je produkt matrike kvadratne oblike Q in V idempotenten!

QVQV = QV [5.60]

Matrika M je idempotentna, če velja 5.61. Tu bomo praktično prvič uporabili kvadrat matrike.

M = M2 = MM [5.61]

Pri teh matrikah veljata tudi naslednji dve koristni pravili. Produkt idempotentne matrike M in matrike
dogodkov X je 0 (5.62).

MX = 0 [5.62]

Rank idempotentne matrike M je enak njeni sledi (5.63).

rank(M) = tr(M) [5.63]

To zagotavlja, da je vsota kvadratov neodvisna od parametrov, to je od sistematskih vplivov.

121
122 Biometrija

4) Ugotovi rang matrike Q

5) Izračunaj λ

5.6.1 Metoda splošnih najmanjših kvadratov

5.6.1.1 Kvadratna oblika za model


Poiščimo kvadratno obliko (ang. quadratic form) za model 5.64pri metodi splonih najmanjših kvadra-
tov. Kvadratno obliko prepoznamo po tem, da je matrika kvadratne oblike Q od spredaj pomnožena z
vrstičnim vektorjem opazovanj y0 , od zadaj pa s stolpičnim vektorjem opazovanj y. Torej ima obliko
y0 Q y.
Porazdelitev opazovanj y je normalna s pričakovano vrednostjo Xβ in varianco opisano z matriko V
(5.65). Tudi naključni vpliv u (5.66) in ostanek e (5.67) sta normalno porazdeljena. Pri obeh vektorjih
so vse pričakovane vrednosti enake 0. Varianca za naključni vpliv je opisana v matriki G, za ostanek pa
v matriki R.

y = Xβ + Zu + e [5.64]

y∼N (Xβ, V) [5.65]

u∼N (0, G) [5.66]

e∼N (0, R) [5.67]

Rešitev b
β po metodi splošnih kvadratov dobimo z enačbo 5.68.

−1
b
β = X0 V−1 X X0 V−1 y [5.68]

Vsoto kvadratov za model dobimo tako, da kvadriramo pri čakovane vrednosti in jih stehtamo z ustre-
znimi variancami. To bi lahko imenovali tudi vsoto splošnih kvadratov. Ker je matrika fenotipskih
varianc V lahko sorazmeroma sestavljena, bomo uporabili kar matri čno obliko zapisa. Tako torej levi
izraz 5.69 predstavlja vsoto splošnih kvadratov za model. V izrazu na desni strani pa smo pri čakovano
vrednost opazovanj ŷ zamenjali z izrazom Xβ,b ki ga uporabljamo pri izračunu.

b0 X0 V−1 Xβ
ŷ0 V−1 ŷ = β b= [5.69]

Namesto rešitev β b vstavimo desno stran enačbe 5.68. V izrazu 5.70 smo torej že dobili vrstični in
stolpični vektor, osrednji del pa predstavlja matriko kvadratne oblike Q.

b0
β βb
z }| { z }| { [5.70]
−1  −1
y0 V−1 X X0 V−1 X X0 V−1 X X0 V−1 X X0 V−1 y

Predno pa jo dokončno proglasimo matriko


 kvadratne oblike Q, izraz še malo preuredimo. V osrednjem
delu je matrika koeficientov X0 V−1 X iz desne in leve pomnožena z inverzo. Produkt se poenostavi,
ostane le inverza matrike koeficientov, kot je prikazano v 5.71.

−1  −1 −1


X0 V−1 X X0 V−1 X X0 V−1 X = X0 V−1 X [5.71]

122
Biometrija 123

Vrnimo se v izraz 5.70 in nadomestimo osrednji del z rezultatom iz 5.71. Kvadratna oblika za model je
prikazana v 5.88.

−1
= y0 V−1 X X0 V−1 X X0 V−1 y
| {z } [5.72]
Q

Sedaj pa preverimo, če je QV idempotentna matrika. Dokazati moramo, da je velja 5.73.

QV • QV = QV [5.73]

Ko smo vstavili Q iz enačbe 5.71, dobimo 5.74. V sredini izraza smo dobili desni in levi produkt matrike
varianc V z njenimi inverzami.

−1 −1
V−1 X X0 V−1 X X0 V −1
| {z VV−1} X X0 V−1 X X0 V−1 V
[5.74]
V−1

Po poenostavitvi nam ostane samo še inverza V −1 , dobili pa smo matriko koeficientov X 0 V−1 X v enačbi
5.75.
−1 −1
V−1 X X0 V−1 X X0 V−1 X X0 V−1 X X0 V
| {zV}
−1
| {z } [5.75]
I I

Ponovno imamo desni in levi produkt matrike koeficientov z inverzami, iz tega produkta izberemo npr.
desni produkt, ki nam da identično matriko in nam ostane torej samo še inverza matrike koeficientov v
enačbi 5.76. Sicer bi lahko poenostavili tudi skrajno desno stran ena čbe, a lahko zaenkrat kar pustimo
nespremenjeno. Tako bomo laže prepoznali matriko kvadratne oblike Q, ostala pa nam bo tudi matrika
varianc V v enačbi 5.76.

−1
V−1 X X0 V−1 X X0 V−1 V = QV [5.76]

Končno smo dokazali, da je matrika kvadratne oblike idempotentna.


Ugotovimo tudi rank matrike Q! Rank idempotentne matrike 5.77 je enak sledi matriki 5.78.
 −1 
rank V−1 X X0 V−1 X X0 V−1 V = [5.77]

 −1 
= tr V−1 X X0 V−1 X X0 = [5.78]

Pri sledi zavrtimo matrike in sicer matriko dogodkov X 0 postavimo na začetek izraza (5.79).
 −1 
= tr X0 V−1 X X0 V−1 X = [5.79]

Tako smo dobili produkt matrike koeficientov in njene inverze. Produkt je identi čna matrika I, red določa
število neznanih lokacijskih parametrov p (5.80).


tr I p = p [5.80]

123
124 Biometrija

b) Vsota kvadratov za ostanek


−1
RS S = y0 V−1 y − y0 V−1 X X0 V−1 X X0 V−1 y =

 −1 
y0 V−1 − V−1 X X0 V−1 X X0 V−1 y
| {z } [5.81]
Q

Preverimo, če je matrika kvadratne oblike res idempotentna.


 −1   −1 
V−1 − V−1 X X0 V−1 X X0 V−1 V V−1 − V−1 X X0 V−1 X X0 V−1 V

 −1  −1 
I − V−1 X X0 V−1 X X0 I − V−1 X X0 V−1 X X0

 −1 −1 −1 


I − 2V−1 X X0 V−1 X X0 + V−1 X X0 V−1 X X0 V−1 X X0 V−1 X X0

 −1 −1 
I − 2V−1 X X0 V−1 X X0 + V−1 X X0 V−1 X X0

 −1 
I − V−1 X X0 V−1 X X0

 −1 
I − V−1 X X0 V−1 X X0 V−1 V

5.6.2 Metoda najmanjših kvadratov

Vzemimo sedaj enostavnejši model, kjer so ostanki identi čni in neodvisni. Porazdeljeni pa so normalno.
V takih primerih lahko uporabimo metodo najmanših kvadratov.

y = Xβ + e [5.82]


y∼N Xβ, Iσ2e [5.83]

−1
b
β = X0 X X0 y [5.84]

Vsota kvadratov za model

b0 X0 Xβ
ŷ0 ŷ = β b= [5.85]

b z desno stranjo enačbe 5.84.


Nadomestimo ocene parametrov β

−1  −1
= y 0 X X0 X X0 X X0 X X0 y = [5.86]

Srednji del izraza 5.86 se poenostavi, ker velja 5.87.

−1  −1 −1


X0 X X0 X X0 X = X0 X [5.87]

124
Biometrija 125

V izrazu 5.88
0
−1
= y0 X XX 0
Xy
| {z } [5.88]
Q

Matrika kvadratne oblike je idempotentna


h −1 i h −1 i −1
Q2 = X X0 X X0 X X0 X X0 = X X0 X X0 [5.89]

rank (Q) = p [5.90]

Vsota kvadratov za ostanek


 −1 
RS S = y0 y − y0 X (X0 X)−1 X0 y = y0 I − X X0 X X0 y
| {z } [5.91]
M

rank (M) = n − p [5.92]


 −1   −1 
M2 = I − X X0 X X0 I − X X0 X X0 = [5.93]

−1 −1 −1


= I − 2X X0 X X0 + X X0 X X0 X X0 X X0 = [5.94]
−1
= I − X X0 X X0 = M [5.95]
 −1 
MX = I − X X0 X X0 X = X − X = 0 [5.96]

Če je V = Iσ2e , potem


 
E (RS S ) = E y0 My = tr (MV) + β0 X0 MXβ = tr MIσ2e + 0 = (n − p) σ2e [5.97]
 
RS S
E = σ2e [5.98]
n− p

, nepristranska ocena variance za ostanek


metoda REML (omejene največje zanesljivosti)

y0 My
σ̂2e = [5.99]
n−p

Pri metodi ML (največje zanesljivosti) dobimo pristranske rezultate - rezultat je podcenjen, vendar pa
je varianca ocene manjša - ocena je bolj natančna. Razlika je pomembnejša, ko je v modelu veliko
sistematskih vplivov (ali veliko nivojev). Ko pa je število opazovanj v primerjavi s stopinjami prostosti
za model veliko, pa je razlika minimalna.
 y0 My
ML σ2e = [5.100]
n
(n − p) 2

E ML σ2e σe = [5.101]
n
  n − p   n − p 2 
var ML σ2e = var σ2e = var σ2e [5.102]
n n

125
126 Biometrija

Tabela 5.21: V
k = n/p (np) /n (1 − 1/k)2
1 0 0
2 1/2 1/4
3 2/3 4/9

10 9/10 81/100 
limML σ2e = REML σ2e = σ̂2e
k→∞
∞ 1 1

5.6.3 Pričakovana vrednost kvadratne oblike

y ∼ (Xβ, V) [5.103]

E tr y0 Qy = [5.104]
  
= E tr Qyy0 = tr E Qyy0 = tr QE yy0 = [5.105]

= tr Q V + Xββ0 X0 = [5.106]

= tr (QV) + tr QXββ0 X0 = [5.107]

= tr (QV) +tr β0 X0 QXβ =
| {z } [5.108]
skalar

= tr (QV) + β0 X0 Q Xβ
| {z } |{z} [5.109]
E (y0 ) E (y)

5.6.4 Distribucija kvadratne oblike

y ∼ N (Xβ, V) [5.110]
  
2 β0 X0 QXβ
y Qy ∼ χ
0
rank (Q) , λ = [5.111]
2

Rank matrike kvadratne oblike Q predstavlja stopinje prostosti (degree of freedom).


Pri vrednosti 0 je χ2 distribucija centralna, drugače pa necentralna. Da je porazdelitev kvadratne oblike
χ2 , morata biiti izpolnjena dva pogoja:

• opazovanja morajo biti porazdeljena normalno

• QV mora biti idempotentna: QVQV = QV

Vrednost λ predstavlja parameter necentralnosti (noncentrality parameter). Vrednost λ postane po-


membna pri testiranju hipotez, kar se lahko zgodi v dveh primerih:

Xβ = 0
⇒λ=0 [5.112]
QX = 0

126
Biometrija 127

PRIMER:

y = Xβ + Zu + e [5.113]

Vzemimo vsoto kvadratov za ε pri metodi splošnih najmanjših kvadratov (5.114).

(y − Xβ)0 V−1 (y − Xβ) [5.114]

ε = y − Xβ [5.115]

y0∗ V−1 y∗ [5.116]

⇒ y∗ ∼ N (0, V) [5.117]

QVQV = V−1 V V−1 V = II = I [5.118]



rank V−1 = n [5.119]

1 
λ= E y0∗ QE (y∗ ) = 0 [5.120]
2

y0∗ V−1 y∗ ∼χ2 [n, λ = 0] [5.121]

PRIMER:

y = Xβ + e [5.122]

y ∼ N Xβ, Iσ2 [5.123]

(y − ŷ)0 (y − ŷ)
[5.124]
σ2
0 
y − X (X0 X)−1 X0 y y − X (X0 X)−1 X0 y
[5.125]
σ2

y0 MMy M
2
= y0 2 y [5.126]
σ σ

M 2M 2
QVQV = Iσ 2 Iσ = MM = M [5.127]
σ2 σ
  −1 
rank M/σ2 = tr (M) = tr I − X X0 X X = n − p [5.128]

1 
λ= E y0 QE (y) = [5.129]
2

1
= β0 X0 Mσ−2 Xβ = 0 [5.130]
2

M
y0 y∼χ2n−p [5.131]
σ2

127
128 Biometrija

5.6.5 Neodvisnost kvadratnih oblik

y∼N (Xβ, V) [5.132]

0 0
Vzemimo dve kvadratni obliki: y Ay in y By. Ti dve kvadratni obliki sta neodvisni, če velja AVB=0.

y0 Ay∼χ2 ( fA , λA ) [5.133]

y0 By∼χ2 ( fB , λB = 0) [5.134]

y0 Ay/ fA
∼F ( fA , fB , λA ) [5.135]
y0 By/ fB

F ( fA , fB , λA ) >necentralna F - porazdelitev
Za test hipoteze pri mešanih modelih in nebalansiranih podatkih je pomembno, da sta kvadratni obliki
neodvisni.
PRIMER:
Vzemimo kvadratni obliki za ostanek in model.

y0 y − y0 X (X0 X)−1 X0 y
RS S = = [5.136]
σ2
 −1 
= y0 σ−2 I − X X0 X X0 y [5.137]

 −1 
M=σ−2 I − X X0 X X0

β0 X0 y y0 X (X0 X)−1 X0 y
MS S = = = y0 σ−2 (I − M) y
σ2 σ2

Sta A in B neodvisna

y∼N Xβ, Iσ2

M 2M 2
QVQV = Iσ 2 Iσ = MM = M
σ2 σ

I − M 2I − M 2
QVQV = Iσ Iσ = (I − M) (I − M) = I − M − M + MM = I − M
σ2 σ2

  −1 
fB = rank M/σ2 = tr (M) = tr I − X X0 X X = n − p


fA = rank σ−2 (I − M) = tr (I − M) = tr (I) − tr (M) = n − (n − p) = p

1  1
λB = E y0 QE (y) = β0 X0 Mσ−2 Xβ = 0
2 2

1 
λA = E y0 QE (y) =
2

128
Biometrija 129

1
= β0 X0 Mσ−2 (I − M) Xβ =
2

1
= β0 X0 Xβσ−2
2

y0 My 2
∼χn−p
σ2

y0 (I − M) y 2
∼χ p
σ2

AVB = σ−2 (I − M) Iσ2 Mσ−2 = (M − MM) σ−2 = 0

Kvadratni obliki sta neodvisni in obe imata χ 2 porazdelitev. Opravimo lahko F−test

y0 (I − M) yσ−2 /fA MMS


= ∼ F ( fA , fB .λA )
y Myσ /fB
0 −2 RMS

5.6.6 Neodvisnost linearne in kvadratne oblike

y ∼ N (Xβ, V)

Vzemimo linearno obliko Ay in kvadratno obliko y 0 By. Zanju velja, da sta neodvisni, če velja AVB = 0.
PRIMER:
A.
B.
Sta A in B neodvisna|
1y ∼ N (Xβ, V)
2
3
4
in
5
Kvadratni obliki sta neodvisni in obe imata χ 2 porazdelitev. Opravimo lahko F-test

129
130 Biometrija

Stvarno kazalo

Blok-diagonalna matrika, 39

diagonalne matrike, 38
direkne metode, 82

Identi;na matrika, 39
identi;na matrika, 39

Kvadratne matrike, 38

matrika koeficientov, 82

rang matrike, 38
red matrike, 38

simetri;ne matrike, 38
Skalar, 37
splo[na inverza, 82

transponirana matrika, 40

Vektor, 37

You might also like