Biometri PDF

Biometrija
Milena Kovač
Domžale, 2004
2 Biometrija
2
Biometrija 3
Kazalo
1 OSNOVE BIOMETRIJE 11
1.1 Biometrija kot veda 11
1.1.1 Raziskave in razvojno delo 11
1.1.2 Iskanje informacij 12
1.2 Populacija in vzorci 13
1.3 Spremenljivke 17
1.4 Statistike 20
1.4.1 Srednje vrednosti 21
1.4.1.1 Aritmetična sredina 21
1.4.1.2 Mediana 21
1.4.1.3 Modus 22
1.4.2 Mere razpršenosti 22
1.4.2.1 Varianca 22
1.4.2.2 Standardni odklon 23
1.4.2.3 Standardna napaka ocene 23
1.4.2.4 Koeficient variabilnosti 24
1.4.2.5 Kvantili 24
2 PORAZDELITVE NAKLJUČNIH SPREMENLJIVK 25

2.1 Opis porazdelitve 25
2.2 Porazdelitev diskretnih naključnih spremenljivk 25
2.3 Porazdelitev zveznih naključnih spremenljivk 28
2.3.1 Gostota verjetnosti ali verjetnostna funkcija (probability density func-
tion) 28
2.3.2 Porazdelitvena funkcija za slučajno spremenljivko 28
2.4 Bernullijeva porazdelitev 29
2.5 Binomska porazdelitev 29
2.6 Poissonova porazdelitev 30
2.7 Enakomerna (uniformna) porazdelitev 32
2.8 Normalna porazdelitev 32
2.9 Ostale porazdelitve 33
2.10 Enorazsežne in večrazsežna porazdelitev 34
2.11 Vaje 34
4 Biometrija
3 MATRIČNI ZAPIS MODELA IN OSNOVE MATRIČNE OPERACIJE 37

3.1 Skalar 37
3.2 Vektor 37
3.3 Matrika 37
3.3.1 Posebne matrike 38
3.4 Seštevanje matrik in vektorjev 41
3.5 MNOŽENJE MATRIK 41
3.6 OPIS MODELA V MATRIČNI OBLIKI 41
3.6.1 Vektorji opazovanj in vektorji parametrov 43
3.6.2 Matrike dogodkov 46
3.6.3 Matrike varianc in kovarianc 48
3.7 Determinanta 53
3.8 Inverzna matrika 53
3.9 Splošna inverza 53
3.10 Direktna vsota 54
3.11 Kronecker produkt 55
3.12 Odvajanje matrik 56
3.12.1 Odvod matrike po skalarju 56
3.12.2 Odvod skalarja po matriki 56
3.12.3 Odvod vektorja po vektorju 57
3.12.4 Odvajanje produkta matrik 58
3.12.5 Odvajanje inverze 59
3.12.6 Odvajanje splošne inverze 60
3.12.7 Odvajanje funkcije determinante 60
3.12.8 Chain-ovo pravilo 60
3.13 Sled matrike 60
3.14 KVADRATNE OBLIKE (QUADRATIC FORM) 63
3.15 CHOLESKY DEKOMPOZICIJA (KVADRATNI KOREN) 66
4 OCENJEVANJE IN INTERPRETACIJA PARAMETROV 67

4.1 Kriteriji za izbor metode 67
4.1.1 Struktura podatkov 67
4.1.2 Porazdelitev 68
4.1.3 Število opazovanj 69
4.1.4 Načelo skromnosti, praktičnost, izvedljivost in interpretacija 69
4.1.5 Funkcija tveganja in funkcija izgube, loss function 70
4.2 Enostavna analiza variance (ANOVA) 70
4.3 Metoda najmanjših kvadratov 70
4
Biometrija 5
4.3.1 Ilustracija metode najmanjših kvadratov 70

4.3.2 Izpeljava metode v skalarni obliki 74
4.3.3 Vaje 79
4.3.4 Izpeljava metode v matrični obliki 80
4.3.5 Rešitev sistema enačb 82
4.4 Metoda tehtanih najmanjših kvadratov 84
4.4.1 Ilustracija metode tehtanih najmanjših kvadratov 84
4.4.2 Izpeljava funkcije pri metodi tehtanih najmanjših kvadratov 84
4.4.3 Izpeljava metode tehtanih najmanjših kvadratov v skalarni obliki 86
4.5 Metoda splošnih najmanjših kvadratov 91
4.5.1 Izpeljava metode v skalarni obliki 92
4.6 Metoda največje zanesljivosti 92
4.6.1 Kako poiščemo maksimum neke funkcije? 93
4.6.2 Spremenljivke z naravno porazdelitvijo. 93
4.6.3 Selekcijski indeks 95
4.6.4 Sistem enačb mešanega modela 95
4.7 Lastnosti ocen in napovedi 98
4.7.1 Linearne ocene in napovedi 98
4.7.2 Ocene in napovedi so najboljše 99
4.7.3 Nepristranske ocene in napovedi 99
4.7.4 Ni vse najboljše, kar je BLUE ali BLUP 99
4.8 Metode preverjanja ocenljivosti 100
5 POSTAVITEV IN TESTIRANJE HIPOTEZ 103

5.1 Postavitev hipoteze 103
5.1.1 Ničelna in alternativna hipoteza 103
5.1.2 Postavitev linearnih kombinacij 104
5.2 Vsota kvadratov in stopinje prostosti 106
5.3 Preveritev modela 107
5.4 Preveritev vplivov 112
5.4.1 Vsota kvadratov tipa I 113
5.4.2 Vsota kvadratov tipa II 114
5.4.3 Vsota kvadratov tipa III in IV 116
5.4.4 Analiza variance v modelih za debelino hrbtne slanine 117
5
6 Biometrija
5.5 Preveritev nivojev znotraj vpliva 117

5.6 Nov naslov 117
5.6.1 Metoda splošnih najmanjših kvadratov 122
5.6.1.1 Kvadratna oblika za model 122
5.6.2 Metoda najmanjših kvadratov 124
5.6.3 Pričakovana vrednost kvadratne oblike 126
5.6.4 Distribucija kvadratne oblike 126
5.6.5 Neodvisnost kvadratnih oblik 128
5.6.6 Neodvisnost linearne in kvadratne oblike 129
6
Biometrija 7
Tabele
2.1 Porazdelitev gnezd pri prašičih z ozirom na število živorojenih pujskov v gnezdu 26
2.2 Podatki o testiranju mladic na rast in zamaščenost 34
2.3 Poreklo za mladice 35
2.4 Podatki o preizkusu mladic na rast in zamaščenost z manjkajočimi podatki 35
4.1 Število krmnih dni na živorojenega pujska po letih 70

4.2 Nekaj izbranih enačb za opis zgornjih podatkov 72
4.3 Kvadrati za ostanke pri različnih prirejenih premicah (tabela, graf) 74
5.1 Izračun vsote kvadratov za ostanek pri modelu 5.18 107

5.2 Viri variabilnosti za dnevni prirast iz modela 5.18 107
5.3 Viri variabilnosti za dnevni prirast za model 109
5.5 Izračun vsote kvadratov za ostanek pri modelu 5.35 111
5.9 Viri variabilnosti za dnevni prirast iz modela 5.42 tip - I 113
5.10 Viri variabilnosti za dnevni prirast iz modela 5.46 tip - I 114
5.11 Zmanjšanje vsote kvadratov v modelu s tremi vplivi 114
5.12 Zmanjšanje vsote kvadratov v modelu z dvema vplivoma in interakcijo 114
5.13 Viri variabilnosti za dnevni prirast iz modela 5.42 tip - II 115
5.14 Viri variabilnosti za dnevni prirast iz modela 5.51 tip - II 116
5.15 Viri variabilnosti za dnevni prirast iz modela 5.42 tip - III 116
5.16 Viri variabilnosti za dnevni prirast iz modela 5.51 tip - III 117
5.17 Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 tip I 117
5.18 Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 za tip II, III in IV 117
5.19 Viri variabilnosti za debelino hrbtne slanine 118
5.20 Povprečja po pasmah in letih 119
5.21 V 126
8 Biometrija
8
Biometrija 9
Slike
1.1 Populacija hroščev 14

1.2 Podmnožice zelenih, črnih in rjavih hroščev 15
1.3 Populacija in vzorec 15
1.4 Distribucija mase toplih polovic pri prašičih 19
1.5 Distribucija mase toplih polovic pri prašičih po razredih 19
1.6 Bimodalna in polimodalna porazdelitev 22
1.7 Asimetrična porazdelitev 22
1.8 Normalna porazdellitev z veliko in malo razpršenostjo 23
2.1 Različne porazdelitve 26

2.2 Distribucija gnezd pri prašičih z ozirom na število živorojenih pujskov pri praši čih 27
2.3 Normalna porazdelitev 33
2.4 Bimodalna porazdelitev 34
3.1 Matrika 37
4.1 KD na živorojenega pujska in prileganje različnih premic 71

4.2 KD na živorojenega pujska in prileganje različnih premic 72
4.3 Vsota ostankov je minimalna 73
4.4 Spreminjanje vsote kvadratov v odvisnosti od regresijskega koeficienta 74
4.5 Funkcija zanesljivosti 92
4.6 Primejava pristranske in nepristranske metode 100
5.1 Napoved ostanka 106

10 Biometrija
10
Biometrija 11
Poglavje 1
OSNOVE BIOMETRIJE
1.1 Biometrija kot veda
Biometrija je veda, ki nas uči obdelavo podatkov v bioloških vedah, kamor tudi sodi živinoreja. Pri
obdelavi se poslužuje zakonitosti, ki jih razvijata matemati čna statistika in statistika. Pri biometriji bomo
zakonitosti spoznavali samo ob delu, dokazom bomo vsaj na tej stopnji v ve čini primerov verjeli. Priučili
se bomo le nekaj pravil, da bomo snov bolje razumeli. Sorodna veda je ekonometrija, ki jo gojijo
ekonomisti.
Pri študiju želimo spoznati zakonitosti biometrije ob delu, le redko se bomo posluževali izpeljav in do-
kazov. Želimo vas spoznati z orodji za urejanje in analizo podatkov. Mednje sodijo razli čne elektronske
preglednice in statistični paketi. Poseben poudarek pa bomo dali interpretaciji rezultatov in prikazova-
nju podatkov tako v preglednicah (tabelah) ali na slikah (grafih). Za dobro interpretacijo rezultatov je
sicer potrebno znanje, ki si ga boste pridobili kasneje pri strokovnih predmetih. Ker vas bomo v nada-
ljevanju študija zasuli s številnimi preglednicami in slikami, je pomembno, da se jih nau čimo brati in
tudi presojati prikazane rezultate. Tako se bomo nau čili nekaj trikov, ki bi vam koristili pri pridobivanju
znanja.
Pri biometriji se bomo srečali z novimi izrazi. Med podatki bomo v prvi vrsti našli lastnosti oz. opa-
zovanja, v statističnem jeziku jih imenujemo tudi odvisne spremenljivke. Lastnosti ali opazovanja so
značilnosti osebkov (živali, rastlin), lahko pa tudi predmetov (izdelki) ali snovi. Pri tem morda mislimo
na starost, maso, višino, površino, količino ali celo izgled. Pri snoveh (krma, zdravila...) bomo spremljali
učinke. V tem primeru nam bo učinek oziroma odziv predstavljal lastnost, ki jo želimo prou čiti.
Odvisne spremenljivke so odvisne od velikega števila vplivov - neodvisnih spremenljivk oz. pojasnjevalnih
spremenljivk. Ti vplivi so lahko zabeleženi (znani) ali pa smo jih pri spremljanju podatkov spregledani
(neznani). Lahko so veliki (pomembni, značilni) ali majhni (nepomembni, zanemarljivi, niso značilni).
Kasneje jih bomo delili še drugače, a za zdaj to zadostuje. Osnovna naloga biometrije je, da iz množice
podatkov izlušči zakonitosti pri proučevanem pojavu in pretehta njihov pomen.
Biometrija torej temelji na opazovanjih - na meritvah ali subjektivnih ocenah. Ponuja nam metode,
s katerimi pojave opišemo. Lahko proučimo velikost (nivo) vpliva, ugotovimo zanesljivost pridobljene
informacije ter preverimo odnose (povezave) med spremenljivkami. Praviloma želimo ugotovljene zako-
nitosti posplošiti "za vsakdanjo rabo". To pomeni, da zakonitosti, ki smo jih dobili na reprezentativnem
vzorcu, uporabimo (posplošimo) na celotno populacijo.
1.1.1 Raziskave in razvojno delo
Postopke, s katerimi pridemo do teh zakonitosti, proglašamo za raziskovalno in razvojno delo. Precej
naših študentov razmišlja, da so prišli na študij, da bi znali dobro oskrbovati živali. Vse te pravzaprav
beseda raziskovanje ali razvoj sprva prestraši. Pa vendar so prav raziskave in razvojna dela nujna za
napredek. So predpogoj za uspešnejšo prirejo.
Vzemimo primer pri obnovi ali gradnji hleva! Kako naj slepo zaupamo prodajalcem hlevske opreme,
da prodajajo samo kvalitetno opremo? Prodajalec, da bo povše či lastniku prodajalne in ne bo izgubil
službe, bo hvalil opremo, ki jo ponuja. Kako pa pridemo do resnice? Kupimo opremo, opremimo hlev,
počakamo nekaj mesecev - in vidimo rezultat! Če je poskus uspel, se je investicija izplačala. Če pa
imamo v novih pogojih slabe rezultate, pa smo si nakopali težave za kar nekaj let. Kateri rejec pa ima na
kupu denar in si lahko po neuspelem poskusu na hitro ponovno prenovi hlev? Bo tokrat obnova uspešna?
12 Biometrija
Po svetu imajo testne postaje za preizkus opreme. Tako je tudi v bljižnih državah, kot npr. Avstriji,
Nemčiji. Izdelovalci kvalitetne opreme z veseljem dajo opremo v preizkus, da se lahko pohvalijo s
prednostmi in prepoznajo napake.
Primere, ko so poizkusi in obdelava podatkov potrebni, bi lahko dolgo časa naštevali. Dobro jih boste
spoznali v nadaljevanju študija. Za naše primere bomo uporabili primere iz živinoreje, ki naj bi jih
poznali ali pa se je dokaj enostavno prikopati do osnovnih informacij. Vseeno vam predlagamo, da
spremljate strokovno literaturo. Prav vam bo prišlo pri biometriji, še bolj pomembno pa je, da si zgradite
nekakšno osnovno strokovno znanje. To je pomembno zlasti za tiste, ki ne prihajate iz kme čkega okolja.
Morda si privoščite celo aktivne počitnice na kmetiji.
Poiskuse bomo v živinoreji pogosto srečali. Primer je povsem iz prakse. Na ta načim presojamo novo
opremo, krmo, živali itd. Preverjamo že vpeljane in tradicionalne postopke, spremljamo prenos novih
tehnologij in genetskega materiala iz tujih okolij. Nekoliko bolj zvedavi se boste sre čali tudi z apli-
kativnimi in s temeljnimi znanstvenimi raziskavami. Naše znanje za znanstveno delo ne bo povsem
zadostovalo, ker bomo malo bolj praktični. V živinoreji pa primeri iz prakse niso vedno preprosti, a o
tem bomo spregovorili več kasneje.
Raziskovalna in razvojna dela so sestavljena iz naslednjih faz:
• študij literature ("ne odkrivajmo Amerike ponovno")
• načrtovanje preizkusa ("postavitev dobrih temeljev")
• izvedba preizkusa ("protipotresna gradnja")
• obdelava podatkov ("fina dela in oprema")
• presoja podatkov ("bodimo kritični do svojega dela in dela drugih").
Vrstni red opravil je sicer naveden v smiselnem zaporedju. Tako bi bilo zelo narobe, če bi načrt preizkusa
zastavili šele potem, ko je bil že opravljen. Ko se bomo pogovarjali o posameznih fazah, bomo ugotovili,
da je zelo veliko preizkusov pomanjkljivo načrtovanih. Praviloma pa preizkus ne poteka čisto po fazah.
Literaturo je potrebno ves čas spremljati, pa naj smo na začetku še tako izčrpno vse pregledali. Iskati
je potrebno še druge vire, npr. neobjavljene, podane na seminarjih ali delavnicah in osebna mnenja.
V zadnjem času je veliko informacij tudi na spletnih straneh posameznikov ali institucij. Pri tem viru
moramo paziti, ker se strani vsakodnevno spreminjajo. Poleg tega pa so nepre čiščene: na svojo spletno
stran lahko posameznik napiše tudi nepreverjeno ali celo zavajajo čo informacijo. Na spletu dobimo tudi
v revijah objavljene članke. Pri tem pazimo na pravilno navedbo, saj v prvi vrsti citiramo tiskani vir,
torej revijo. Spletni naslov lahko sicer dodamo. Pri uporabi takih informacij popolnoma odgovarjamo za
podano informacijo.
1.1.2 Iskanje informacij
Iskanje informacij v literaturi boste izčrpno obdelali pri predmetu informatika. Tam obravnavano snov
bomo pri našem predmetu s pridom uporabili, koristila pa vam bo pri študiju, izdelavi seminarskih nalog
in diplome. Vse učenje bi bilo popolnoma zastonj, če se ne boste teh virov posluževali tudi kasneje, ko
boste v službi.
Bogat vir informacij so tudi spletne strani. Z iskalniki pridemo do številnih informacij, ki pa so žal
praviloma nepreverjene. Pri uporabi moramo biti zato previdni in jih še dodatno presojati. Še posebej
moramo paziti pri informaciji, ki nam je sicer všeč, a je v nesoglasju z dosedaj pridobljenim znanjem.
Podatke lahko s pridom uporabimo tudi za podrobnejše iskanje ali pa jih preverimo na svojih podatkih.
Pri biometriji in računalništvu bomo dodali še en koristen vir informacij: podatke. Podatkov imamo v
živinoreji mnogo. Pridobimo jih pri redni kontroli prireje, na črtovanih preizkusih ali simulacijah.
12
Biometrija 13
1. Kontrola prireje
(a) kontrola mlečnosti pri govedu, drobnici ...

(b) preizkušnje na testnih postajah
(c) preizkusi v pogojih reje
(d) laboratorijski testi
(e) delovne sposobnosti in športni rezultati
(f) ocenjevanje zunanjosti ...
2. Načrtovanje in izvedba poizkusov
(a) izvedemo na vzorcu

(b) rezultate uporabimo na celotno populacijo
3. Simulacije
Neizčrpen vir informacij nastane pri rednem spremljanju in kontroli proizvodnosti živali ter pri selek-
cijskem delu. Tu pač ne moremo pričakovati uravnoteženih podatkov. Še več. Podatki niso naključni
vzorec iz populacije, pravzaprav so daleč od tega. Zlasti pri vzreji plemenskih živali, na živalih v te-
stnih postajah ali plemenskih živalih so meritve opravljene na na črtno odbranih živalih, ki naj bi bile
čimboljše od sovrstnikov. Živali v preizkusu so kandidati za starše pri naslednji generacije, plemenske
živali pa starši že so. Odbiramo živali, ki se bodo v danem okolju dobro (optimalno) po čutile in dale kar
najboljše rezultate. Tudi pri živalih, ki so že vklju čene v proizvodnjo, ves čas preverjamo, če dosegajo
"normo" - zadovoljive rezultate. Slabše živali sproti izlo čamo. Tako odbira kot izločevanje poskrbita, da
pri proučevanju proizvodnih lastnosti vzorec ni nikoli naklju čen.
Zbrani so lahko v skrbno načrtovanih preizkusih. Živali so izbrane in razdeljene v skupine naklju čno.
Obdelava teh podatkov, če so skupine uravnotežene, je enostavno. Na žalost pa je pri živalih težko dose či
uravnoteženost. Na razpolago ni dovolj živali, žival zboli ali celo pogine in dobro na črtovan poskus ter
enostavna analiza propadeta.
Pogosto se v živinoreji uporabijo tudi simulirani podatki. Z njimi prou čujemo, če o posameznem pojavu
dovolj vemo. Simulirane podatke si pripravimo z računalnikom večkrat in potem preverimo, če so ugoto-
vitve iz prakse - preizkusov ali prireje - skladne s simulacijami. Tudi mi bomo uporabljali za ponazoritev
simulirane podatke, da bi bolj nazorno prikazali nekatere primere. Pri tem vas bomo opozorili, ker bodo
lahko rezultati nenavadni!
Tretji vir informacij pa so osebni kontakti. Dragocene so lahko informacije kolegov pri študiju, ker
vam lahko pomagajo pri razjasnitvi pojmov, pri katerih se vam je nekoliko zataknilo. Če so stvari še
vedno nejasne, se opogumite in povprašajte pedagoge. S svojimi vprašanji praviloma ne motite pouka!
Celo nekaj nagajivosti, če le ostane na dostojni ravni, popestri in stimulira aktivno delo. Pomagate
nam, da uspemo in vašim manj pogumnim kolegom stvari razložiti. Tole zgodbico smo spletli okrog
študija biometrije. Med osebne kontakte pa ne štejemo samo razgovore pri pouku biometrije, ampak tudi
razgovore z drugimi pedagogi, s strokovnjaki, kmeti, delavci itd.
1.2 Populacija in vzorci
V biometriji proučujemo populacije, množice. Ker so populacije praviloma obsežne, raziskave opra-
vljamo na manjših vzorcih. Poglejmo si najprej definicije in primere.
Populacija (množica) je skupek elementov (osebkov, živali, ..., tudi predmetov) s skupnimi lastnostmi.
"Skupne lastnosti" so lahko v tem trenutku še zelo razli čne. Lahko so lastnosti, ki opisujejo npr. zunanje
znake, lahko proizvodne lastnosti. Populacija je lahko v razli čnih primerih različno določena.
Navedimo nekaj primerov:
13
14 Biometrija
Slika 1.1: Populacija hroščev
• vse krave lisaste pasme v Sloveniji,
• vse plemenske svinje na farmi A,
• vsi plemenski ovni na Primorskem,
• ves krompir na njivi,
• lisaste krave v čredah z več kot desetimi kravami,
• plemenske svinje linije 12,
• plemenske svinje pasme švedska landrace in large white...
Populacijo moramo opisati dovolj natančno. Pripadajo ji vsi elementi, ki izpolnjujejo kriterije za uvrsti-
tev.
Subpopulacije (podmnožice) so del celotne populacije, v katerem so si elementi nekoliko bolj podobni
kot v celotni populaciji. Nekatere od zgornjih populacij razdelimo na podmnožice:
• vse krave lisaste pasme po regijah (Pomurje, Podravje ...),
• svinje na farmi A po kategorijah (mladice, prvesnice, svinje po 2. zaporedni prasitvi),
• vsi plemenski ovni po kontroliranih tropih na Primorskem (vsak rejec ima svojo podmnožico ov-
nov),
• vsi plemenski ovni po vaseh na Primorskem (vsaka vas ima svojo podmnožico),
• krompir po gredah (njiva je razdeljena na grede, ki predstavljajo podmnožice).
Kot vidimo iz primerov, lahko isti skupek elementov predstavlja množico ali podmnožico. Zna čilno za
podmnožice je, da ji pripadajo vsi elementi, ki izpolnjujejo vse pogoje za populacijo - množico - in še
14
Biometrija 15
Slika 1.2: Podmnožice zelenih, črnih in rjavih hroščev
Povpre;ne
Slabe Dobre
Vyorec
Slika 1.3: Populacija in vzorec
dodatne pogoje podmnožice. Populacijo lahko na podmnožice razdelimo na ve č načinov, odvisno od

primera, ki nas zanima. Lahko imamo celo več dodatnih kriterijev.
Element je osnovna enota v množici. Tako so elementi posamezne živali, rastline, stroji, človek itd., na
katerih opravljamo meritve. Elementov v množici je obi čajno mnogo ali celo neskončno mnogo. Npr.,
če populacijo lisastih krav nismo časovno omejili, smo vanjo zajeli vse lisaste krave: žive če, izločene in
še ne rojene. Ko hočemo pri teh kravah izvedeti več o proizvodnih lastnostih, ne moremo ali samo ne
utegnemo izmeriti vseh. Tako jih v preizkus vključimo le nekaj - vzorec (slika 1.3).
Vzorec je nekaj elementov iz populacije ali subpopulacije. Vzorci so lahko:
• nekaj deset krav lisaste pasme v Sloveniji,

• nekaj sto plemenskih svinj na farmi,
• nekaj deset plemenskih ovnov na Primorskem...
Vzorec je lahko majhen ali velik. Velikost vzorca je odvisna od namena in želene zanesljivosti, s katero
želimo populacijo spoznati. Glede na način izbora elementov ločimo naključne in nenaključne vzorce.
15
16 Biometrija
a) Naključni vzorec: slepo izbiramo elemente in pri tem ne upoštevamo opazovanih lastnosti kot kriterij
pri izbiri. Izogibamo se tudi informacijam, ki bi lahko bile povezane z lastnostjo, ki jo želimo prou če-
vati. Naključni vzorec za proučitev lastnosti mlečnosti v Sloveniji bi dobili, če bi krave npr. izbirali z
žrebanjem.
b) Nenaključni oziroma selekcionirani vzorec: izberemo elemente vzorca po dolo čenem kriteriju, ki je
povezan z opazovanimi lastnostmi. Nenaključni oziroma selekcionirani vzorec so na primer krave pri
najboljših rejcih v Sloveniji, krave z največjo količino mleka v standardni laktaciji. Taki rezultati niso
pokazatelji proizvodnosti celotne populacije. Ker smo izbirali samo najboljše živali, bi bili rezultati
pristrani in sicer v našem primeru precenjeni.
Če želimo populacijo nepristransko oceniti, mora biti vzorec naklju čen (1.2). Nepristranska ocena po-
meni, da povprečna vrednost vzorca (x) predstavlja srednjo vrednost populacije (µ). Izračunane pov-
prečne vrednosti niso enake srednji vrednosti, a se vse nahajajo blizu srednje vrednosti: okrog nje so
razporejene naključno. Odstopanje pa je odvisno od kvalitete opravljenega poskusa, zanesljivosti opra-
vljenih meritev in števila meritev.
PRIMER: Določitev vzorca

Dobili smo nalogo, da proučimo mlečnost lisastih krav v Sloveniji v preteklem letu.
Ker bi radi proučevali mlečnost pri lisastih kravah, črnobelih ali rjavih krav ne bomo izbirali v vzorec.
Seveda se pri izboru ne smemo omejiti samo na tiste lisaste krave, ki imajo nad 10 000 l. Izlo čili bi
veliko večino krav, povprečje pa bi gotovo nad 10 000 l in bi bilo torej pristrano ocenjeno. Upoštevali
bomo samo podatke, ki se nanašajo na preteklo leto.
Določitev vzorca ni vedno enostavna (1.2). Naključni izbor mora veljati za proučevane lastnosti (odvisne
spremenljivke) in je razširjen na tiste lastnosti, ki so mo čno povezane z njimi. Primernost vzorca je
povezan s ciljem naloge, ki smo se jo zadali (ali pa smo jo dobili od predpostavljenega).
PRIMER : Primeren in neprimeren vzorec

Na farmi prasičev s 4000 svinjami v čredi so si zadali dve nalogi. Najprej so želeli ugotoviti pogostnost
bolezni, ki povzroča plodnostne motnje. V nadaljevanju pa so želeli ugotoviti, kakšne so posledice
bolezni na plodnost. Naključno so izbrali 1 000 svinj in pri štirih ugotovili okužbo. Za presojo plodnosti
so imeli na razpolago velikost gnezda.
• Podatki so bili za prvo postavljeno vprašanje primerni. Ocena 0.4 % je zadovoljiva. Izbor živali
je bil naključen, pri ponovnem poskusu bi se vanj lahko uvrstile druge živali. Tako bi bilo pri
nekoliko drugačnem, tudi naključnem izboru živali bi lahko dobili 5 ali pa morda nobene okužene
živali, prav malo pa je verjetno, da bi bilo iz črede pri obstoječem zdravstvenem stanju 996 živali
okuženih in samo 4 popolnoma zdrave.
• Za drugi del poskusa vzorec ni bil primeren. O naklju čnem izboru sicer ni dvoma. Velikost
vzorca je bila zadostna, saj je predstavljala kar četrtino živali na farmi. A naloga je bila proučiti
razliko med zdravimi in okuženimi živalmi. Plodnost pri zdravih živalih je dobro, torej zanesljivo
ocenjena. Povprečje pri bolnih živalih pa je preveč nezanesljivo. Lahko je odvisno od genotipa
obolelih živali, lahko od drugih vplivov v okolju. V prvi skupini je bilo mogo če moteče vplive pri
obdelavi podatkov z modelom odstraniti, v drugi skupini pa še za eno "oceno" ni zadosti podatkov.
Razlika pa je ocenjena tako (ne)natančno, kot je (ne)natančen najslabše ocenjeni člen. Nič nam
torej ne pomaga, da smo plodnost pri zdravih živalih dobro ocenili. Ko rezultate primerjamo z
nezanesljivimi rezultati pri bolnih živalih, so sklepi nezanesljivi.
Po drugi strani pa izbora vplivov ne prepustimo naklju čju. Poskusne skupine bomo poskušali čimbolj
izenačiti po številu, živali pa, če se le da, naključno porazdeliti v skupine. Seveda pa krave črnobele
pasme ne smemo podtakniti skupini lisastih krav, ko bomo delali primerjavo med pasmama.
16
Biometrija 17
Povsem drugače pa bomo zastavili poskus, ko bomo primerjali dva obroka krme. Če bodo na razpolago
živali dveh pasem, bomo vsako pasmo razdelili na dve podskupini. Eno skupino krmili z eno in drugo z
drugo krmo. Pri vsaki krmi bomo torej imeli živali obeh pasem. Če je le mogoče, bomo poskrbeli, da so
velikosti skupine izenačene.
Vaje:
1. Ali so študenti drugega letnika visokošolskega strokovnega (univerzitetnega) študija populacija,

subpopulacija, naključni ali nenaključni vzorec? Obrazložite!
2. Ali so študenti Univerze v Ljubljani populacija, subpopulacija, naklju čni ali nenaključni vzorec?
Obrazložite!
3. Ali lahko krave črnobele pasme obravnavamo kot populacijo? Obrazložite!
4. Kdaj lahko krave lisaste, rjave in črnobele pasme v Sloveniji obravnavamo kot populacijo? Obra-
zložite!
5. Kokoši Prelux-G so namenjene manjšim jatam v kmečki reji. Pri odbiri plemenskih kokoši in
petelinov upoštevajo nesnost in maso jajc. Ali je mati čna jata naključni ali nenaključni vzorec?
6. Na farmi prašičev bodo preizkusili novo krmo. Na voljo imajo 16 kotcev z desetimi stojiš či. Kako
naj izberejo živali? Ali naj pred preizkusom preverijo sorodstvo med živalmi? Ali naj izlo čijo
bolne živali, če bi bile slučajno določene za poskus? Ali naj bodo živali iste ali različne (naključne)
starosti? Obrazložite!
7. Kako bi izbrali primeren vzorec, če bi želeli preizkusiti krmo za doječe svinje?
8. Na farmi pašičev so se odločili za preizkus dveh sistemov kotcev: kotcev s slamo (skupina A) in
brez nje (skupina B). Med 80 kotci z desetimi prašiči so pri masi 30 kg naključno izbrali 12 kotcev
in živali pomešali. V nove kotce so jih naseljevali tako, da so najprej napolnili kotce s slamo in
nato še kotce brez slame in sicer v istem vrstnem redu kot so praši či prihajali. Ali sta vzorca
prašičev v skupinah naključna? Ali bi se dalo načrt poskusa izboljšati? Utemeljite!
9. Kako lahko preverimo, ali smo vzorce v poskusu res nakju čno izbrali?
1.3 Spremenljivke
Spremenljivke si bomo ogledali s praktičnega vidika. Pomenile nam bodo značilnosti enot, ki jih opa-
zujemo. V živinoreji nam enote največkrat predstavljajo živali, opazujemo pa lahko tudi rastline ali pa
animalne surovine in izdelke. Značilnosti pa bomo razdelili v dve večji skupini. Predmet našega pro-
učevanja bodo lastnosti, opazovanja ali odvisne spremenljivke. Nanje pa vplivajo druge zna čilnosti, ki
jih imenujemo vplivi, pojasnjevalne ali neodvisne spremenljivke. Tu smo razdelili spremenljivke glede
na vlogo, ki jo imajo v našem poskusu. Lastnosti opazujemo in jih želimo pojasniti z vplivi. Lastnost je
posledica, vplivi so vzrok.
Spremenljivke razdelimo tudi glede na način, kako jih pridobimo, grobo v dve skupini:
a) objektivne spremenljivke merimo z merilnimi napravami (tehtnica, meter, pH-meter, ura....) ali šte-
jemo.
b) subjektivne spremenljivke točkujemo ali opisujemo. V praksi dostikrat uporabimo tudi besedo "ocene"
oziroma ocenjevanje. Ker pa sta to v statistiki oziroma biometriji rezervirana pojma in bi tako lahko
prihajalo do zamenjav, se ju bomo v tem pomenu izogibali.
Spremenljivke so lahko kvantitativne ali kvalitativne. Kvantitativne spremenljivke lahko izmerimo z
objektivnimi ali subjektivnimi meritvami. Lahko razvrstimo, jim dolo čimo minimalno in maksimalno
17
18 Biometrija
vrednost, izračunamo povprečje in standardni odklon. Imajo različne porazdelitve. Tako so lahko po-
razdeljene zvezno ali diskretno. Tako vemo, da lahko svinja prasi med 0 in 25 živorojenih pujskov po
gnezdu. V enem gnezdu pa ne more imeti 9.25 pujskov. Število živorojenih pujskov je diskretna spre-
menljivka. Prav tako lahko razvrstimo krave z ozirom na koli čino namolženega mleka. Porazdelitev pri
količini namolženega mleka je zvezna, zato je količina mleka je zvezna spremenljivka.
Kvalitativnih spremenljivk ne moremo razvrstiti, pa čeprav jih ločimo. Običajno so opisne, zato so
izpeljane statistike (npr. minimalne, maksimalne in povpre čne vrednosti, standardni odklon) neuporabne.
Med kvalitativne spremenljivke sodijo npr. letni časi, ki jih pogosto uporabljamo kot primer. So štirje in
se ciklično pojavljajo. Vemo sicer, da je pozimi bolj mrzlo kot poleti, da je namesto dežja prej pri čakovati
sneg itd. Nimamo pa meril, kako izmeriti letni čas: ali naj bi pri razmejitvi uporabljen čas, temperatura,
oblika padavin... Tako imamo tudi več definicij za letne čase (npr. koledarska zima, meteorološka zima).
Povprečja letnih časov ne moremo izračunati (enačba 1.1).
pomlad + polet je + jesen + zima

x̄ = =? [1.1]
4
Če smo uporabili besede, nas niti ne bo zavedlo. Tega ne smemo storiti niti takrat, ko smo jih ozna čili
s številkami, šiframi. Vzemimo, da smo jih označili po istem vrstnem redu od 1 do 4 (1.2). Dobili bi
povprečni letni čas, ki bi znašal 2.5. In kaj naj bi to pomenilo?
1+2+3+4
x̄ = , 2.5 [1.2]
4
Zaradi enostavnosti pogosto pri kvalitativnih spremenljivkah uporabljamo šifrante, ker bi z opisovanjem
spremenljivk pridobili preveč vrednosti. Tako pri opisu bolezni lahko napišemo plju čnica, pljuč., pnev-
monija, lahko pa bi bolezen tudi podrobneje določili - za katero pljučnico gre. Spremenljivki bi morali
podeliti isto vrednost. Ker pa smo vrednosti poimenovali na ve č načinov, so vrednosti navidezno raz-
lične. To bi nam pri obdelavi delalo probleme. Pri šifrantih vnaprej vemo, kaj sodi skupaj. Ker so lahko
šifre tudi zaporedne številke, nas to ne sme zavesti: lastnost je še vedno opisna, torej tudi kvalitativna.
Sedaj poiščimo še nekaj kvalitativnih spremenljivk. Vzemimo npr. razporeditev barve pri lisastem go-
vedu. Kako bi razvrstili lisaste krave glede na razporeditev barve? Najbrž vsak med nami po svoje. Ali
lahko razporeditev barve izmerimo? Ne. Morda bi se odlo čili za površino, toda to je potem že povsem
druga spremenljivka. Tudi intenzivnost barve, kjer uporabljamo priro čne lestvice, je že druga lastnost.
Ali lahko za porazdelitev barve izračunamo minimalno, maksimalno vrednost ali povprečje? Odgovor
je tudi nikalen. Rejci imajo opisno določene nekatere značilnosti glede razporeditve, vendar so podane
zelo opisno. Vse torej kaže na to, da je razporeditev barve kvalitativna spremenljivka.
Kvalitativne spremenljivke so lahko tudi ocene zunanjosti, še posebej, če so lastnosti podane opisno.
Iste spremenljivke lahko tudi ovrednotimo s točkami na določeni skali: stoja, oblika vimena, korektnost
hoda... V tem primeru so skale določene in lastnosti postanejo kvantitativne. Veliko ocen zunanjosti pri
konjih je kvalitativne narave, pri govedu pa so uredili t.i. linearne skale, kjer lastnosti dobijo kvantitativen
značaj.
Nekatere kvantitativne spremenljivke so zvezne, porazdeljene na strnjeni, nepretrgani, kontinuirani skali,
druge pa so diskretne predstavljeni s prekinjeno, nekontinuirano skalo. Koli čina mleka je praviloma zve-
zna spremenljivka: namolzemo lahko 8 kg mleka, 8.4 kg mleka, pa tudi 8.427843 kg. Slednja koli čina je
sicer neobičajno natančno izmerjena - takšna natančnost je povsem nepomembna in nekoristna. Pretirane
natančnosti se celo izogibamo. Po drugi strani pa je morda merjenje dnevne koli čine mleka zaokroženo
na cele kilograme (ali morda na tone!) le malo preveč površno. Pri grobem zaokroževanju bi dnevna
količina mleka postala diskretna spremenljivka. Včasih zaradi enostavnosti in preglednosti razdelimo
zvezne spremenljivke v razrede in tako umetno ustvarimo diskretno spremenljivko. S tem zmanjšamo
natančnost, zato pa moramo imeti resnično tehten razlog, da si dovolimo kaj takega.
18
Biometrija 19
6000
5000
{tevilo yaklanih pra[i;ev
4000
3000 10.67 % 25.54 %

2.34 % 29.75 %
20.63 % 8.65 % 2.32 %
2000
1000
0
50 60 70 80 90 100 110 120
Masa toplih polovic (kg)
Slika 1.4: Distribucija mase toplih polovic pri praši čih
30
25
20
Distribucija (%)
15
10
0
55 65 75 85 95 105 115
Masa toplih klavnih polovic (kg)
Slika 1.5: Distribucija mase toplih polovic pri praši čih po razredih
Zvezna spremenljivka je tudi masa toplih klavnih polovic pri praši čih (slika 1.4). V povprečju so trupi
pitanih prašičev težki 82 kg, masa pa variira med 50 in 120 kg. Trupi z maso pod 50 kg pripadajo lahkim
pitanim prašičem, trupi nad 120 kg pa težkim pitanim prašičem. Masa trupov na liniji klanja lahko zasede
vse vrednosti med ekstremoma, zaradi praktičnosti jo zaokrožujemo na kilogram natančno. Čeprav smo
sedaj zvezno porazdelitev spremenili v diskretno, si v statistiki s takimi primeri ne belimo glave. V
nasprotju z matematiki v biometriji dopuščamo nekaj površnosti, nekaj "napak". Toda ne razveselite se
tega prehitro!
Ko pa maso trupov zaokrožimo še bolj na grobo, npr. na 5 kg (slika 1.5), naredimo tudi za statistike
distribucijo nezvezno. Posamezne vrednosti so diskretne, praviloma se za prikazovanje poslužujemo
histogramov (grafov s stolpiči). Tega zaokroževanja ne podpirajo niti rejci niti klavni čarji, torej se je ne
smemo razveseliti niti v znanosti. Seveda imajo lahko lastnosti diskretne vrednosti tudi po naravi, brez
zaokroževanja. Takšna lastnost je število potomcev (v gnezdu) in te ne glede na velikost organizmov.
19
20 Biometrija
Vrednost je diskretna tudi pri vinskih mušicah ali celo mikrobih. Je pa res, da je v časih štetje čisto
neuporaben način, mar ne?
Naštejmo nekatere spremenljivke, ki jih živinorejci pogosto opazujemo:
• količina namolženega mleka, odstotek tolšče, količina beljakovin, višina vihra, doba med teli-
tvama, barva dlake, oblika vimena, težavnost telitve, pokritost (trupa)...
• dnevni prirast, debelina hrbtne slanine, masa šunke, površina hrbtne mišice, velikost gnezda, po-
odstavitveni premor, število seskov, stoja, omišičenost...
• sočnost mesa, aroma, pH vrednost, barva mesa, rezna trdnost...
• masa jajca, trdnost lupine, barva lupine, višina gostega beljaka...
• pogostnost pitja, pogostnost agresije, trajanje žretja, čas ležanja v posameznih legah...
Ali lahko opišete spremenljivke? Morda lahko poveste tudi, kako so porazdeljene? Če še ne gre v celoti,
se na spisek vrnite, ko boste pregledali naslednje poglavje?
Vaje:
1. Izmislite si kar največ lastnosti, ki jih opazujemo v živinoreji in pri vseh primerih poskusite za
lastnosti odgovoriti na naslednja vprašanja!
* Ali so objektivno merjene ali subjektivno ocenjene?
* Ali je lastnost kvantitativna ali kvalitativna?
* Ali ima lastnost zvezno ali diskretno porazdelitev?
Na lastnosti, ki jih ne znate razporediti, opozorite predavatelje in jih rešite skupaj!

2. Ali lahko naštejete nekaj lastnosti, ki bi jih veljalo izmeriti in oceniti pri študentih drugega letnika
univerzitetnega (visokošolskega strokovnega) študija?
3. Ali lahko naštejete nekaj lastnosti, ki bi jih veljalo izmeriti in oceniti pri študentih Univerze v
Ljubljani?
4. Ali lahko naštejete nekaj lastnosti, ki bi jih veljalo izmeriti in oceniti pri kravah črnobele pasme?
5. Ali lahko nekaj lastnosti, ki bi jih lahko merili pri kokoših Prelux-G?
6. Katere lastnosti bi merili pri preizkusu nove krmne mešanice pri pitanju praši čev? Ali bi bile
lastnosti iste, če bi želeli preveriti krmo za doječe svinje?
7. Katere lastnosti bi spremljali pri preizkusu dveh sistemov kotcev za pitanje praši čev in katere bi
spremljali pri preizkusu z doječimi svinjami?
1.4 Statistike
V živinoreji spremljamo neko lastnost - spremenljivko x i in jo izmerimo. Tako dobimo niz podatkov, ki
ga imenujemo tudi vzorec Z (1.3). Če smo živali naključno izbirali, je vzorec naključni.
Z = (x1 , x2 , ... xn ) [1.3]
Opravili smo n meritev dnevne količine mleka pri 1000 kravah. Ko želimo podatke predstaviti, je povsem
neprimerno, da bi navajali vse meritve, tudi takrat, ko je vzorec manjši. Podatke moramo primerno
predelati, da iz njih potegnemo najpomembnejše informacije. Izra čunane vrednosti imenujemo statistike.
Če želimo pri tem poudariti, da se nanašajo na vzorec, jih poimenujemo vzorčne statistike. Na tem mestu
bomo obravnavali dve stupini statistik: srednje vrednosti in mere razpršenosti.
20
Biometrija 21
1.4.1 Srednje vrednosti
Vrednosti spremenljivk se med enotami razlikujejo. Nekatere vrednosti so pogostejše, druge pa manj
verjetne, vse pa so bolj ali manj podobne "osrednji vrednosti".
Za srednjo vrednost imamo več statistik. V živinoreji so pogoste aritmetična sredina, mediana in modus.
Srečamo lahko tudi geometrično sredino, le redko pa harmonično sredino. Srednje vrednosti sodijo med
najpomembnejše statistike in praviloma veliko povedo o vzorcu. Če je vzorec slučajen, lahko zaključke
posplošimo tudi na populacijo. Pri srednjih vrednostih, zlasti pri povpre čju, obstaja velika nevarnost, da
jih uporabimo tudi takrat, ko jih ne bi smeli. So tudi priro čne za izračun.
1.4.1.1 Aritmetična sredina

Aritmetična sredina je poznana tudi kot povprečje. Povprečje (enačba 1.4) dobimo tako, da seštejemo
vrednosti spremenljivk xi in jih delimo s številom vrednosti (n). Vsota odklonov od povre čja je vedno
enaka 0.
n
1 X
X= ∗ xi [1.4]
n
i=1
Povprečje bomo omenjali pri več porazdelitvah, prav poseben pomen pa ima pri normalni ali Gaussovi
porazdelitvi, kjer predstavlja njen lokacijski parameter. Aritmeti čno sredino pri populacijah bomo ozna-
čevali z µ, pri vzorcu pa z x.
Povprečje ni vedno primerno. Kadar so populacije neenovite, heterogene oziroma asimetri čne, preverimo
smiselnost uporabe mediane oziroma modusa.
Če poznamo frekvenco podatkov ( fi , porazdelitve), moramo razmišljati o tehtanem povpre čju (enačba
1.5).
r
X
X= fi xi [1.5]
i=1
Pri izračunavanju povprečij iz verižnih indeksov, koeficientov rasti in stopenj rasti raje uporabimo geo-
metrijsko sredino (enačba 1.6).
v
u n
u Y
X=t
n
xi [1.6]
i=1
S srednjimi vrednostmi dobro opišemo populacijo, izgubimo pa informacije, ki so zna čilne za manjše
skupine v vzorcu ali celo za posamezne meritve. Tako se ne smemo prehitro zadovoljiti z njimi, nadalje
moramo iskati povezavo med meritvami, spreminjanje meritev s časom, proučevati različnost med njimi.
1.4.1.2 Mediana
Mediana ali centralna vrednost je tista vrednost spremenljivke, ki razdeli meritve tako, da je enako število
meritev večjih in manjših od nje. Določanje mediane je enostavno, če so podatki razvrščeni oziroma
rangirani po vrednosti. Če je število enot liho, dobi mediana vrednost srednje enote. V primeru sodega
števila opazovanj pa je mediana povprečje srednjega para meritev. Mediana je neobčutljiva na posamezne
vrednosti spremenljivk, dokler spremenjena vrednost ostane na isti strani mediane. Mediana pove o
podatkih manj kot povprečje, je pa lahko primerna, če porazdelitev ni simetrična.
21
22 Biometrija
Slika 1.6: Bimodalna in polimodalna

Poraydelitve y ve;porazdelitev
vrhovi (maksimumi)
Modus
Debelina hrbtne slanine
m
Slika 1.7: Asimetrična porazdelitev
PRIMER : Bolezen pri 7 obolelih živalih traja 6, 6, 7, 7, 8, 29 in 35 dni. Povpre čje znaša 14 dni,
vendar pa je to predvsem zaradi 2 živali, ki se dolgo nista pozdravili. Mediana je 7 dni in nekako bolje
opiše porazdelitev kot povprečje.
1.4.1.3 Modus
Modus je srednja vrednost, ki je enaka najpogostejši vrednosti. Ugotovimo ga lahko pri sorazmeroma
velikem vzorcu, medtem ko so lahko pri manjših vzorcih vse vrednosti redke. Porazdelitve imajo lahko
več modusov (vrhov) in lahko govorimo o unimodalnih, bimodalnih in polimodalnih porazdelitvah (1.6).
V živinoreji je kar nekaj primerov porazdelitev z več modusi. Za primer lahko vzamemo pojav estrusa pri
odstavljenih svinjah ali kravah po telitvi. Pojavljajo se tudi pri spremljanju dnevnega ritma posameznih
živali, zlasti tistih aktivnosti, ki so vezane na prehranjevanje.
Modus predstavlja srednjo vrednost bolje kot povpre čje na selekcioniranih vzorcih. Primeren je za hete-
rogene ali asimetrične porazdelitve (1.7). Kot primer prikazujemo debelino hrbtne slanine pri praši čih.
Zaradi selekcije na mesnatost in urejenih tehnologij je slanina s kožo tanka. Ker pa je navzdol omejena
(koža ima debelino 3 mm), je strmo nagnjena
1.4.2 Mere razpršenosti
1.4.2.1 Varianca
Kako natančno smo (lahko) izvedli poskus, opisuje mera za razpršenost - varianca vzorca (ena čba 1.7).
Tudi to ni parameter - varianca populacije, je samo ocena, morda še to slaba.
n
P
(xi − x)2
i=1
σ2 = [1.7]
n−1
22
1
Biometrija 23
Normalni poraydelitvi
Slika 1.8: Normalna porazdellitev z veliko in malo razpršenostjo
Definicija: Varianca je povprečni kvadratni odklon od pričakovane vrednosti.
Pazite! Če je pričakovana vrednost za celotno populacijo enaka, je zgornji izra čun dober. Kasneje
pa se bomo srečali s primerom, ko je pričakovana vrednost posameznih podskupin različna.
Takrat bomo odstopanja drugače izvrednotili, pa tudi imenovalec bomo spremenili.
1.4.2.2 Standardni odklon

Standardni odklon oziroma standardna deviacija je pozitivna vrednost kvadratnega korena iz variance.
√
σ= σ2 [1.8]
Standardni odklon si lažje predstavljamo kot varianco. V grafu 1.8 imamo dve normalni porazdelitvi.
Pri levi porazdelitvi sta varianca in standardni odklon ve čja kot na desni.
1.4.2.3 Standardna napaka ocene

Povprečje je ocenjeno zanesljivo - z majhno standardno napako ocene (ena čba 1.9), če smo poskus
izvedli v nadzorovanih pogojih, opravili meritve natan čno in v zadostnem številu.
σ
σ x̄ = √ [1.9]
n
Izpeljimo zgornjo enačbo! Najprej moramo ugotoviti varianco za povprečje (enačba 1.10). Pa posku-
simo. Namesto povprečja vstavimo enačbo za izračun povprečja. Konstanto 1n lahko izpostavimo, vendar
jo moramo pri tem kvadrirati.
x + x + ··· + x + ···+ x
1 2 i n
σ2x = var (x) = var = [1.10]
n
Ostane nam varianca vsote (enačba 1.11). Ker so meritve xi neodvisne, so vse kovariance enake 0 in tako
odpadejo.
1
= var (x1 + x2 + · · · + xi + · · · + xn ) = [1.11]
n2
Tako nam ostanejo le členi z variancami, ki jih lahko zapišemo tudi kot vsoto (ena čba 1.12). Meritve
smo opravili z enako natančnostjo, zato je varianca pri vseh meritvah enaka. Ozna čimo jo z σ2 . Meritev
je bilo n, zato lahko izpeljemo enačbo do konca.
n n
1 X 1 X 2 n 1
= 2 (x )
var i = 2 σ = 2 σ2 = σ2 [1.12]
n n n n
i=1 i=1
23
1
24 Biometrija
Da dobimo enačbo 1.9, moramo končni rezultat še koreniti.

Standardno napako ocene bomo izvrednotili tudi pri drugih ocenah sistematskih vplivov, vendar pa nam
bodo v tem primeru v pomoč elementi v matriki koeficientov oziroma njeni inverzi. O standarni napaki
bomo še pogosto govorili, zato se je velja zapomniti.
1.4.2.4 Koeficient variabilnosti

Koeficient variabilnosti je tudi mera za variabilnost, kjer primerjamo standardni odklon s povpre čno
vrednostjo (enačba 1.13). Vrednosti navajamo v odstotkih. V starejši literaturi je ta statistika pogosto
uporabljena, sedaj pa se je izogibamo predvsem v tabelah in grafih. Še vedno pa je lahko dobrodošla
statistika pri interpretaciji rezultatov.
σ
KV = ∗ 100 [1.13]
x
Lahko pa dobimo tudi "čudne vrednosti", ko je koeficient povsem neuporaben. To se zgodi, ko je pov-
prečje blizu 0 ali pa izredno veliko v primerjavi s standardnim odklonom.
1.4.2.5 Kvantili
24
Biometrija 25
Poglavje 2
PORAZDELITVE NAKLJUČNIH SPREMENLJIVK

Porazdelitve nam predstavljajo pogostnost posameznih vrednosti. Predstavimo jih lahko s številom posa-
meznih vrednosti (dogodkov) ali z deleži (pogostnostjo). Porazdelitve lahko prikazujemo v preglednicah
ali grafih. Pri opisu opazujemo:
1. Število ekstremov: unimodalna (z enim vrhom), bimodalna (z dvema vrhovoma), ve č modalna...
2. Zalogo vrednosti: najmanjša in največja vrednost, zveznost ali diskretnost
3. Sploščenost: sploščena, koničasta
4. Asimetričnost: simetrična, levo asimetrična, desno asimetrična
5. Oblika: je to ena od znanih porazdelitev?
Porazdelitve z več vrhovi: doba od pripusta do pregonitve, interim obdobje (doba od odstavitve do prvega
pripusta pri prašičih), servis perioda (doba od poroda do uspešnega pripusta).
2.1 Opis porazdelitve
a) s sliko
Predstavitev porazdelitve s sliko je zelo nazorna. Tega se pogosto poslužimo, ko predstavljamo rezultate
ali ko porazdelitve neke lastnosti ne poznamo. Pri diskretnih spremenljivkah preštejemo dogodke pri po-
sameznih vrednostih. Pri porazdelitvi velikosti gnezda pri praši čih enostavno preštejemo števil prasitev
z 0, 1, 2, 3, ..., 20 in več živorojenimi pujski v gnezdu in narišemo graf. Pri zveznih spremenljivkah ne
moremo ubrati iste poti. Vrednosti, ki jih meritev lahko zasede je neskn čno mnogo, natančno ena vre-
dnost se zgodi zelo redko. Kljub temu pa so na določenem intervalu vrednosti bolj pogoste, zgoščene.
Grafično zadevo naredimo tako, da spremenljivko razdelimo v "primerne" razrede in potem narišemo.
b) s parametri porazdelitve
Parametre posameznih porazdelitev in njihove značilnosti bomo obravnavali pri posameznih porazdeli-
tvah. Pri navajanju parametrov smemo izbrati le tiste, ki dobro opisujejo porazdelitev.
2.2 Porazdelitev diskretnih naključnih spremenljivk
Diskretna naključna spremenljivka je tista, ki ima končno zalogo vrednosti ali neskončno zalogo vredno-
sti iz množice celih števil. Primer s končno zalogo vrednosti predstavlja število potomcev pri sesalcih, z
neskončno zalogo vrednosti pa število odloženih jajčec pri čebelah.
Dogodek iz zaloge vrednosti ima pripadajočo verjetnost. Vzemimo primer za velikost gnezda pri praši čih
(2.2). V gnezdu pri modernih, mesnatih pasmah je lahko od 0 do 22 živorojenih pujskov. Tako je
verjetnost, da so v gnezdu samo mrtvorojeni pujski (2.1), enaka 0.0126 ali 1.26 %. Najpogostejša so
gnezda z 11 (2.2) in 12 (2.3) živorojenimi pujski. Gnezda z 19 živorojenimi pujski so izredno redka
(2.4).
P(X = 0) = 0.0126 [2.1]

26 Biometrija
Yve yne
p or ayd el it ve
Dnevni prirast Debelina hrbtne slanine
Ne yve yne
p or ayd el it ve
Slika 2.1: Različne

{tevilo porazdelitve
rojenih jagnjet {tevilo /ivorojenih pujskov
Tabela 2.1: Porazdelitev gnezd pri prašičih z ozirom na število živorojenih pujskov v gnezdu
Št. živ. puj./gn. Delež (%) Št. živ. puj./gn. Delež (%) Št. živ. puj./gn. Delež (%)
0 1.264 8 9.4310 16 1.0140
1 0.3610 9 12.195 17 0.3570
2 0.7400 10 14.146 18 0.1190
3 1.3790 11 14.098 19 0.0340
4 2.2730 12 11.847 20 0.0110
5 3.3870 13 8.2300 21 0.0010
6 4.8440 14 4.9720 22 0.0010
7 6.8470 15 2.4490 23 0.0000
26
Biometrija 27
15 14.10
12.20
Dele¾ gnezd z n-pujski (%)
10
8.23
6.85
5
3.39
2.45
1.38
1.26
0.36 0.36 < 0.01
0
0 5 10 15 20
©tevilo ¾ivorojenih pujskov
Slika 2.2: Distribucija gnezd pri prašičih z ozirom na število živorojenih pujskov pri praši čih
P(X = 11) = 0.1415 [2.2]
P(X = 12) = 0.1410 [2.3]
P(X = 19) = 0.00034 [2.4]
Oznaka P (X = xi ) ali samo P (xi ) predstavlja verjetnost, da naključna spremenljivka X zavzame natanko
vrednost xi . Vsekakor pa lahko izraz posplošimo. Tako oznaka P (X < xi ) predstavlja verjetnost, da
naključna spremenljivka X zavzame katerokoli vrednost manjšo od x i . Za ponazoritev ponovno vzemimo
primer za velikost gnezda pri prašičih. Izračunajmo verjetnost, da so v gnezdu manj kot trije živorojeni
pujski (2.5). Zanima nas torej verjetnost, da je v gnezdu ni č, eden ali dva živorojena pujska. Ker se
dve možnosti ne moreta zgoditi hkrati, je verjetnost P (X < 3) enaka kar vsoti verjetnosti za tri možne
dogodke.
P(X < 3) = P(X = 0) + P(X = 1) + P(X = 2) = 0.01264 + 0.00361 + 0.00740 = 0.02365 [2.5]
Sedaj pa izračunajmo verjetnost še za nekaj primerov. Pri tem imamo ve č možnosti, prikazali pa bomo
le po eno za vsak primer.
P(X < 5) = P(X < 3) + P(X = 3) + P(X = 4) = 0.02365 + 0.01379 + 0.02273 + 0.03387 = 0.09404[2.6]
P(X ≤ 10) = P(X < 5)+ P(X = 6)+...+ P(X = 10) = 0.09404+0.04844+...+0.14146 = 0.56867[2.7]
P(X ≥ 10) = P(X = 10) + P(X = 11) + ... = 0.14146 + 0.14098 + ... + 0.001 = 0.57279 [2.8]
V vseh predhodnih primerih se dogodki ne prekrivajo. V gnezdu je lahko samo 0, 1, 2 3, ... živorojenih
pujskov. Nikakor ne more biti v istem gnezdu hkrati npr. 5 ali 8 živorojenih pujskov. Dogodki so
neodvisni. Verjetnosti neodvisnih dogodkov lahko kar seštejemo.
P(X < 5 ∨ X ≥ 10) = P(X < 5) + P(X ≥ 10) = 0.09404 + 0.57279 = 0.66683 [2.9]
27
1
28 Biometrija
Prav tako sta neodvisna dogodka v zadnjem primeru (2.9). Iš čemo verjetnost, da je v gnezdu manj kot 5
živorojenih pujskov ali 10 oziroma več živorojenih pujskov. Če jih je manj kot 5, jih ne more biti hkrati
(v istem gnezdu) več ali enako 10. Dogodka sta torej tudi neodvisna.
Sedaj pa poglejmo še naslednji primer (enačba 2.10): poiskati želimo verjetnost, da je v gnezdu manj kot
5 (prvi dogodek) ali 10 oziroma manj pujskov (drugi dogodek). Če je v gnezdu 5, 6, 7, 8, 9 ali 10 pujskov
se je gotovo zgodil drugi dogodek. Ko pa imamo v gnezdu 0, 1, 2, 3 ali 4 pujske, pa sta se zgodila tako
prvi kot drugi dogodek hkrati. Prvi dogodek je torej podmnožica drugega dogodka, zato je verjetnost, da
se zgodita oba dogodka enaka verjetnosti, da se je zgodil drugi dogodek. Prvi in drugi dogodek nista ve č
neodvisna, saj kadarkoli se zgodi prvi dogodek, se zgodi hkrati tudi drugi.
P(X < 5 ∨ X ≤ 10) = P(X ≤ 10) = 0.56867 [2.10]
V enačbi 2.11 želimo ugotoviti, kolikšna je verjetnost, da je v gnezdu manj kot 5 živorojenih pujskov ali
pa je v gnezdo od vključno 3 do vključno 11 pujskov.
P(X < 5 ∨ (3 ≤ X ≤ 11)) [2.11]
Problem v enačbi 2.11 je, da se pri prvem (X < 5) in drugem (3 ≤ X ≤ 11) dogodku prekrivajo možnosti,
da bi imela svinja v gnezdu 3 ali 4 pujske. To lahko rešimo vsaj na dva na čina. Če bi verjetnosti, da
se zgodi prvi ali drugi dogodek samo sešteli, bi bila vsota prevelika. Dogodka, da so v gnezdu 3 ali 4
pujski, bi upoštevali dvakrat. Tako moramo verjetnost, da se ta dva dogodka zgodita, še odšteti. Ena čba
2.12 nazorno pokaže, da dogodka iz enačbe 2.11 nista neodvisna.
= P(X < 5) + P(3 ≤ X ≤ 11) − P(3 ≤ X < 5) [2.12]
V drugem načinu (2.13) smo iz enega dogodka izbrisali tiste dogodke, ki so v prvem že upoštevani.
Spodnji primer tudi da pravilen rezultat, je pa nekoliko skrito, da sta dogodka odvisna.
= P(X < 5) + P(5 ≤ X ≤ 11) [2.13]
Izvrednotimo še enačbo 2.14, ki zahteva, da se zgodita oba dogodka hkrati.
P(X < 5 ∧ (3 ≤ X ≤ 11)) = P(X = 3) + P(X = 4) [2.14]
2.3 Porazdelitev zveznih naključnih spremenljivk
2.3.1 Gostota verjetnosti ali verjetnostna funkcija (probability density function)
Porazdelitvena funkcija (distribution function)
2.3.2 Porazdelitvena funkcija za slučajno spremenljivko
f (yi )
n
Y
f (y1 , y2 , . . . , yn ) = f (yi )
i=1
28
Biometrija 29
2.4 Bernullijeva porazdelitev
Naključna spremenljivka X ima Bernullijevo porazdelitev, če lahko zavzema vrednosti 0 in 1 z verjetno-
stjo p in q = 1 − p. Vrednosti se izključujeta. Verjetnostna funkcija je prikazana v enačbi (2.15).

Br (x|p) = p x (1 − p)1−x za x = 1, 2
P (X = x) = , [2.15]
0 za ostale vrednosti x
Verjetnost p naj bi bila poznana, v modelih pa je pogosto nepoznana in jo ocenjujemo.

Pričakovana vrednost je enaka verjetnosti za uspešni (p) dogodek.
1
X
µ = E (X) = xp x (1 − p)1−x = (0) (1 − p) + (1) (p) = p [2.16]
x=0
Varianca (2.17) je produkt verjetnosti za uspešni (p) in neuspešni (1 − p) dogodek.
1
X
2
σ = var (X) = (x − p)2 p x (1 − p)1−x = p2 (1 − p) + (1 − p)2 p = p (1 − p) [2.17]
x=0
Z Bernullijevo porazdelitvijo lahko opišemo tiste meritve, ki imajo samo dve vrednosti. Sem štejemo
težavnost telitve, če imamo samo dve možnosti. Tudi podatki o oplojenosti jajca, uspešnost oziroma
neuspešnost pripusta. Pri tem imamo samo za en dogodek, en poskus. Če je nanizanih več Bernullijevih
poskusov, dobimo binomsko porazdelitev.
2.5 Binomska porazdelitev
Binomska porazdelitev ima samo dve vrednosti, ki pa se n-krat ponovi. Opišemo jo z dvema parame-
troma in sicer številom poskusov (n) in verjetnostjo (p), da se je zgodil prvi možni dogodek. Vrednost p
variira lahko med 0 in 1. Drugi možni dogodek se je zgodil natanko z verjetnostjo q = 1− p. Verjetnostno
funkcijo prikazujemo v enačbi (2.18). Funkcijo grafično ponazorimo s histogramom.

 n
Bi (x|p, n) = p x (1 − p)1−x za x = 1, 2, ... n
P (X = x) = x , [2.18]
 v ostale vrednosti x
0
PRIMER: Poiščite verjetnostno funkcijo za naključno spremenljivko X, ki predstavlja število ženskih

živali pri treh zaporednih rojstvih pri govedu. Predpostavimo, da je p znan in ima vrednost 0.49.
P(X = 0) = Bi(0|0.49, 3) = 0.1327 [2.19]
P(X = 1) = Bi(1|0.49, 3) = 0.3823 [2.20]
P(X = 2) = Bi(2|0.49, 3) = 0.3674 [2.21]
P(X = 3) = Bi(3|0.49, 3) = 0.1176 [2.22]
Binomsko porazdelitev imajo torej vse naključne spremenljivke, ki opisujejo dogodke s samo dvema mo-
žnostima, ki se ponovijo večkrat. Torej: posamezni dogodek ima Bernullijevo porazdelitev, opazujemo
pa več dogodkov hkrati.
29
30 Biometrija
PRIMERI:
1. Poiščite verjetnostno funkcijo za naključno spremenljivko X, ki predstavlja število uspešnih

osemenitev pri 500 pripustih. Predpostavimo, da je p znan in ima vrednost 0.80.

500
P(X = y) = Bi(y|0.80, 500) == 0.80y (1 − 0.80)1−y = g (y) [2.23]
y
2. Prelux-G piščance vzrejajo kot nesnice za kmečko rejo. V valilnici vložijo po 1000 jajc naen-
krat. Verjetnost, da se izvali piščanec, je 0.70. Kolikšna je verjetnost, da se izvali natanko 450
piščancev?
3. Med izvaljenimi piščanci je 0.50 ženskih živali. Kolikšna je verjetnost, da se bo iz 1000 vloženih
jajc izvalilo 500 ženskih živali? Izračunajte srednjo vrednost, varianco in standardni odklon!
4. Narišite gostoto verjetnosti za število preživelih (odstavljenih) pujskov! Verjetnost, da pujsek do

odstavitve pogine je 0.12. Za izhodišče vzemite tri možne velikosti gnezda ob prasitvi: 5, 10 in
15.
5. Narišite Bi (16, 0.2), Bi (16, 0.5), Bi (16, 0.7) in Bi (16, 0.90)!
6. V jati je patentno okuženih 15 % rac. Privzemimo, da so dogodki neodvisni. Naklju čna spremen-
ljivka X predstavlja število okuženih rac med 20 naklju čno izbranimi racami. Napišite gostoto
verjetnosti in jo upodobite na grafu!
2.6 Poissonova porazdelitev
Pri nekaterih poskusih štejemo frekvenco posameznih dogodkov v danem časovnem intervalu ali na
danem fizičnem objektu. Lahko štejemo število telefonskih klicev med 7. in 11. uro, število kupcev
kart na blagajni zadnjo uro pred predstavo. Lahko preštejemo število obolelih živali v čredi, število
živorojenih pujskov v gnezdu, število izmerjenih klavnih trupov na liniji klanja v eni uri, število žretij
med 7. in 9. uro zjutraj, število agresij med 7. uro zjutraj in zve čer.
Vzemimo, da štejemo dogodke (spremembe), ki se zgodijo na danem zveznem intervalu. Pri tem dobimo
približno Poissonov proces s parametrom λ > 0, če je izpolnjeno naslednje:
(i) Število sprememb, ki se zgodijo na neprekrivajočih se intervalih, je neodvisno.

(ii) Verjetnost natanko ene spremembe na zadosti kratkem intervalu dolžihe h je približno λh.
(iii) Verjetnost dveh ali več sprememb na zadosti kratkem intervalu je praktično nič.
Da bi našli zadostno majhen interval, celotni interval razdelimo na n podintervalov. Število podintervalov
naj bo zadostno večji od števila preštetih sprememb oziroma dogodkov. Verjetnost enega dogodka na tem
intervalu je približno λ/n. Verjetnost, da se je dogodek zgodil ali pa ne, je pravzaprav Bernullijev proces.
Z binomsko porazdelitvijo lahko predstavimo približek za
x
n! λ λ n−x
P (X = x) = 1−
x! (n − x)! n n
Če s približkom nismo zadovoljni, povečajmo n in poiščemo limito naslednjega izraza.

x
n! λ λ n−x
lim 1− , x = 0, 1, 2, ...
n→∞ x! (n − x)! n n
30
Biometrija 31
Brez dokaza bomo navedli gostoto verjetnosti za Poissonovo porazdelitev, pri čakovano vrednost in vari-
anco.
λ x e−λ
f (x) =
x!
µ = E (X) = λ
σ2 = var (X) = λ
Tako pri opazovanju živali naredimo raster, ki je dovolj kratek, da se ne moreta zgoditi dva dogodka
hkrati. Potem preštevamo število posameznih oblik obnašanja.
1. Naključna spremenljivka X ima Poissonovo porazdelitev z λ = 5. Navedite pri čakovano vrednost

in varianco. Narišite histogram gostote verjetnosti.
2. Narišite histograme za porazdelitveno funkcijo za Poissonove naslednje porazdelitve λ = 0.7,

λ = 1.3, λ = 6.5 in λ = 10.5.
3. Naključna spremenljivka X predstavlja frekvenco pitja. Opazovanja smo opravili na 100 živalih.
Preverimo, ali lahko privzamemo Poissonovo porazdelitev!
Izid (x) Pogostnost (f) fx fxx

1 1 1 1
2 4 8 16
3 13 39 117
4 19 76 304
5 16 80 400
6 15 90 540
7 9 63 441
8 12 96 768
9 7 63 567
10 2 20 200
11 1 11 121
12 1 12 144
Skupaj 100 559 3619
Povprečje v tem primeru je 5.59, varianca pa znaša 4.942. Vrednosti so dovolj blizu, zato bi smeli
distribucijo opisati s Poissonovo porazdelitvijo.
Poissonova porazdelitev ni pomembna samo zaradi nje same. Zelo uporabna je tudi kot približek za
binomsko porazdelitev, ko je n zadosti velik in p sorazmerno majhen.

λ x e−λ n
≈ p x (1 − p)1−x
x! x
λ = np
Približek je zadostno natančen, če je n ≥ 100 in p ≤ 0.05.
31
32 Biometrija
2.7 Enakomerna (uniformna) porazdelitev
Gostota verjetnosti
1
f (x) = , a≤x≤b [2.24]
b−a
Porazdelitvena funkcija

 0, x<a
x−a
F (x) = b−a , a≤x≤b [2.25]

1, b≤x
Srednja vrednost
a+b
µ= [2.26]
2
Varianca
(b − a)2
σ2 = [2.27]
12
2.8 Normalna porazdelitev
Normalna porazdelitev je morda najpomembnejša porazdelitev v statistiki. Tudi v živinoreji je veliko

lastnosti, ki jih proučujemo, vsaj približno normalno porazdeljenih. Pomembna pa je tudi vloga normalne
porazdelitve v izreku centralne limite (ang. Central Limit Theorem).
Naključna (slučajna) spremenljivka y ima normalno porazdelitev, če je gostota verjetnosti (p. d. f)
definirana z enačbo 2.28.

1 (y − µ)2
f (y) = √ exp − , −∞ < y < ∞ [2.28]
σ 2π 2σ2
Parametra µin σpredstavljata srednjo vrednost in standardni odklon. Srednja vrednost se nahaja na in-
tervalu od negativne neskončnosti do pozitivne neskončnosti 2.29, standardni odklon pa ima pozitivno
vrednost (2.30).
−∞ < µ < ∞ [2.29]
0<σ <∞ [2.30]
Na kratko predstavimo normalno porazdelitev naklju čne spremenljivke tudi v naslednji obliki (2.31).

yi ∼ N µ, σ2 [2.31]
Normalno porazdelitev prepoznamo po zvončasti obliki Gaussove porazdelitvene funkcije. Povsem za-
dostno jo opišemo z dvema parametroma: s srednjo vrednostjo µ, tudi pri čakovana vrednost) in z
varianco (σ2 ) oz. s standardnim odklonom (σ, standardna deviacija). Povpre čje predstavlja lokacijski
parameter, varianca pa opiše razpršenost. Vemo namre č, da bomo pri normalno porazdeljeni spremen-
ljivki na intervalu med µ − σ in µ + σ našli kar 68 % meritev, na intervalu med µ − 2σ in µ + 2σ kar
32
Biometrija 33
3s
m
Slika 2.3: Normalna porazdelitev
95 %, na intervalu med µ − 2.56σ in µ + 2.56σ pa kar 99 %. Izven intervala µ − 3σ in µ + 3σ pa skoraj

ni opazovanj, čeprav je Gaussova porazdelitvena funkcija navzdol in navzgor neomejena.
Posebno vlogo ima standardna normalna porazdelitev. Za naklju čno spremenljivko z rečemo, da ima
standardno normalno porazdelitev, če je srednja vrednost enaka 0 in standardni odklon 1 (2.32).
z ∼ N (0, 1) [2.32]
Verjetnostna funkcija
PRIMER: Napišite gostoto verjetnosti za naključno spremenljivko y, ki ima porazdelitev prikazano v
enačbi 2.33.
y ∼ N (−7, 16) [2.33]
Gostota verjetnosti je prikazana v enačbi 2.34. Srednjaa vrednost porazdelitve je −7, standardni odklon
pa znaša 4.

1 (y + 7)2
f (y) = √ exp − , −∞ < y < ∞ [2.34]
32π 32
Veliko gospodarsko pomembnih lastnosti je porazdeljeno normalno. To velja za maso pri dolo čeni sta-
rosti, starost pri določeni masi, dnevni prirasti in konverzija krme na izbranem intervalu rasti, debelina
hrbtne slanine, telesne mere, mase klavnih kosov, odstotek mesnatosti, klavnost, površina hrbtne mišice
in pripadajoče slanine, razmerje meso:slanina, itd...
V izjemnih primerih te lastnosti niso več normalno porazdeljene. Tako npr. po uspešni selekciji na me-
snatost lahko postane slanina nagnjena s strmino proti 0 mm in "tolstim repom" proti višjim vrednostim.
Srednja vrednost in standardni odklon ne opisujeta porazdelitve ve č zadovoljivo. Primerneje je poiskati
vrh oziroma modus porazdelitve, za razpršenost pa nimamo primernejšega parametra kot je standardni
odklon. Če želimo biti natančni, uporabimo pri teh porazdelitvah merilo za nagnjenost - skewness in
sploščenost - kutosis. Da pa bi bili razumljivi, porazdelitev raje narišemo.
2.9 Ostale porazdelitve
Nekatere lastnosti pa ne moremo uvrstiti v nobeno od omenjenih porazdelitev. Lahko so zelo nenava-
dnih oblik: nikakor pa jih ne moremo predstaviti z nekaj parametri, kot smo to storili v prej omenjenih
porazdelitvah. So pa v živinoreji vredne, da jih podrobneje spoznamo. Redkeje te lastnosti opisujejo
proizvodne lastnosti, večkrat pa so v povezavi z lastnostmi obnašanja, počutja, senzoričnimi lastnostmi
33
1
34 Biometrija
µ
Slika 2.4: Bimodalna porazdelitev
Tabela 2.2: Podatki o testiranju mladic na rast in zamaš čenost

Žival Pasma Mesec Masa (kg) Debelina slanine (mm) Dnevni prirast (g/dan)
1 SL JAN 102 13 13 540
2 SL JAN 98 16 14 550
3 SL FEB 105 16 16 550
4 SL FEB 102 15 12 580
5 LW JAN 95 20 17 520
6 LW FEB 101 24 24 500
7 LW FEB 101 27 25 490
8 NL JAN 97 26 27 560
9 NL JAN 100 22 19 550
10 NL FEB 97 23 25 600
11 NL FEB 102 24 22 610
proizvodov. Tudi subjektivne ocene, kjer niso dobro postavljene skale, se lahko sprevržejo v "neurejene"
porazdelitve. Take porazdelitve nikakor ne opisujemo s parametri, omenjenimi pri porazdelitvah znanih
oblik. Pri naslednji porazdelitvi se srednja vrednost nahaja na mestu, kjer meritev najmanj pri čakujemo,
med obema vrhovoma.
2.10 Enorazsežne in večrazsežna porazdelitev
Vzemimo, da imamo dve spremenljivki y 1 in y2 , ki so porazdeljene N (Xβ, R)

p y1 , y 2 | β 1 , β 2 , R
p −1
n1 +n2 1h 0 0 0 0 0 0
i y1 − X 1 β1
= (2π) |R| exp − y1 − β1 X1 y2 − β2 X2 R −1
| {z } 2 y2 − X 2 β2
| {z }
integraci jska konstanta jedro
2.11 Vaje
Datoteka s podatki o testiranju mladic na rast in mesnatost vsebuje 11 zapisov (2.2). Izmerjenih je bilo
11 mladic (živali), treh pasem v mesecih januar in februar. Mase pri merjenju so bile med 96 in 105 kg.
Slanino so merili z dvema ponovitvama, dnevni prirast pa je izra čunan iz podatkov o starosti in masi pri
merjenju.
Pri obdelavah bomo uporabljali tri različna porekla (2.3). V prvem poreklu (poreklo 0) bomo imeli pri-
mer, ko poreklo pri živalih ni znano. Običajno v takih primerih predpostavimo, da so predniki nesorodni
34
1
Biometrija 35
Tabela 2.3: Poreklo za mladice

Poreklo 0 Poreklo A Poreklo B
Žival Mati Oče Žival Mati Oče Žival Mati Oče
1 - - 1 12 - 1 12 -
2 - - 2 12 - 2 12 -
3 - - 3 - - 3 - -
4 - - 4 - - 4 - -
5 - - 5 13 14 5 13 14
6 - - 6 13 14 6 13 14
7 - - 7 - 14 7 - 14
8 - - 8 - - 8 - -
9 - - 9 - - 9 - -
10 - - 10 - - 10 - -
11 - - 11 - - 11 - -
12 - - 12 - -
13 - - 13 15 -
14 - - 14 15 -
15 - -
Tabela 2.4: Podatki o preizkusu mladic na rast in zamaš čenost z manjkajočimi podatki
Žival Rejec Mesec Masa (kg) Debelina slanine (mm) Dnevni prirast (g/dan)
1 1 JAN 102 13 13
2 1 JAN 98 16
3 1 FEB 105 16 16
4 1 FEB 102 15 580
5 2 JAN 95 20 17 520
6 2 FEB 101 24 500
7 2 FEB 101 27 25 490
8 3 JAN 97 26 560
9 3 JAN 100 22 19 550
10 3 FEB 97 23 600
11 3 FEB 102 24 22 610
in različni. Lahko bi imeli tudi drugačne primere. Morda vemo, da se v enem letu ali paritveni sezoni
uporablja na kmetiji samo en samec. Čeprav številke nimamo, se pač za to žival izmislimo novo oznako
in jo uporabljamo. V takem primeru bomo potem lahko dolo čili, da imajo vsi mladiči rojeni po teh
pripustih istega očeta, porekla očeta pa ne bomo več vedeli.
V drugem primeru (poreklo A) bomo imeli nekaj prednikov znanih, nekaj neznanih. Znane prednike
moramo dopisati na koncu seznama in jim poiščemo prednike. Postopke ponavljamo, dokler nimamo
več novih, dodanih staršev. V našem primeru smo dodali samo tri starše: dve materi in enega o četa.
Vsaka žival ima samo eno vrstico. V drugem poreklu so bila izvedena vsa parjenja tako, da sorodnih
živali nismo parili.
V tretje poreklo (poreklo B) smo dodali še eno žival, ki je skupen prednik (mati) svinji 13 in merjascu 14.
Parjenje med svinjo 13 in merjascem 14, ki sta sestra in brat, je parjenje sorodnikov. Potomci so inbri-
dirani. Takih parjenj v živinoreji praviloma ne izvajamo in so celo zakonsko prepovedana. Tule pa smo
jih uporabili samo zato, da bomo lahko prikazali vpliv pri obdelavi podatkov. Če bi imeli bolj oddaljene
skupne prednike, bi morali dodati preveč živali iz porekla. Mi pa želimo, da so primeri obvladljivi.
Izračunajte:
35
36 Biometrija
Masa Dnevni prirast Debelina slanine

Število meritev
Povprečje
Varianca
Standardni odklon
Modus
Mediana
Minimum
Maksimum
Ali lahko opišete porazdelitve za naslednje lastnosti:
• "učni uspeh pri etologiji (skala 1 do 10)" samo za opravljene izpite,
• "učni uspeh pri etologiji (skala 1 do 10)" za vse poskuse,
• "telesna višina (cm)",
• "prisotnost na vajah (%)",
• "izostanek na vajah (%)",
• "prisotnost na predavanjih (%)" pri študentih drugega letnika univerzitetnega študija zootehnike?
Ali lahko opišete porazdelitve za proizvodne lastnosti doma čih živali? Kjer lahko, pripišite srednjo
vrednost, standardni odklon, minimalno in maksimalno vrednost? Pri tem si pomagajte z viri informacij,
ki ste jih spoznali pri predmetu Informatika!
• dnevna količina mleka (kg),
• količina mleka v standardni laktaciji (kg),
• dnevni prirast pri rastočih živalih (g/dan)
• doba od pripusta do pregonitve (dni)
• velikost gnezda
• dolžina brejosti (dni)
• uspešnost pripustov (uspešni, neuspešni)
• delež uspešnih pripustov (%)
• valilnost jajc (%)
• dnevna poraba krme (kg/dan)
• konverzija krme
• količina proizvedenega medu po panju (kg)
Vajo ponovite pri različnih vrstah domačih živalih, kjer se to da! Dopolnjujte seznam lastnosti! Preverite
definicije lastnosti! Katera porazdelitvena funkcija je primerna? Katere parametre je najbolje navesti pri
opisovanju te lastnosti? Poiščite ocene parametrov, ki veljajo za slovenske populacije!
36
Biometrija 37
Poglavje 3
MATRIČNI ZAPIS MODELA IN OSNOVE MATRIČNE

OPERACIJE
3.1 Skalar
Skalar je matrika reda 1 x 1. Skalarji so označeni z malimi ali velikimi navadnimi (neodebeljene) črkami
kot npr. yi j (odvisna slučajna spremenljivka), ai jk (vpliv živali kot naključni vpliv), βi (eden od nivojev pri
sistematskemu vplivu), b (regresijski koeficient), x i jk (neodvisna spremenljivka), xi j (element v matriki
X) ali c (konstanta). V oklepaju je omenjena ena od možnosti, ki jih bomo sre čali pri biometriji. Oznaka
skalarja ni dovolj, da bi vedno prepoznali njegovo vlogo. Pomembno je, da so uporabljene oznake
obrazložene v vsakem primeru posebej, čeprav lahko pri običajnih, pogostih primerih o pomenu skoraj
zanesljivo sklepamo.
3.2 Vektor
Definicija: Vektor je polje števil ali simbolov urejenih samo v eno vrstico in en stolpec.
Vektorji so matrike, ki imajo eno samo vrstico (vrsti čni vektorji) oziroma en stolpec (stolpični vektor).
Pisali jih bomo z malimi odebeljenimi črkami npr. y, u, a, x ali β. Tako bomo označili stolpične vektorje.
Vrstični vektorji so pravzaprav transponirani stolpični vektorji (glej tudi 3.3.1) in jih bomo označili y0 ,
u0 , a0 , x0 ali β0 ali yT , uT , aT , xT ali βT . Tam, kjer ne moremo uporabiti odebeljenih črk, uporabljamo
lahko navadno pisavo, vektor pa podčrtamo z znakom ~, npr. y .
3.3 Matrika
Definicija: Matrika je polje števil ali simbolov urejenih v vrstice in stolpce.
Označevali jih bomo z velikimi, odebeljenimi črkami kot npr. X (matrika dogodkov za sistematske
vplive), Q (matrika kvadratne oblike), A (matrika sorodstva), V fenotipskih matrika varianc in kovarianc.
To je le nekaj matrik, ki bodo imele pri biometriji poseben pomen. Z oznakami A, B ali X pa lahko
enostavno mislimo samo na matrike brey posebnega pomena. Tako kot pri vektorjih je tudi pri matrikah
pomemben opis, kaj matrika predstavlja. Tam, kjer ne moremo uporabiti odebeljenih črk, uporabljamo
lahko navadno pisavo, oznako za matriko pa podčrtamo z znakom ~.
é2 3 5 1 ù
A = ê1 1 9 7 ú
ë û
vrstici
element matrike
stolpci
Slika 3.1: Matrika
38 Biometrija
Matrika A na sliki 3.1 ima dve vrstici in štiri stolpce. Vsebuje torej osem elementov. Matrika ima svoje
elemente razvrščene v stolpce in vrstice.
 
c11 c12 · · · c1c
 
 c21 c22 · · · c2c  b11 b12 b13 b14
C= .. .. . . .  B= [3.1]
 . . . ..  b21 b22 b23 b24
cr1 cr2 · · · crc
Matrika C ima r vrstic in c stolpcev (primer 3.1). Število vrstic in stolpcev dolo čata red matrike. Red
matrike C je r x c. Red matrike B je 2 x 4. Če želimo red matrike, ga navedemo v indeksu matrike (3.2).
A2x4 , Crxc , B2x4 [3.2]
Pri kvadratnih matrikah (glej 3.3.1) lahko navedemo samo eno vrednost. Matrika V (3.3) je matrika
fenotipskih varianc in kovarianc, zato je kvadratna. Ima 10 vrstic in 10 stolpcev.
V10 [3.3]
Posamezna
števila ali simboli so elementi matrike. Elemente matrike bomo poimenovali z malimi črkami
bi j . Indeksa i in j določata vrstico in stolpec, katerima element pripada. Prvi indeks ozna čuje vrstico,
drugi stolpec brez ozira na črko.
Pri matrikah določamo tudi rang matrike: število neodvisnih vrstic in stolpcev.
3.3.1 Posebne matrike
a) Kvadratne matrike (primer 3.4) imajo toliko vrstic kot stolpcev.
 
5 1 2
 3 8 4  [3.4]
0 2 7
b) Simetrične matrike (primer 3.5) so kvadratne matrike, za katere velja a i j = a ji .
 
5 1 2
 1 8 4  [3.5]
2 4 7
c) Diagonalne matrike (primer 3.6) so simetrične matrike, ki imajo od 0 različne elemente samo na
diagonali. Vsi nediagonalni elementi enake 0.
 
5 0 0
D= 0 8 0  [3.6]
0 0 7
Diagonalno matriko lahko zapišemo tudi v obliki iz ena čbe 3.7.
D = {dii } [3.7]
38
Biometrija 39
č) Identična matrika (primer 3.8) je diagonalna matrika, pri kateri so vsi diagonalni elementi enaki 1.
Označimo jo z I, praviloma moramo omeniti oziroma določiti tudi red matrike.
 
1 0 0
I= 0 1 0  [3.8]
0 0 1
d) Ničelna matrika ima vse elemente enake 0. Označimo jo z 0, praviloma moramo določiti tudi red
matrike.

0 0 0 0
0= [3.9]
0 0 0 0
e) Blok-diagonalna matrika je matrika, ki imajo vzdolž diagonale nanizane matrike. Poglejmo si ma-
triko R iz enačbe 3.10. Na diagonali imamo varianci za dve lastnosti, ki se izmeni čno izmenjujeta. Večina
nediagonalnih elementov je enaka 0, samo med dvema zaporednima vrsticama je nakazana kovarianca
za ostanek med obema lastnostima (σ e1 e2 ). V nadaljevanju bomo nekoliko poenostavili poimenovanje za
kovarianco (σe12 ). Obe oznaki jo zadostno opišeta.
 
σ2e1 σ e1 e2
 σ e1 e2
 σ2e2 


 σ2e1 σ e1 e2 

 σ2e2 
R= σ e1 e2 = [3.10]
 .. 
 . 
 
 σ2e1 σ e1 e2 
σ e1 e2 σ2e2
Zamenjajmo torej zaradi enostavnosti oznako in poudarimo diagonalne matrike. Mala diagonalna ma-
trika ima dve vrstici in dva stolpca. Je kvadratna in simetri čna. Vsebuje 3 komponente kovariance.
Matriko bomo poimenovali R0 . Vsebuje varianco za prv0 in drugo lastnost ter kovarianco, če sta meritvi
opravljeni na isti živali.
 
σ2e1 σe12

 σe12 σ2e2



 σ2e1 σe12 

 R↑0 → ←↓ R0 
= σe12 σ2e2  [3.11]
 .. 
 . 
 
 σ2e1 σe12 
σe12 σ2e2
Zaradi preglednosti lahko matriko 3.12 prepišemo tako, da namesto diagonalnih blokov navedemo kar
matriko R0 .
 
R0
 R0 
 
= ..  [3.12]
 . 
R0
39
40 Biometrija
f) Transponirana matrika A0 (3.13) ima za stolpce vrstice iz matrike A. Za oznako transponirano

uporabljamo tudi črko T v eksponentu (AT ).
 
T 2 1
2 3 5 1  3 1 
= 5 9 
 [3.13]
1 1 9 7
1 7
g) Idempotentna matrika M je kvadratna in za njo velja M 2 = M. Idepotentne matrike bomo ome-

njali pri kvadratnih oblikah, ki nam predstavlljajo vsote kvadratov.
h) Delne matrike (ang. submatrix). Matriko razcepimo na manjše matrike. Obi čajno to naredimo
glede na strukturo matrik. Kasneje bomo spoznali zanimive matrike, kamor urejujemo informacije iz
podatkov in porekla. Delitev matrik lahko nakažemo s pik častimi črtami.

A B
[3.14]
C D
Kot primer navajamo matriko koeficientov (3.15) iz ena čb mešanega modela. V zgornjem levem kotu so
zbrane informacije o sistematskem delu modela (X 0 X), v spodnjem desnem kotu bom našli naključni del
(Z0 Z + Iσ2e σ−2
a ), nediagonalna dela (X Z in Z X) pa povezujeta sistematski in naključni del. Pri našem
0 0
delu bomo razčlenitev opravili predvsem zaradi preglednosti, čeprav je bolj pomembna pri izpeljavi
posameznih enačb ali pri dokazih.
0
XX X0 Z
[3.15]
Z0 X Z0 Z + Iσ2e σ−2
a
i) Trikotna matrika je kvadratna in ima od nič različne nediagonalne elemente samo nad ali pod
diagonalo. Tako ločimo spodnjo trikotno matriko (ang. lower triangular matrix, 3.16) in zgornjo trikotno
matriko (ang. upper triangular matrix, 3.17).
 
2
 1 1  [3.16]
−1 2 3
 
2 1 −1
 1 2  [3.17]
3
j) Pozitivno definitne matrike so kvadratne, simetri čne in imajo dominantno diagonalo. S Cholesky
razčlevitvijo (ang. Cholesky decomposition) najdemo tako spodnjo trikotno matriko L, da je njen pro-
dukt s transponirano mariko L0 pozitivno definitna matrika A (ang. positive definit matrix). Diagonalni
elementi v matriki L so pozitivni in večji od nič.
A = LL0 [3.18]
    
4 2 −2 2 2 1 −1
 2 2 1 = 1 1  1 2  [3.19]
−2 1 14 −1 2 3 3
Vse matrike varianc in kovarianc morajo biti pozitivno definitne. Na diagonali so variance, na nediago-
nalnih elementih pa kovariance. Vzemimo, da je matrika A reda 1 x 1, torej je le skalar. V tem primeru
je edini element v matriki A varianca σ 2 , element v matriki L pa standardni odklon σ.
40
Biometrija 41
k) Semi-pozitivno definitne matrike so zelo podobne pozitivno definitnim matrikam, le v matriki L

je na diagonali dovoljena tudi vrednost 0.
    
4 2 −2 2 2 1 −1
 2 2 1 = 1 1  1 2  [3.20]
−2 1 5 −1 2 0 0
3.4 Seštevanje matrik in vektorjev
Definicija:
A pxq + B pxq = C pxq [3.21]
ci j = a i j + b i j [3.22]
Matrike, ki jih seštevamo, morajo imeti isto število vrstic in isto število stolpcev. Vsoto matrik dobimo
tako, da seštevamo istoležne elemente. Rezultat je istega reda kot matrike, ki jih seštevamo.
       
1 0 4 0 1+4 0+0 5 0
 −1 2  +  2 1  =  −1 + 2 2 + 1  =  1 3  [3.23]
3 4 −2 −1 3−2 4−1 1 3
Osnovna pravila
3.5 MNOŽENJE MATRIK
Definicija:
A pxq ∗ Bqxr = C pxr [3.24]
Matriki A in B iz enačbe pomnožimo tako, da pomnožimo i-to vrstico matrike A z j-ti stolpcem matrike
B ter produkte posameznih parov seštejemo. Tako dobimo vrednost elementa na prese čišču i-te vrstice
in j-tega stolpca matrike C.
q
X
cik = ai j ∗ b jk [3.25]
j=1
Prva matrika mora zato imeti toliko v stolpcev kot druga matrika vrstic
   
1 0 2 0 −1 2
 −1 2  ∗ 2 0 −1 2
=  −4 6 1 2  [3.26]
−1 3 0 2 2x4
3 4 3x2 2 12 −3 14 3x4
Osnovna pravila
3.6 OPIS MODELA V MATRIČNI OBLIKI
Modele v matrični obliki bomo srečali v literaturi, ki opisuje obdelavo podatkov pri selekciji živali in
uravnavanju reje. Kot bomo kasneje videli, so zeli splošni in povedo sami zase brez dobrega dodatnega
opisa zelo malo o strukturi podatkov. Lahko so dodatno opremljeni z modelom v skalarni obliki. Ker pa
41
42 Biometrija
so splošni, so zelo primerni za prikaz metod, uporabljenih za reševanje sistemov ena čb. Model v matrični
obliki si oglejmo najprej kar na primeru.
PRIMER: Vzemimo podatke iz tabele 2.2 in uporabimo naslednja modela v skalarni obliki in sicer za
dnevni prirast (3.27) in debelino hrbtne slanine (3.28):
yi jkl = µ + Pi + M j + Fk + ai jkl + ei jkl [3.27]

yi jklm = µ + Pi + M j + Fk + bi xi jkl − x̄ + ai jkl + ei jklm [3.28]
Model za dnevni prirast smo predstavili v enačbah3.29 in 3.30. Če bi obravnavali le eno lastnost, potem
je lahko enačba povsem brez indeksov. Ker pa sta si modela za dnevni prirast in debelino tako zelo
podobna, pa jih moramo ločiti z dodatnimi indeksi. Za indeks lahko uporabimo številko ali črko.
y1 = X1 β1 + Z1 u1 + e1 [3.29]
y D = X D βD + Z D u D + e D [3.30]
kjer pomeni:
y1 , y D - vektor opazovanj ali meritev (ang. observations) za dnevni prirast
X1 , X D - matrike dogodkov (ang. incidence matrix) za sistematske vplive (ang. fixed effects)
Z1 , Z D - matrika dogodkov za naključne vplive (ang. random effects)
β1 , βD - vektor parametrov za sistematske vplive (ang. vector of parameters)
u1 , u D - vektor naključnih vplivov
e1 , e D - vektor ostankov (residual).
Sedaj ne bo težko napisati model še za debelino hrbtne slanine. V ena čbi 3.31 smo za indeks uporabili
številko 2, ki bo opozoril, da gre za drugo lastnost. Da bi se spomnili, da delamo s slanino, pa smo v
enačbi 3.32 raje uporabili črko S.
y2 = X2 β2 + Z2 u2 + e2 [3.31]
yS = XS βS + ZS uS + eS [3.32]
kjer pomeni:
y2 , y S - vektor opazovanj ali meritev za debelino hrbtne slanine
X2 , X S - matrike dogodkov za sistematske vplive
Z2 , Z S - matrika dogodkov za naključne vplive
β2 , βS - vektor parametrov za sistematskih vplivov
u2 , u S - vektor naključnih vplivov
e2 , e S - vektor ostankov.
42
Biometrija 43
Do sedaj smo obdelali posebej dnevni prirast in nato še debelino hrbtne slanine. Uporabili smo eno-
lastnostno analizo. Kot vir informacij smo uporabili samo moreritve za lastnost in poreklo. Nismo pa
upoštevali, da sta lastnosti sicer povezani.
Z večlastnostnimi analizami se ne bomo preveč ukvarjali. Omenili jih bomo le toliko, da bomo vedeli,
da obstajajo in se predstavljali, kaj se pri njih dogaja. Proces pri reševanju sistemov ena čb je povsem
enak procesu, ko delamo z eno lastnostjo.
Oba modela lahko sestavimo na način prikazan v (3.33) in zapišemo poenostavljeno kar v obliki prika-
zani v (3.34). Slednja oblika je praktična za izpeljavo metode, ne pove pa dosti o poizkusu. Tudi, ko
se odločimo za matrično obliko zapisa modela, moramo navajati skalarno obliko ena čb. Pričakovane
vrednosti, strukturo varianc in kovarianc ter morebitne predpostavke pa prikažemo kar z matrikami.

y1 X1 β1 0 Z1 u1 0 e1
y= = + + [3.33]
y2 0 X 2 β2 0 Z 2 u2 e2
y = Xβ + Zu + e [3.34]
kjer pomeni:
y - vektor opazovanj ali meritev za obe lastnosti
X - matrike dogodkov (ang. incidence matrix) za sistematske vplive (ang. fixed effects)
Z - matrika dogodkov za naključne vplive (ang. random effects)
β - vektor parametrov za sistematskih vplivov
u - vektor naključnih vplivov (žival)
e - vektor ostankov (residual)
Seznanimo se najprej z vsebino matrik in vektorjev v modelih.
3.6.1 Vektorji opazovanj in vektorji parametrov
Vektor opazovanj je stolpični vektor, ki ima toliko vrstic, kot smo opravili meritev za opazovano lastnost.
Kot primer bomo obdelali podatke o preizkusu mladic v pogojih reje iz tabele 2.2. V našem primeru
smo za dnevni prirast opravili 11 meritev in jih uvrstili v vektor y 1 (ali yD ), pri debelini hrbtne slanine pa
22. Vrstni red navajanja podatkov je poljuben, vendar pa, ko ga enkrat izberemo, je sistem definiran in
ga ne smemo v naslednjih postopkih menjati. Vektorja y 2 in y∗2 (oziroma yS in y∗S ) za debelino hrbtne
slanine vsebujeta iste meritve razporejene različno. Kljub temu, da vektorja nista enaka, pričakujemo
43
44 Biometrija
iste rešitve. Razporeditev rešitev pa bo odvisna od vrstnega reda parametrov.

   
506 506
 550   12 
   
 532   13 
   
 577   550 
   
 512   15 
   
     499    14 
12 12   
 466   532 
 15   13     
     545   15 
 15   15     
       
 14   14   549   16 
       
 19   15   600   577 
       
   23   16   610   14 
       
506  26   14   12   12 
 550         
   25   12   15   512 
 532         
   21   19  
 15   
 19 

 577       14   17 
   22   17     
         
 512       19   499 
   23  ∗  23 
y1 =  499  y2 =   y2 =  
 y =  23  y = 
 ∗
 23 
 [3.35]
   13   24   26   
 466         24 
   14   26   25   
 545         466 
   16   24     
 549       21   26 
   12   25     
 600       22   24 
 17   27     
610      23   545 
 24   21     
     13   25 
 24   19     
     14   27 
 27   22     
     16   549 
 19   23     
     12   21 
 23   23     
 17   19 
15 15    
 24   600 
   
 24   22 
   
 27   23 
   
 19   610 
   
 23   23 
15 15
Zadnja dva vektorja y in y∗vključujeta vse meritve za obe lastnosti. Oba vektorja imata natanko 33
opazovanj, razlikujeta pa se le v vrstnem redu opazovanj.
Vektorji β1 , β2 , βD , βS in β vključujejo vse sistematske vplive. Ker sta modela za dnevni prirast in
debelino hrbtne slanine podobna, je seznam parametrov podoben, le pri slanini je dodana neodvisna
spremenljivka masa in odgovarjajoči regresijski koeficient bi kot parameter.
Vektor parametrov za sistematske vplive pri dnevnem prirastu lahko predstavljata bodisi ena čba 3.36
bodisi enačba 3.37.
h i
β01 = µ1 ... P11 P12 P13 ... M11 M12 ... F11 F12 F13 [3.36]
h i
β0D = µD ... PD1 PD2 PD3 ... MD1 MD2 ... F D1 F D2 F D3 [3.37]
Sedaj pa sestavimo še vektor parametrov za debelino hrbtne slanine. Tudi tu lahko izberemo varianto, ko
lastnost označimo s številko (enačba 3.38) ali črko (enačba 3.39). Praviloma se odločimo samo za eno
varianto in se je vseskozi tudi držimo.
h i
β02 = µ2 ... P21 P22 P23 ... M21 M22 ... F21 F22 F23 ... b21 b22 b23 [3.38]
44
Biometrija 45
h i
β0S = .. . .. . [3.39]
µS . PS 1 PS 2 PS 3 .. MS 1 MS 2 . FS 1 FS 2 FS 3 .. bS 1 bS 2 bS 3
Parametri niso isti pri različnih lastnostih, saj pričakujemo pri vsaki lastnosti drugačne rešitve (ocene
oz. napovedi). Ne glede na to, ali sta modela enaka ali razli čna, potrebujemo za vsako lastnost druge
parametre. Vzemimo za primer samo srednjo vrednost µ. Izra čunati moramo dve srednji vrednosti: eno
za srednjo vrednost za dnevni prirast µ D in eno za debelino hrbtne slanine µS . Skupen rezultat ne bi imel
nobenega pomena, sicer pa tako in tako ne moramo šestevati vrednosti za dnevni prirast (v g/dan) in
vrednosti za debelino hrbtne slanine (v mm).
Ponovitve pri debelini slanine smo opravljali le z namenom, da izboljšamo zanesljivost meritev, saj
meritev slanine z ultrazvokom ni dovolj zanesljiva. Ponovitve tako ne vplivajo na število parametrov, ki
jih želimo oceniti. Seveda pa to velja za ponovitve, ki jih lahko razglasimo kot paralelke.
Drugače je v primeru, ko so meritve na isti živali (ali drugi opazovani enoti) opravljene v razli čnih ča-
sovnih razmikih, včasih tudi v različnem okolju. Kot primer naj navedemo analizo vzorcev mleka pri
posameznih kontrolah, v različnih laktacijah, velikost gnezda pri posameznih kotitvah, tehtanja odra-
slih živali v različnih časovnih razmikih, lahko pa so to tudi rezultati kemi čnih analiz, ko proučujemo
zanesljivost metode. Tudi meritve debeline hrbtne slanine, merjene pri razli čnih masah, bi sodile v ta
sklop. Meritve niso paralelke in enakovredne. Pri takih meritvah nas zanima ponovljivost, zato v model
vključimo dodatni vpliv, ki ocenjuje skupno okolje, ki je meritvam na eni živali oz. kaki drugi opazovani
enoti skupen. Število nivojev pri takem vplivu je obi čajno veliko, za vsako žival vsaj eno. V primeru
meritev lastnosti mleka pa ločimo dve skupni okolji. Najprej je eno okolje, ki je skupno vsem meritvam
pri samici (kravi, ovci, kozi...), in ga imenujemo kar permanentno okolje, saj traja vse življenje. Drugi
del skupnega okolja pa je vezan na eno laktacijo: meritve znotraj laktacije so bolj primerljive, podobne,
kot meritve med laktacijami. Imenujemo ga kar skupno okolje (v laktaciji). Nivojev pri tem vplivu pa je
celo več: pri vsaki živali za vsako laktacijo eden. Torej jih je za eno žival toliko, kot ima žival laktacij.
Pri speciesih z več mladiči v gnezdu (drobnica, prašiči, kunci...) predstavlja skupno okolje za velikost
gnezda pri samici okolje, ki ga samica nudi vsem svojim potomcem. Lastnosti, ki bi podrobno opisovale
to okolje, praviloma ne moremo zmeriti. Predstavljajo pa tako imenovane materinske lastnosti, kot npr.
mlečnost pri samicah, obnašanje matere (agresivnost, nerodnost, požrtvovalnost....), pa tudi nekatere
železne navade rejca, ki povzročajo razlike med samicami. Trajne posledice za plodnost pa imajo le tisti
vplivi, ki so kreirali razvoj samice, torej okolje iz njene mladosti. Če so bili pogoji v mladosti optimalni,
bodo tudi proizvodni rezultati lahko optimalni. Na te, materinske lastnosti vpliva lahko tako genotip
(maternalni genetski vplivi) kot okolje (permanentno okolje).
V vektorjih naključnih vplivov u1 (3.40), u D (3.41), u2 (3.42), uS (3.43) in u(3.44) so nanizani naključni
vplivi, kot npr. aditivni genetski vpliv, pogosto imenovan kar preprosto “žival”. Tako smo posamene
elemente vektorjev označili kar s črkami a, ki nas spominjajo na aditivni genetski vpliv. Meritve smo
opravili na enajstih živalih, sorodstva pa pri njih nismo poznali.

u01 = a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111 [3.40]

u0D = aD1 aD2 aD3 aD4 aD5 aD6 aD7 aD8 aD9 aD10 aD11 [3.41]

u02 = a21 a22 a23 a24 a25 a26 a27 a28 a29 a210 a211 [3.42]

u0B = aB1 aB2 aB3 aB4 aB5 aB6 aB7 aB8 aB9 aB10 aB11 [3.43]

u0 = u01 u02 [3.44]
V primeru, da imamo še dodatne živali iz porekla, za katere bi tudi radi napovedali plemensko vrednost
(aditivni genetski vpliv), živali vstavimo v vektor. V našem primeru bomo 4 prednike živali v poskusu
dodali na konec vektorja. Prikazali bomo le vektor u 01 (3.45), ostali se prav tako ustrezno podaljšajo.

u01 = a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111 a112 a113 a114 a115 [3.45]
45
46 Biometrija
3.6.2 Matrike dogodkov
Z matrikami dogodkov poskus natanko opišemo.

Vse živali pripadajo celotnemu vzorcu in bodo pri oceni “enakopravno” sodelovale.
Za sistematske vplive
Matriko dogodkov za sistematske vplive X 1 za dnevni prirast nastavimo tako, da pred matriko nastavimo
vektor opazovanj y1 , da si s tem pomagamo pri nastavljanju vrstic. Nad stolpce pa si lahko napišemo
vektor parametrov β01 . Če parameter, ki označuje stolpec, prisostvuje pri meritvi, ki jo v dani vrstici
opisujemo, napišemo vrednost 1, v obratnem primeru pa 0.

 β1
0
 → µ1  P11 P12 P13 M11 M12 F11 F12  F13
506 1 1 0 0 1 0 1 0 0
 550   1 1 0 0 1 0 0 1 0 
   
 532   1 1 0 0 0 1 0 0 1 
   
 577   1 1 0 0 0 1 1 0 0 
   
   
 512   1 0 1 0 1 0 0 1 0 
y1 →     ← X1 [3.46]
 499   1 0 1 0 0 1 0 1 0 
   
 466   1 0 1 0 0 1 0 0 1 
   
 545   1 0 0 1 1 0 1 0 0 
   
 549   1 0 0 1 1 0 0 0 1 
   
 600   1 0 0 1 0 1 0 0 1 
610 1 0 0 1 0 1 0 1 0
Tudi pri debelini hrbtne slanine ravnamo enako. Le pri regresijskih koeficientih vpišemo vrednost neod-
visne spremenljivke x. Če model tako zahteva, jo korigiramo na konstantno vrednost ali povpre čje.

β02 → µ P21 P22 P23 M21 M22 F21 F22 F23 b21 b22 b23
  2 
12 1 1 0 0 1 0 1 0 0 2. 0 0
 15   1 1 0 0 1 0 0 1 0 −2. 0 0 
   
 15   1 1 0 0 0 1 0 0 1 5. 0 0 
   
 14   1 1 0 0 0 1 1 0 0 3. 0 0 
   
 19   1 0 1 0 1 0 0 1 0 0 −4. 0 
   
 23   1 0 1 0 0 1 0 1 0 0 1. 0 
   
 26   1 0 1 0 0 1 0 0 1 0 3. 0 
   
 25   1 0 0 1 1 0 1 0 0 0 0 −1. 
   
 21   1 0 0 1 1 0 0 0 1 0 0 0. 
   
 22   1 0 0 1 0 1 0 0 1 0 0 −3. 
   
   
 23   1 0 0 1 0 1 0 1 0 0 0 2.  [3.47]
y2 →     ← X2
 13   1 1 0 0 1 0 1 0 0 2. 0 0 
   
 14   1 1 0 0 1 0 0 1 0 −2. 0 0 
   
 16   1 1 0 0 0 1 0 0 1 5. 0 0 
   
 12   1 1 0 0 0 1 1 0 0 3. 0 0 
   

 17 


 1 0 1 0 1 0 0 1 0 0 −4. 0 

 24   1 0 1 0 0 1 0 1 0 0 1. 0 
   
 24   1 0 1 0 0 1 0 0 1 0 3. 0 
   
 27   1 0 0 1 1 0 1 0 0 0 0 −1. 
   
 19   1 0 0 1 1 0 0 0 1 0 0 0. 
   
 23   1 0 0 1 0 1 0 0 1 0 0 −3. 
15 1 0 0 1 0 1 0 1 0 0 0 2.
46
Biometrija 47

β0 → β01 β02
y1 X1 0 [3.48]
y→ ←X
y2 33x1
0 X2
Za naključne vplive

 u1 →  a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111
0

506 1 0 0 0 0 0 0 0 0 0 0
 550   0 1 0 0 0 0 0 0 0 0 0 
   
 532   0 0 1 0 0 0 0 0 0 0 0 
   
 577   0 0 0 1 0 0 0 0 0 0 0 
   
   
 512   0 0 0 0 1 0 0 0 0 0 0 
y1 →     ← Z1 [3.49]
 499   0 0 0 0 0 1 0 0 0 0 0 
   
 466   0 0 0 0 0 0 1 0 0 0 0 
   
 545   0 0 0 0 0 0 0 1 0 0 0 
   
 549   0 0 0 0 0 0 0 0 1 0 0 
   
 600   0 0 0 0 0 0 0 0 0 1 0 
610 0 0 0 0 0 0 0 0 0 0 1

u02 → a21 a22 a23 a24 a25 a26 a27 a28 a29 a210 a211
   
12 1 0 0 0 0 0 0 0 0 0 0

 15 

 0
 1 0 0 0 0 0 0 0 0 0 
 15   0 0 1 0 0 0 0 0 0 0 0 
   
 14   0 0 0 1 0 0 0 0 0 0 0 
   
 19   0 0 0 0 1 0 0 0 0 0 0 
   
 23   0 0 0 0 0 1 0 0 0 0 0 
   
 26   0 0 0 0 0 0 1 0 0 0 0 
   
 25   0 0 0 0 0 0 0 1 0 0 0 
   
 21   0 0 0 0 0 0 0 0 1 0 0 
   
 22   0 0 0 0 0 0 0 0 0 1 0 
   
   
y2 →  23   0 0 0 0 0 0 0 0 0 0 1  ← Z2 [3.50]
   
 13   1 0 0 0 0 0 0 0 0 0 0 
   
 14   0 1 0 0 0 0 0 0 0 0 0 
   
 16   0 0 1 0 0 0 0 0 0 0 0 
   
 12   0 0 0 1 0 0 0 0 0 0 0 
   

 17 

 0
 0 0 0 1 0 0 0 0 0 0 
 24   0 0 0 0 0 1 0 0 0 0 0 
   
 24   0 0 0 0 0 0 1 0 0 0 0 
   
 27   0 0 0 0 0 0 0 1 0 0 0 
   
 19   0 0 0 0 0 0 0 0 1 0 0 
   
 23   0 0 0 0 0 0 0 0 0 1 0 
15 0 0 0 0 0 0 0 0 0 0 1

u0 → u01 u02
y1 Z1 0 [3.51]
y→ ←Z
y2 33x1
0 Z2
47
48 Biometrija
3.6.3 Matrike varianc in kovarianc
Izpeljimo strukturo varianc in kovarianc za dnevni prirast y 1 (fenotipske variance in kovariance).

V1 = var (y1 ) = var X1 β1 + Z1 u1 + e1 =
= cov X1 β1 , β01 X01 + cov Z1 u1 , β01 X01 + cov e1 , β01 X01 + cov X1 β1 , u01 Z01 +
| {z } | {z } | {z } | {z }
0 0 0 0 [3.52]
+cov Z1 u1 , u01 Z01 +cov e1, u01 Z01 + cov X1 β1 , e01 + cov Z1 u1 , e01
| {z } | {z } | {z }
0 0 0
+cov e1 , e01 = Z1 var (u1 ) Z01 + var (e1 ) = Z1 G1 Z01 + R1
Matrika varianc in kovarianc za ostanek (R) je pogosto enostavna (3.53) na diagonali so variance za
ostanek, nediagonalni elementi, ki predstavljajo kovariance med dvema meritvama, pa so enake ni č.

 e1 →   e11 e12 e13 e14 e15 e16 e17 e18 e19 e110 e111 
0
e11 σ2e1 0 0 0 0 0 0 0 0 0 0
 e   0 σ2 0 0 0 0 0 0 0 0 0 
 12   e1 
 e   0 0 σ 2 0 0 0 0 0 0 0 0 
 13   e1 
 e   0 0 0 σ2e1 0 0 0 0 0 0 0 
 14   
   
 e15   0 0 0 0 σ2e1 0 0 0 0 0 0 
e1 →     ← R1 = Iσ2e1 [3.53]
 e16   0 0 0 0 0 σ2e1 0 0 0 0 0 
   
 e17   0 0 0 0 0 0 σ2e1 0 0 0 0 
   
 e18   0 0 0 0 0 0 0 σ2e1 0 0 0 
   
 e19   0 0 0 0 0 0 0 0 σ2e1 0 0 
   
 e110   0 0 0 0 0 0 0 0 0 σ2e1 0 
e111 0 0 0 0 0 0 0 0 0 0 σ2e1
V izjemnem primeru, ko merimo na isti živali samo eno meritev in živali med seboj niso sorodne, je tudi
matrika varianc in kovarianc za naključne vplive (G1 ) enostavna (3.54). Vedeti pa moramo, da je to prej
izjema kot pravilo!

 u1 →   a11 a12 a13 a14 a15 a16 a17 a18 a19 a110 a111 
0
a11 σ2a1 0 0 0 0 0 0 0 0 0 0
 a   0 σ2 0 0 0 0 0 0 0 0 0 
 12   a1 
 a   0 0 σ2a1 0 0 0 0 0 0 0 0 
 13   
 a   0 0 0 σ2a1 0 0 0 0 0 0 0 
 14   
   2 
 a   0 0 0 0 σ 0 0 0 0 0 0 
u1 →  15   a1
 ← G1 = Iσ2a1 [3.54]
 a16   0 0 0 0 0 σ2a1 0 0 0 0 0 
   
 a17   0 0 0 0 0 0 σ2a1 0 0 0 0 
   
 a18   0 0 0 0 0 0 0 σ2a1 0 0 0 
   
 a19   0 0 0 0 0 0 0 0 σ2a1 0 0 
   
 a110   0 0 0 0 0 0 0 0 0 σ2a1 0 
a111 0 0 0 0 0 0 0 0 0 0 σ2a1
V tem izjemnem primeru je tudi matrika fenotipskih varianc in kovarianc V diagonalna matrika, posa-
mezni diagonalni elementi pa so vsota okoliške (σ 2e1 ) in genetske (σ2a1 ) komponente variance.

V1 = Z1 G1 Z01 + R1 = I σ2a1 + σ2e1 = diag σ2a1 + σ2e1 [3.55]
Za debelino hrbtne slanine imamo dvakrat toliko opazovanj: na vsaki živali po dve. Ker smo merili
z istim aparatom, delo je opravljal isti delavec..., so meritve identi čno porazdeljene (imamo samo eno
48
Biometrija 49
varianco za ostanek). Vendar pa meritvi na isti živali praviloma nista neodvisni - žival smo pitali pod
istimi pogoji, zato je tudi okolje v enaki meri ponagajalo. Če se je žival zaradi tega bolj zredila, kot bi se
pod strogimi pogoji testa, bomo namerili tudi debelejšo slanino pri obeh ponovitvah. Med ponovitvama
na isti živali torej obstaja podobnost - kovarianca. Oblika matrike varianc in kovarianc za ostanek je
odvisna od razporedive meritev v vekorju y. Če razvrstimo meritve tako, da najprej nanizamo prve
meritve na vseh živalih in nato dodamo še druge meritve (prvi vektor za debelino hrbtne slanine v ena čbah
(3.31), dobimo matriko iz enačbe (3.42). Ko pa razvrstimo ponovitvi po parih - znotraj živali (drugi
vektor za debelino hrbtne slanine v enačbah (3.31)), pa dobimo matriko iz enačbe (3.43) in (3.44).

Iσ2e2 Iσe22 σ2e2 σe22
R2 = = ⊗ I11 = R0 ⊗ I11 [3.56]
Iσe22 Iσ2e2 22x22
σe22 σ2e2 2x2
49
h i
..
50
e02 →
e21 1 e22 1 e23 1 · · · e29 1 e2101 e2111 . e21 2 e22 2 e23 2 · · · e29 2 e2102 e2112
2 ..
 σ e2 . σe22 
 .. 
 

 σ2e2 . σe22 

e21 1  .. 
 σ2e2 . σe22 
 e22 1   
   .. .. .. 

 e23 1 



. . . 

 ..   .. 
 .   σ2e2 . σe22 
   .. 
 e29 1   
   σ2e2 . σe22 
 e2101   .. 
   
   σ2e2 . σe22 
e2 →  e2111   ..  ← R2 [3.57]
 ···   ··· ··· ··· ··· ··· ··· ··· . ··· ··· ··· ··· ··· ··· ··· 
   
 e21 2   .. 
   σ . σ2e2 
 e22 2   e22 
   .. 
 e   σe22 . σ2e2 
 23 2   
 ..   .. 
 .   σe22 . σ2e2 
   
50
 e   .. .. .. 
 29 2   . . . 
 e   
2102  .. 
e2112 
 σe22 . σ2e2 

 .. 

 σe22 . σ2e2 

.. 2
σe22 . σ e2
Biometrija
h i
.. . .. . .. .. ..
Biometrija
e02 → e211 e212 . e22 1 e22 2 .. e23 1 .e23 2 .. · · · · · · . e29 1 e29 2 . e2101 e2102 . e2111 e2112
 .. .. .. .. .. .. 
σ2e1 σe22 . . . . . .
 .. .. .. .. .. .. 
 
 σe22 σ2e1 . . . . . . 
 .. . .. . .. .. 
 
   ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 
e211  .. . .. .. .. .. 
 

 e212 
  . σ2e1 σe22 .. . . . . 
   .. . .. .. .. .. 
 ······   . σe22 σ2e1 .. . . . . 
   
 e22 1   .. . .. . .. .. 
   ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 
 e22 2  



   .. .. . .. .. .. 
 ······   . . σ2e1 σe22 .. . . . 
 e23 1   .. .. .. .. .. .. 
   2 
   . . σe22 σ e1 . . . . 
 e23 2   
  .. . .. . .. ..
 ······  
 ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 

 ..   .. .. .. . . .. .. .. 
   .  [3.58]
 .   . . . . . .  ← R2
e2 →  ..   .. .. .. . . .. .. .. 
 .   . . . . . . . 
 
51
   
 ······   .. . .. . .. .. 
  
 ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . ··· ··· . ··· ··· 

 e29 1   .. .. .. .. . .. 
   σ2e1 σe22 .. 
 e29 2  
. . . . .

   .. .. .. .. . .. 
 ······   . . . . σe22 σ2e1 .. . 
   
 e2101   .. . .. . . .. 
   ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. · · · · · · .. ··· ··· . ··· ··· 

 e2102 
  
 .. .. .. .. .. . 

 ······ 
  . . . . . σ2e1 σe22 .. 
   
e2111  .. .. .. .. .. . 
 . . . . . σe22 σ2e1 .. 
e2112  .. . .. . .. . 
 ··· ··· . · · · · · · .. · · · · · · . · · · · · · .. ··· ··· . · · · · · · .. ··· ··· 
 
 .. .. .. .. .. .. 
 . . . . . . σ2e1 σe22 
 
.. .. .. .. .. ..
. . . . . . σe22 σ2e1
51
52 Biometrija

σ2e2 σe22
R2 = I11 ⊗ = I11 ⊗ R0 [3.59]
σe22 σ2e2 2x2
Ker so živali nesorodne, za debelino hrbtne slanine pa želimo samo eno plemensko vrednost, je matrika
varianc in kovarianc za direktni aditivni vpliv enostavna, kot jo prikazujemo v (3.60).
G2 = I11 σ2a2 [3.60]
Sedaj pa izračunajmo še matriko fenotipskih varianc in kovarianc V 2 . Vzemimo primer, ko so nanizane

najprej prve meritve in nato še ponovitve. Rezultat (3.61) je izjemoma, zaradi že omenjenih predpostavk,
blokdiagonalna matrika.

I11 I11 I11
V2 = Z2 G2 Z02 + R2 = I11 σ2a2 I11 I11 + R0 ⊗ I11 = σ2a2 + R0 ⊗ I11 =
2 I11
2 I 11 I 11 [3.61]
σ a2 σ2a2 σ2e2 σe22 σa2 + σ2e2 σ2a2 + σe22
= ⊗ I11 + ⊗ I11 = ⊗ I11 = V0 ⊗ I11
σ2a2 σ2a2 σe22 σ2e2 σ2a2 + σe22 σ2a2 + σ2e2
Sedaj pa za vajo ponovimo še izračun kovariance med meritvami za dnevni prirast y 1 in ostanki e1 ter
med meritvami y1 in slučajnim vplivom u1 .

cov y1 , e01 = cov X1 β1 + Z1 u1 + e1 , e01 = Z1 cov u1 , e01 + var (e1 ) = R1 [3.62]

cov y1 , u01 = cov X1 β1 + Z1 u1 + e1 , u01 = cov X1 β1 , u01 + cov Z1 u1 , u01 + cov e1 , u01
[3.63]
= Z1 cov u1 , u01 = Z1 var (u1 ) = Z1 G1 = C1
Pričakovane vrednosti ter variance in kovariance za slu čajne vplive so pogosto predstavljene v združeni
obliki. V nasednjih enačbah smo prikazali model (3.34) z obema lastnostima.
   
u1 0
E  e1  =  0  [3.64]
y1 X1 β1
  
u1 G1 0 G1
var  e1  =  0 R1 R1  [3.65]
y1 G1 Z01 R1 Z1 G1 Z1 + R 1
0
Vajo ponovite še za debelino hrbtne slanine in za model z obema lastnostima skupaj! Potrebovali bomo še
rezultate iz naslednje razpredelnice. Pripišite rezultate, da jih ne bomo kasneje iskali! Nato pa sestavite
enačbo za pričakovane vrednosti po zgledu (3.62) in prikažite strukturo varianc in kovarianc po zgledu
(3.63).

cov y2 , e02 =
cov y2 , u02 =
cov (y, e0 )=
cov (y, u0 )=

cov y, e02 =
cov y1 , u02 =
cov y2 , e01 =
cov y2 , u01 =
cov y1 , y02 =
cov y2 , y01 =
52
Biometrija 53
Pri dvolastnostnem modelu splošno obliko enačb še razčlenite, da bodo vidne povezave med lastnostima.
Izpopolnite naslednji dve enačbi!
 
u1  
 u2  ···············
   
 e1   · · · · · · · · · · · · · · · 
E   
 e2  =  · · · · · · · · · · · · · · · 
   ··············· 
 y1 
···············
y2
 
.. .. .. .. ..
 . . . . . 
 . . . . . 
 · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · 
 
 .. .. .. .. .. 
 . . . . . 
 .. .. .. .. .. 
   
u1  ······ . ······ . ······ . ······ . ······ . ······ 
 
 u2   .. .. .. .. .. 
   . . . . . 
 e1   .. .. .. .. .. 
var  =
 e2   · · · · · · . · · · · · · . · · · · · · . · · · · · · . · · · · · · . · · · · · · 

   .. .. .. .. .. 
 y1   . . . . . 
 
y2  . . . . . 
 · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · 
 
 . . . . . 
 .. .. .. .. .. 
 
 . . . . . 
 · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · .. · · · · · · 
 
.. .. .. .. ..
. . . . .
3.7 Determinanta
3.8 Inverzna matrika
3.9 Splošna inverza
Vzemimo, da imamo sistem enačb Ax = r. Rešitev za vektor neznanih parametrov x dobimo tako, da od
spredaj množimo z A−1 , kar lahko storimo ob pogoju, da ima matrika A poln rang. Vendar pa obstajajo
številni primeri, ko to ne drži: rang matrike A je manjši od reda matrike, determinanta matrike je enaka
nič. Sistem enačb v tem primeru nima ene same rešitve. Če ima rešitev, jih ima neskončno mnogo. Eno,
izbrano rešitev pa lahko dobimo tako, da uporabimo splošno inverzo. Ozna čili jo bomo z A− . Izbrali pa
bomo tisto, pri kateri velja: AA− A = A. Praviloma pa niti AA− niti A− A nista enaka identični matriki I.
Matrika A ima neskončno mnogo splošnih inverz, če ima vsaj eno. Pri vsaki možni rešitvi sistema
uporabimo drugo splošno inverzo. Poglejmo pa si enostaven postopek, da najdemo prvo splošno inverzo.
    
3 −2 1 x1 2
 −2 0 1   x2  =  1  [3.66]
1 −2 2 x3 3
• v matriki A poiščite vse odvisne vrstice, jih napolnite z ničlami. Z ničlami napolnimo tudi stolpec.
Pri simetričnih matrikah izberemo isto vrstico in isti stolpec.
         
3 −2 0 3 0 1 0 0 0 0 −2 1 3 0 1
 −2 0 0  ali  0 0 0  ali  0 0 1  ali  0 0 1  ali  −2 0 1  . . .[3.67]
0 0 0 1 0 2 0 −2 2 0 0 0 0 0 0
• ostane vam samo toliko neodvisnih vrstic in stolpcev, kot je rang sistema
53
54 Biometrija
• iz neodvisnih vrstic in stolpcev nastavite podmatriko in poiš čite njeno inverzo

3 −2 3 1 0 1 −2 1 3 1
... [3.68]
−2 3 1 3 −2 −2 0 1 −2 1

1 0 2 1 2 −1 1 −2 −1 1 1 −1 1 1 −1
− − ... [3.69]
4 2 3 5 −1 3 2 2 0 2 0 −2 5 2 3
• inverzi dodajte izpuščene vrstice in stolpce, ki so polni samih ničel

         
0 2 0 2 0 −1 0 0 0 0 1 −1 1 0 −1
1 1 1 1 1
−  2 3 0  0 0 0  0 2 −1  0 0 −2  2 0 3  . . .[3.70]
4 5 2 2 5
0 0 0 −1 0 3 0 2 3 0 0 0 0 0 0
Tako pripravljene inverze lahko uporabimo pri reševanju sistema ena čb. Rešitev lahko dobimo neskončno
mnogo, objavili pa bomo le tisto, kar je enako pri vseh rešitvah - ocenljive funkcije.
3.10Direktna vsota

A 0
A⊕B = [3.71]
0 B
Možni so različni zapisi.

 
Xi 0 · · · 0
k  0 Xi · · · 0 
 
Σ⊕i Xi = Σ+i Xi = ⊕ Xi = Xi ⊕ Xi ⊕ · · · ⊕ Xi =  .. .. . . .  [3.72]
i
 . . . .. 
0 0 · · · Xi
Za vključene matrike sploh ni potrebno, da bi bile istega ranga.


x0 0 0
x0 ⊕ X ⊕ z =  0 X 0  [3.73]
0 0 z
Za matrike odgovarjajočega ranga drži

A 0 C 0 A+C 0
(A ⊕ B) + (C ⊕ D) = + = = A+C⊕B+D [3.74]
0 B 0 D 0 B+D
Če je Ai polnega ranga, velja naslednje:

 −1  
Ai 0 · · · 0 A−1
i 0 ··· 0
⊕ −1 
 0 Ai · · · 0 


 0 A−1
i ··· 0 

Σi Ai = .. .. . . .  = .. .. .. ..  = Σ⊕i A−1
i [3.75]
 . . . ..   . . . . 
0 0 · · · Ai 0 0 · · · A−1
i
Za determinanto pa velja:
k
⊕ Y
Σ Ai = |Ai | [3.76]
i
i=1
54
Biometrija 55
3.11 Kronecker produkt
Vzemimo primer, kjer imamo dve lastnosti (y in z) za vsako od dveh živali. Če lahko zapise opišemo z
linearnim modelom, imamo
    
  
y1 µy uy1 ey1
 z2   µz   uz1   ez1 
   +    [3.77]
 y3  =  µy   uy2  +  ey2 
z4 µz uz2 ez2
   
uy1 σ2a1 σa12 a12 σ2a1 a12 σa12
 uz1   σa12 2
σa2 a12 σa12 a12 σ2a2 
var  =
 uy2   a12 σ2
 [3.78]
a1 a12 σa12 σ2a1 σa12 
uz2 2
a12 σa12 a12 σa2 σa12 σ2a2
 2 
σ2a1 σa12 σa1 σa12
 1 a
σa12 σ2a2 12 σa12 σ2a2  1G0 a12 G0

=  = A ⊗ G0 [3.79]
σ2a1 σa12 σ2a1 σa12  = a12 G0 1G0
a12 1
σa12 σ2a2 σa12 σ2a2
Matrika A predstavlja matriko sorodstva. Element a 12 je koeficient sorodstva med obema živalima. Ma-
trika G0 vsebuje genetske variance in kovariance med lastnostima, merjenima na isti živali.
Poglejmo sedaj še varianco za ostanek (3.80)! Lastnosti merjene na isti živali so med se
   2 
ey1 σe1 σe12 0 0
 ez1   σe12 σ2 0 0 
var   
 ey2  =  0
e2  [3.80]
0 σ2e1 σe12 
ez2 0 0 σe12 σ2e2
 
σ2e1 σe12 σ2e1 σe12
 1 σe12 σ2 0
σe12 σ2e2  1R 0 0R 0
= 2 e2 = = I ⊗ R0 = R [3.81]
 σe1 σe12 σ2e1 σe12  0R0 1R0
0 1
σe12 σ2e2 σe12 σ2e2
Navedimo še nekaj lastnosti Kronecker produkta. Vzemimo matriki A pxq in Bmxn .
A ⊗ B = C pm×qn [3.82]
(A ⊗ B)0 = A0 ⊗ B0 [3.83]
x0 ⊗ y = yx0 = x0 ⊗ x0 [3.84]
k ⊗ A = kA = A ⊗ k [3.85]

A1 A2 ⊗B= A1 ⊗ B A 2 ⊗ B [3.86]

A⊗ B1 B2 , A ⊗ B1 A ⊗ B2 [3.87]
Če obstajajo produkti, velja:
(A ⊗ B) (X ⊗ Y) = AX ⊗ BY [3.88]
55
56 Biometrija
(A ⊗ B)−1 = A−1 ⊗ B−1 [3.89]
rang (A ⊗ B) = rang (A) • rang (B) [3.90]
tr (A ⊗ B) = tr (A) • tr (B) [3.91]
|Mm×m ⊗ Nn×n | = |M|m |N|n [3.92]
Lastna_vrednost (A ⊗ B) = Lastna_vrednost (A) • Lastna_vrednost (B) [3.93]
(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C) [3.94]
kA ⊗ B = A ⊗ kB = k (A ⊗ B) [3.95]
(A + B) ⊗ C = (A ⊗ C) + (B ⊗ C) [3.96]
3.12 Odvajanje matrik
Pri odvajanju uporabimo splošni model (3.97), poljubno vrstico i pa bomo prikazovali na dva na čina, kot
(3.98) ali (3.99).
y = Xβ + Zu + e [3.97]
y1 = x0i β + z0i u + e0i [3.98]
p
X q
X
yi = xi j β j + zi j u j + e i [3.99]
j=1 j=1
3.12.1 Odvod matrike po skalarju
Vzemimo matriko Y reda m × n, katere elementi so funkcije skalarja z. Potem je:
red (Y) = m × n
∂Y ∂yi j
= =A red (z) = 1 × 1 [3.100]
∂z ∂z
red (A) = m × n
3.12.2 Odvod skalarja po matriki
Naj bo skalar h (X) funkcija matrike X.

 

 ∂h (X) ∂h (X) 


 ··· 

 ∂x11 ∂x1n 
∂h (X)  . ..

= .
. . =A [3.101]
∂X 
 


 ∂h (X) ∂h (X) 


 ··· 

∂xm1 ∂xmn
red (X) = m × n
red (h (X)) = 1 × 1 [3.102]
red (A) = m × n
56
Biometrija 57
3.12.3 Odvod vektorja po vektorju

. . . i
∂y h ∂y ∂y ∂y
= · · · = [3.103]
∂z0 ∂z1 ∂z2 ∂zn
 . . . 
∂y1 ∂y1 ··· ∂y 1
 .∂z1 .∂z2 .∂zn 

 ∂y2 ∂y2 ∂y 2 
 ··· 
=  ..
∂z1
..
∂z2
..
∂zn 
 [3.104]
 .. 
 .. .. . .
. 
∂yk ∂yk ··· ∂yk
∂z1 ∂z2 ∂zn k×n
red (z0 ) = 1 × n
red (y) = k × 1 [3.105]
red (A) = k × n
Vzemimo sedaj model (3.97) in odvajajmo y najprej na β 0 in nato še na β.

. . .
∂y ∂y ∂y ∂y
= ··· = [3.106]
∂β0 ∂β1 ∂β2 ∂β p
 . . . 
∂y1 ∂y1 · · · ∂y1  
 .∂β p  x11 x12 · · · x1p
 ∂y . .∂β2
∂β1

 2 ∂y2 · · · ∂y2   x21 x22 · · · x2p 
 ∂β p  =  

.
∂β1
.
∂β2
.
  .. .. . . ..  = X [3.107]
 .. .. .. .   . . . . 
 . . . .. 
  xn1 xn2 · · · xnp
∂yn ∂yn · · · ∂yn
∂β1 ∂β2 ∂β p
red (y) = n × 1
red β0 = 1 × p [3.108]
red (X) = n × p
Poglejmo si tipični element matrike odvodov (3.109) in nato še primer za prvo opazovanje in drugi
parameter v modelu (3.110).
P Pq
p
∂yi ∂ j=1 x i j β j + j=1 z i j u j + e i
= = xik [3.109]
∂βk ∂βk
P Pq
p
∂yi ∂ x
j=1 1 j j β + z
j=1 1 j j u + e 1
= = x12 [3.110]
∂β2 ∂β2
 .   . . . 
∂y ∂y1 ∂y2 · · · ∂yn  
 .∂β1   .∂β1  x11 x12 · · · x1n
  ∂y1 . 1 ∂y2 . 1
∂β ∂β
 ∂y 
∂y     · · · ∂yn   x21 x22 · · · x2n 
∂β2  =  ∂β2  =  
= .   .
∂β2
.
∂β2
.   .. .. .. .  = X0 [3.111]
∂β 
 ...
 
  .. .. ..
. ..   .
 . . .. 
 ∂y   ∂y . ∂y2
. .  x p1 x p2 · · · x pn
1 · · · ∂yn
∂β p ∂β p ∂β p ∂β p
red (y) = n × 1
red (β) = p × 1 [3.112]
red (X0 ) = n × p
∂Zu
= Z0 [3.113]
∂u
57
58 Biometrija
3.12.4 Odvajanje produkta matrik
V skalarni algebri velja

∂uv ∂u ∂v
= v+u [3.114]
∂x ∂x ∂x
V skalarni algebri velja isto pravilo najdemo tudi v matri čni algebri (3.115). Matrika U je reda m × n ter
matrika V reda n × q. Elementi matrik so funkcije skalarne spremenljivke x.

∂UV ∂U ∂V
= V+U [3.115]
∂x ∂x ∂x
PRIMER:
V sistemu normalnih enačb pri metodi najmanjših kvadratov (3.116) dobimo vsoto kvadratov za model
z izrazom (3.117).
b = X0 y
X0 Xβ [3.116]
0
b b
β X0 Xβ [3.117]
Odvajajmo vsoto kvadratov za model na eno izmed ocen (npr. β i ):
b0 X0 Xβ
∂β b ∂βb0 X0 0 ∂Xβ b
= b+b
Xβ β X0 [3.118]
∂β̂i ∂β̂i ∂β̂i
Poskusimo sedaj rešiti samo košček problema:
 
x1i
∂Xβ b  
 x2i  red (ti ) = n
=  .  = ti [3.119]
∂β̂i .
 .  i = 1, 2, . . . , p
x4i
Sedaj bo pa že šlo:
∂β0 XXβ
=
∂βi
t0i Xβ b0 X0 ti = 2t0 Xβ
b +β b
| {z } i
= | {z } [3.120]
skalar skalar
Še malo posplošimo:
   
2t 0 Xβb t01
0
b X0 Xβ
b  1
∂β ..   ..  Xβ
.  b = 2X Xβ
0 b
= .  = 2 [3.121]
b
∂β
2t0p Xβb t0p
58
Biometrija 59
PRIMER:
Skupno vsota kvadratov (total sum of square, TSS) za opazovanja lahko odvajamo na dva na čina. TSS
je skalar, vektor opazovanj y pa stolpični vektor reda n × 1, zato bo rezultat tudi stolpični vektor istega
reda. Ker vemo, da je TSS vsota kvadratov za opazovanja, lahko uberemo naslednjo pot.
 P . 
∂ y21
 
 P .∂y1  2y1
 ∂ y2 
∂y0 y  
2   2y2 
∂y2   
=
.  =  ..  = 2y [3.122]
∂y  ..   . 
 
 P 2.  2yn
∂ yn
∂yn
Po postopku za odvajanje produkta matrik po sklarju, moramo odvod najprej razbiti tako, da dobimo v
imenovalcu skalarje (3.123). Nato vsako vrstico odvajamo, kot to prikazuje (3.124). Pri tem si poma-
gamo še z enačbo (3.125). Dobljene vrednosti za posamezne vrstice vstavljamo nazaj v ena čbo (3.123).
Rezultat je podoben kot pri skalarni algebri.
 ∂y0 y   
∂y1 2y1
 ∂y0 y   
 ∂y2    2y2
 ..    ..
∂y0 y 
 .
 
   .
 = 2y
= ∂y0 y = [3.123]
∂y    2yi 
 ∂yi   . 
 ..   . 
 .  . 
∂y0 y 2yn
∂yn
∂y0 y ∂y0 ∂y
= y + y0 = t0i y + y0 ti = yi + yi = 2yi [3.124]
∂yi ∂yi ∂yi
∂y0
= 0 0 · · · 1i · · · 0 = t0i [3.125]
∂yi
3.12.5 Odvajanje inverze
Vzemimo matriko M s polnim rangom in inverzno matriko M −1 . Hitro lahko ugotovimo, da velja (3.126),
saj identična matrika ni funkcija skalarne spremenljivke z.
∂MM−1 ∂I
= =0 [3.126]
∂z ∂z
Če bi zadevo poskusili rešiti na način, ki smo ga obdelali v prejšnjem poglavju (3.127), nam ostane
neznanka prav odvod inverzne matrike M −1 po skalarni spremenljivki z. Rezultat pa itak že poznamo.
∂MM−1 ∂M −1 ∂M−1
= M +M =0 [3.127]
∂z ∂z ∂z
Sedaj pa nam ostane samo, da uganemo neznani odvod. Pravzaprav bomo (3.128) samo preoblikovali:
poznani prvi člen bomo prenesli na drugo stran enačbe (pridobimo negativen predznak) in obe strani od
spredaj množili z inverzno matriko M −1 .
∂M−1 ∂M −1
= −M−1 M [3.128]
∂z ∂z
59
60 Biometrija
3.12.6 Odvajanje splošne inverze
Splošna inverza je vsaka matrika G, ki zadovolji:
AGA = A [3.129]
Matrika A je lahko katerakoli matrika, lahko je torej tudi vrsti čni ali stolpični vektor. Naj bosta matriki
A in G funkciji skalarja x. Sedaj pa poiščimo odvod matrike A po x-u.
∂A ∂AGA ∂A ∂GA ∂A ∂G ∂A
=− = GA + A = GA + A A + AG [3.130]
∂x ∂x ∂x ∂x ∂x ∂x ∂x
Poskusimo sedaj množiti od spredaj z AG in od zadaj z GA.
∂A ∂A ∂G ∂A
AG GA − AG GA = A A + AG GA [3.131]
∂x ∂x ∂x ∂x
∂G ∂A
0=A A + AG GA [3.132]
∂x ∂x
∂G ∂A
A A = −AG GA [3.133]
∂x ∂x
Rezultat je podoben kot (3.128), če je G = A−1 .
3.12.7 Odvajanje funkcije determinante
Za matriko A s polnim rangom velja (Searle,1982)
∂ |A| −1
= |A| A0 [3.134]
∂A
∂ln |A| 1 ∂ |A| |A| (A0 )−1 −1

= • = = A0 [3.135]
∂A |A| ∂A |A|
∂ln |V|
= tr ∂ln|V|
∂x = tr ∂ln|V|
∂V •
∂V
∂x = tr V−1 ∂V
∂x
| ∂x
{z } [3.136]
skalar
3.12.8 Chain-ovo pravilo
3.13 Sled matrike
Definicija: Sled matrike (ang. trace) je vsota diagonalnih elementov matrike.
X
A = ai j ⇒ tr (A) = ai j [3.137]
Zakon ciklične komutativnosti

tr A pxn Bnxm Cmxp = tr Cmxp A pxn Bnxm = tr Bnxm Cmxp A pxn [3.138]
60
Biometrija 61
Sled skalarja je skalar.

tr σ2e = σ2e [3.139]
Sled vsote matrik
tr (A + B) = tr (A) + tr (B) [3.140]
Sled produkta matrike s skalarjem

tr (R) = tr I4 σ2e = σ2e tr (I4 ) = 4σ2e [3.141]
Matematično upanje in sled matrike
E (tr (A)) = tr (E (A)) [3.142]
tr (B) = V sota lastnih vrednosti (eigenvalues) matrike B [3.143]
P
∂tr (B) ∂ ni=1 bii
= =I [3.144]
∂B ∂B
∂tr (AB) ∂tr (BA)

= = A, [3.145]
∂B ∂B
∂tr (ABC) ∂tr (BCA)

= = A , C, [3.146]
∂B ∂B
∂tr (B, AB)

= BA + A, B [3.147]
∂B
∂tr (B, AB)

A = A, ⇒ = 2AB [3.148]
∂B
n
! n
X X
Etr (X) = E xii = E (xii ) = trE (X) [3.149]
i=1 i=1
61
62 Biometrija
PRIMER: Opravili smo dve meritvi na dveh nesorodnih živalih. Rezultati so v naslednji tabeli. Nasta-
vimo matriko varianc in kovarianc za aditivni genetski vpliv (G), ostanek (R) in opazovanja (V)! Pri tem
predpostavimo naslednji model. Izračunajmo tudi sledi matrik G, R in V!
a1 a2
y11 y21
y12 y22
yi j = µ + a i + e i j

ai ∼ IID 0; σ2a ; ei j ∼ IID 0; σ2e
   2 
e11 σe
 e12   σ2e 
R = Var  = 
 e21   σ2e 
e22 σ2e

a1 σ2a
G = Var =
a2 σ2a
  2  
y11 σe + σ2a σ2a
 
y12    σa2 σe + σ2a
2 
V = R + ZGZ, = Var (y) = Var  = 
 y21   σ2e + σ2a σ2a 
y22 σ2a σ2e + σ2a

tr (R) = tr I4 σ2e = σ2e tr (I4 ) = 4σ2e
X
tr (G) = σ2a = 2σ2a
X
tr (V) = σ2e + σ2a = 4 σ2e + σ2a
Slednje lahko izračunamo tudi po naslednjem postopku.

tr (V) = tr (R + ZGZ, ) = tr (R) + tr (ZGZ, ) = 4σ2e + tr Z, ZI2 σ2a = 4σ2e + 4σ2a
62
Biometrija 63
PRIMER:
y = Xβ + Zu + e
E (yi ) = xi β
Var (yi ) = σ2e + σ2u
Po definiciji je
V = E (yy, ) − E (y) E (y, )
E (yy, ) = V + E (y) E (y, )

E (yy, ) = E (tr (yy, )) = E tr (yy, ) = tr E (yy, ) =
!
β, X, Xβ
= tr (V + Xββ X ) = tr (V) + tr | {z }
, ,
P skalar

= n σ2e + σ2u + β, X, Xβ = n σ2e + σ2u + β, X, Xβ

E (yy, ) = E (Xβ+Zu + e) (Xβ+Zu + e), = E (Xβ+Zu + e) (β, X, + u, Z, + e, )
= E (Xββ, X, ) + E (Zuβ, X, ) + E (eβ, X) + E (Xβu, Z, ) + E (Zuu, Z, ) +
+E (eu, Z, ) + E (Xβe, ) + E (Zue, ) + E (ee, )
= ZGZ, +R + Xββ, X, = V + Xββ, X,
3.14 KVADRATNE OBLIKE (QUADRATIC FORM)
Splošna oblika kvadratne oblike (quadratic form) je y , Qy. Matriko Q imenujemo matriko kvadratne
oblike. Predpostavimo lahko, da je simetrična. V primeru, da Q ni simetrična, lahko poiščemo drugo
matriko kvadratne oblike po enačbi (3.150).

Q + Q,
[3.150]
2
Za odvisne spremenljivke (opazovanja) v vektorju y naj velja, da so porazdeljene po naslednjem poraz-

delitvenem zakonu:
y ∼ (Xβ, V) [3.151]
Pripravimo si še nekaj enačb
V = var (y) = var (y − Xβ) = E (y − Xβ) (y − Xβ), =

= E (yy, −yβ, X, −Xβy, + Xββ, X, ) = yy, − (Ey) β, X, − Xβ (Ey, ) + Xββ, X, = [3.152]
= yy, −Xββ, X, −Xββ, X, +Xββ, X, = yy, −Xββ, X,
yy, = V + Xββ, X, [3.153]
E (yy, ) = E (V + Xββ, X, ) = E (V) + E (Xββ, X, ) = V + Xββ, X, [3.154]
V statistiki kvadratne oblike predstavljajo matrični zapis za vsote kvadratov. Da ocenimo posamezne
komponente variance, vsoto kvadratov izenačimo s pričakovano vrednostjo za vsoto kvadratov, zato si
63
64 Biometrija
oglejmo, kako dobimo pričakovane vrednosti.
E (y, Qy)
| {z } = E tr (y, Qy) = E tr (Qyy, ) = tr E (Qyy, ) = tr QE (yy, ) =
skalar
= tr Q (V + Xββ, X, ) = tr (QV) + tr (QXββ, X, ) = [3.155]
(β, X, QXβ)
= tr (QV) + tr | {z } = tr (QV) + β, X, QXβ
skalar
To velja ne glede na to, ali je porazdelitev normalna. Če pa je porazdelitev normalna, pa velja tudi
naslednje.
var (y, Qy)

1. | {z }
skalar
2.
PRIMER:
yi = µ + e i
• Vsota kvadratov opazovanj

X
y2i = yy,
Q = I; rank(Q) = n
• Vsota kvadratov za model

P 2 P 2
2 yi yi 1 1
nȳ = n = = y, 1 • 1 , y = y, Jn y
n n n n
Jn
Q= ; rank(Q) = 1
n
• Nepristranska ocena variance:

P P P
(yi − ȳ)2 y2i − ( yi ) n y, y − 1n y, Jn y 1 , J
= = = y I− y
n−1 n−1 n−1 n−1 n

1 J
Q= I− ; rank(Q) = n − 1
n−1 n
64
Biometrija 65
PRIMER:
yi j = µ + A i + e i j ; i = 1, A; j = 1, N; n = NA

y, = y,1 y,2 · · · y,A
Vir variabilnosti Stopinje prostosti (d.f.) Vsota kvadratov (SS) Povpre čni kvadrat (SS/d.f.)
µ 1 CF - za povprečje CF/1
Vpliv A A-1 CBSS - med skupinami CBSS/(A-1)
Ostanek A(N-1) ESS - za ostanek ESS/(A(n-1))
Skupaj AN TSS - skupna
• Skupna vsota kvadratov

XX
TS S = y2ji = y, y
i j
Q = I; rank(Q) = AN
• Vsota kvadratov za “povprečje”
1 ,
CF = y JNA y
AN
JAN
Q= ; rank(Q) = 1
AN
• Vsota kvadratov UBSS:

2
1 P A P N 2
1 PN 2 P
N
2 P
N
UBS S = N i j yi j = N j y1 j + y
j 2j + ··· + j yA j
1

= N y1 1 N
,
· 1,N y1 + y,2 1N ·1N y2
+ ··· + ,
y,A 1N · 1,N yA  
1N · 1,N y1
 1N · 1,N  y2 
1 ,   
= N y,1 y,2 · · · yA  ..  .. 
 .  . 
P 1N · 1,N yA
⊕ JN
= y, i N y
⊕
!
X JN
Q= ; rank(Q) = A
N
i
• Vsota kvadratov CBSS:

⊕
! ⊕
!
X JN 1 , 1 X 1
CBS S = UBS S − CF = y, y− y JAN y = y, JN − JAN y
i
N AN N i AN
⊕
!
1 X 1
Q= JN − JAN ; rank(Q) = A − 1
N AN
i
• Vsota kvadratov za ostanek
ES S = T S S − MS S
65
66 Biometrija
3.15 CHOLESKY DEKOMPOZICIJA (KVADRATNI KOREN)
66
Biometrija 67
Poglavje 4
OCENJEVANJE IN INTERPRETACIJA PARAMETROV

V tem poglavju se bomo seznanili s statističnimi metodami za oceno lokacijskih parametrov in krite-
riji oziroma pogoji, ključnimi za izbiro metode. Izbor metode je v največji meri odvisen od strukture
podatkov in porazdelitve lastnosti.
Za oceno parametrov so nam na voljo številne metode. Izberemo lahko enostavna povpre čja, metodo
najmanjših kvadratov, tehtanih najmanjših kvadratov, splošnih najmanjših kvadratov, metodo najve čje
zanesljivosti, itd...
4.1 Kriteriji za izbor metode
4.1.1 Struktura podatkov
Uravnoteženi in neuravnoteženi poskusi

Pri uravnoteženih poskusih, kamor lahko štejemo tudi skrbno na črtovane poskuse po posebnih shemah
(split-plot, latinski kvadrat...) lahko obdelamo z enostavno metodo, ki je znana pod imenom analiza
variance z oznako ANOVA. Uravnoteženi poskusi so v živinoreji redki. V poskusih, ki jih izvajamo na
kmetijah ali celo večjih obratih, smo vezani na velikost obratov in strukturo črede, ki jo imajo. Le redko
imamo priližnost, da je hlev prazen in naselimo tiste živali, ki jih želimo
Vsekakor morajo biti ti poskusi izvedeni korektno. Ne smemo si zatiskati o či pred pomembnimi vplivi,
ki jih nismo mogli izničiti ali kontrolirati. Sorodne živali, če jih imamo, morajo biti uravnoteženo po-
razdeljene po skupinah. Če imamo v poskusu s prašiči štiri skupine, bomo v poskus vključili nesorodne
živali ali pa vzeli štiri prašiče iz istega gnezda in v vsako skupino dali po enega. Imamo sicer še nekaj
možnosti, vseh niti ne moremo našteti. Paziti moramo, da so "kršene" predpostavke uravnoteženo po-
razdeljene med skupinami. To pravilo je na videz v nasprotju z zahtevo po naklju čni porazdelitvi živali
oziroma enot v poskus. Tisto, kar poskus moti, to pa so "nezaželeni" vplivi in "kršene" predpostavke,
moramo načrtno izbrati in porazdeliti po skupinah. Le tako lahko zagotovimo, da ne okužimo tistih vpli-
vov, ki jih moramo proučiti. To velja pravzaprav za vse poskuse, tudi za tiste, za katere že vnaprej vemo,
da bomo uporabili zahtevnejšo metodo za obdelavo podatkov. Nobena metoda ne more nadoknaditi slabo
zastavljenega poskusa!
Naključni in selekcionirani vzorci
Pri običajnih poskusih bomo živali ali kakšne druge poskusne enote praviloma naklju čno uvrstili v sku-
pine. To pa vedno ni mogoče. Eden od razlogov je etične narave (primer 4.1). V živinoreji se pogosto
srečamo z obilico proizvodnih podatkov zbranih v dokaj urejenih informacijskih sistemih. Ti podatki
niso naključno izbrani: to so proizvodni rezultati živali na kmetijah, praviloma vseh.
Neumnost bi bilo iz teh podatkov izbrati naključni vzorec, da bi zadovoljili pogoje za obdelavo. Prav
gotovo vsi podatki več povedo, kot vzorec. Imajo pa kmetje različno število živali, različnih genotipov,
različno kvalitetne silaže, različen interval med molžama itd. Še najbolj problematično pa je, da potomce
odbirajo od najboljših krav in odličnih bikov. Potomci torej niso naključni: ker smo v teorijo dedovanja
prepričani, morajo biti tisti, ki so namenjeni proizvodnji in reprodukciji, boljši.
Primer 4.1: Ko želimo proučiti neko lastnost pri zdravih in bolnih živalih, bi naklju čni izbor pomenil,
da izberemo za poskus zdrave živali in jih okužimo. To bomo naredili le izjemoma, z dobro utemelje-
nim razlogom. Rezultati poskusa morajo biti dovolj tehtni, da za to žrtvujemo zdravje živali. Postopali
68 Biometrija
bomo pravzaprav drugače. Poiskali bomo obolele živali iz iz njih nastavili eno skupino, v drugo pa dali
zdrave. Ali je tu kršeno pravilo o naključnih vzorcih? Pravzaprav ne! Zdravstveno stanje je vpliv in tega
izberemo načrtno. V ozadju belezni se lahko sicer skriva marsikaj, da so te živali obolele, druge pa ne.
Lahko je to izpostavljenost povzročiteljem bolezni, kar samo po sebi ne bi dalo izkrivljenih rezultatov.
Lahko so bile živali izpostavljene dodatnim stresom, med njimi pa so lahko take, ki bi motile poskus.
Vzemimo, da so bile obolele živali preslabo krmljene, zdrave pa ravno prav. V tem primeru bodo proi-
zvodni rezultati morda bolj posledica slabe prehrane kot pa bolezni in poskus ne bi dal pravih rezultatov.
Tečav, torej tudi poskusa, se moramo lotiti na povsem drugem koncu. Bolezen je torej posledica, prav bi
torej bilo, da bi bila objekt proučevanja, naša opazovana lastnost. Odpraviti bo potrebno vzroke, da je do
bolezni sploh prišlo. Bolj bi bilo torej primerno, da prou čujemo, kako prehrana vpliva na pojav bolezni...
4.1.2 Porazdelitev
Porazdelitev preverjamo za vse naključne vplive, ostanek in opazovanje. Najprej preverimo porazdelitev
za opazovanja, ker pač ostankov še nimamo. Vsekakor pa pri opazovanjih, pri katerih imamo dvome,
opravimo preizkuse na ostanku.
Porazdelitvena funkcija
Zaželjeni so normalno porazdeljeni podatki. Pri teh podatkih lahko pa č uporabimo enostavne metode,
kot so ANOVA, metoda najmanjših kvadratov, metoda tehtanih najmanjših kvadratov in metodo splošnih
najmanjših kvadratov. Opišemo jih lahko s pričakovanimi vrednostmi ter merami razpršenosti (parametri
disperzije). Pri drugih porazdelitvah pred povprečjem izberemo parametre, ki to porazdelitev najbolje
opišejo. V živinoreji se boste dostikrat srečali tudi z lastnostmi, ki imajo specifično porazdelitev, biološko
utemeljeno, a jih ne moremo opisati z znanimi porazdelitvami. Pri teh porazdelitvah pogosto odpadejo
običajne statistike, povprečje in razpršenost prav nič ne povesta o podatkih.
Pri izboru metode upoštevamo porazdelitev opazovanj, ki je posledica porazdelitve naklju čnega dela
modela. Pri sistematskih modelih, ki so zelo pogosti pri obdelavi poskusov, je porazdelitev opazovanj
odvisna od ostanka.
Ko se izkaže, da lastnost ni porazdeljena po znani porazdelitvi, najprej poskusimo z razli čnimi trans-
formacijami. Na transformiranih opazovanjih in ostankih preizkus ponovimo. Druga možnost je tudi
približek prave porazdelitve z eno od znanih porazdelitvev, kadar so odstopanja zanemarljiva. Pri tem
statističnih parametrov za odločitev pravzaprav nimamo in so potrebne predvsem izkušnje in zadostno
število opazovanj. Zanemarjanje porazdelitve je pogosto posledica nepoznavanja drugih metod, rezultati
takih analiz pa so lahko zavajajoči.
S porazdelitvami, ki se ne dajo transformirati ali aproksimirati, se boste sre čali že med študijem in pri
diplomskih nalogah. Nimamo prostora, da bi imenovali vse primere in se bomo omejili le na nekatere.
Vam so že poznani nekatere lastnosti obnašanja, dnevni ritmi in podobno. Pri rejah pa se boste spoznavali
z nekaterimi lastnostmi plodnosti, ki se ne obnašajo, kot bi v statistiki radi. Omenimo lahko lastnosti
povezane z vitalnostjo, preživitvijo ali izgubami mladi čev, z dobami od poroda (odstavitve) do pripusta
in z življenjsko prirejo. Za začetek lahko lastnosti opišemo enostavno s porazdelitvijo in porazdelitve
primerjamo med seboj. Morda se lahko poslužimo mediane ali modusov, kombiniranih transformacij,
a je zelo težko dati splošno veljaven postopek obdelave podatkov. Razgovor z nekom, ki ima bogate
izkušnje pri obdelavi podatkov, bo gotovo primeren za četek.
Identična ali heterogena porazdelitev

V manjših poskusih velja poskusiti zagotoviti homogenost variance. To dosežemo tako, da imamo iste
instrumente, stalno in usklajeno ekipo. Ko pa živali rastejo in jim spremljamo maso od rojstva pa jih ne
moramo tehtati z isto tehtnico: tista za odrasla goveda, razlik med rojenimi teleti skoraj ne zazna. Tista,
ki pa je primerna za tehtanje telet, pa bi se potrla pod maso odraslega goveda.
68
Biometrija 69
Neodvisna ali odvisna porazdelitev
V praksi dostikrat privzamemo, da so nivoji znotraj posameznega vpliva neodvisni. Do sedaj smo ome-
njali odvisnost med sorodniki pri aditivnem genetskem vplivu. Povezanost smo ugotavljali iz porekla
živali in jo vgradili v matriko sorodstva. To velja tako za direktne, maternalne in paternalne aditivne
genetske vplive. Povezanost imamo tudi pri neaditivnih genetskih vplivih: dominanci in epistazi, vendar
pa se v okviru tega predmeta z njimi ne bomo ukvarjali.
Samo omenili bomo tudi podobnost med primerjalnimi skupinami. Pri praši čih na testni postaji preiz-
kušamo prašiče od 30 do 100 kg. Živali naseljujemo vsak teden in vsak teden zapuš čajo testno postajo.
Primerjalno skupino tvorijo živali, ki jih istočasno preizkušamo. Če smo natančni, to pomeni, da tvorijo
primerjalno skupino živali, ki so v istem tednu končale preizkus. Teh pa je pogosto premalo, da bi dale
zadostno oceno vpliva skupnega okolja, ki ga praviloma imenujemo kar sezona. Pomagamo si lahko z
živalmi, ki so končale test en teden prej. Morda moramo zaradi števila živali dodati še kakšen teden...
Transformacije
S transformacijami lahko spremenimo porazdelitev spremenljivke tako, da je porazdeljena normalno ali

po drugem znanem porazdelitvenem zakonu. Porazdelitev je pomembna samo pri odvisnih spremenljiv-
kah. Pri neodvisnih spremenljivkah jo naredimo takrat, kadar z njeno transformacijo dosežemo enostav-
nejšo povezavo med odvisno in neodvisno spremenljivko, npr. iz eksponentne funkcije z logaritmiranjem
dobimo linearno povezavo. Logaritmiranje pa ni edina transformacija. Poslužujemo se lahko tudi raz-
ličnih korenov pri desno asimetričnih porazdelitvah ali potenciranja pri levo asimetri čnih porazdelitvah.
Pri transformacijah moramo paziti, da lahko pri transformaciji vse vrednosti spremenimo. Če je zaloga
vrednosti pri spremenljivki večja ali enaka nič, transformacija z logaritmom ni mogoča, ker ne poznamo
vrednosti log(0). Aproksimacija z eno od zelo majhnih vrednosti lahko rezultat mo čno preoblikuje. Ni
vseeno ali se vrednosti 0 približamo z vrednostjo 10 −2 ali 10−10 . Pri log-transformaciji dobimo v prvem
primeru vrednost −2, v drugem pa −10.
Aproksimacije
Pri manjših odstopanjih od normalne porazdelitve lahko pravo porazdelitev pravzaprav zanemarimo in
kot približek vzamemo normalno porazdelitev. Kot primer lahko navedemo velikost gnezda pri praši čih,
ki je porazdeljena po Poissonovi porazdelitveni funkciji s povpre čjem pri 10, minimumom 0 in maksi-
mumom okrog 20. Tukaj lahko privzamemo normalno porazdelitev. To pa ne velja za velikost gnezda pri
drobnici, kjer je porazdelitev tudi Poissonova, povpre čje pa je praviloma med 1 in 2, v gnezdu je najmanj
0 živorojenih mladičev in praktično nikoli ne presega pa 5 mladičev.
4.1.3 Število opazovanj
V statistiki poznamo tudi zakon velikih števil. V preprostem jeziku pove, da ne glede na porazdeli-
tev opazovanj se porazdelitev pričakovanih vrednosti približuje normalni porazdelitvi, če je le število
opazovanj dovolj veliko. Ta zakon pravzaprav dovoljuje nadomestitev prave porazdelitve z normalno
porazdelitvijo. Kaj je zadostno število, pa je povezano s porazdelitvijo in številom parametrov v siste-
matskem delu modela. Bolj kot porazdelitev odstopa od normalne, ve č opazovanj potrebujemo, da lahko
predpostavimo kar mormalno porazdelitev.
4.1.4 Načelo skromnosti, praktičnost, izvedljivost in interpretacija
V statistiki velja načelo skromnosti tudi pri izbiri metode. Uporabili bomo najpreprostejšo metodo, ki
nam še vedno daje zadovoljivo oceno rezultatov poskusa. Če je to navadno povprečje, bomo izbrali pač
povprečje.
69
70 Biometrija
4.1.5 Funkcija tveganja in funkcija izgube, loss function
Funkcija tveganja (risk function) ali kar tveganje in funkcija izgub ali izguba (loss function)
• vsota kvadratov za ostanek najmanjša
• vsota tehtanih kvadratov za ostanek najmanjša
• vsota splošnih kvadratov za ostanek najmanjša
• največja zanesljivost
4.2 Enostavna analiza variance (ANOVA)
V poskusih, kjer je struktura podatkov uravnotežena, lahko uporabljamo enostavno metodo, imenovano
ANOVA. Uporabna je v primerih, ko smo opravili uravnotežen preizkus in nimamo na voljo statisti čnih
paketov. Izračunamo in primerjamo lahko povprečja po skupinah. Za preizkuse postavljenih hipotez
pa uporabimo enostavne izračune vsot kvadratov za posamezne vplive, kar bomo opisali v poglavju o
preizkušanju hipotez. Analizo lahko opravimo kar s kalkulatorjem.
Toda v živinoreji prepogosto kršimo in to metodo uporabimo na neuravnoteženih podatkih in bolj se-
stavljenih modelih. Prav nič ne izgubimo, kadar uravnotežene podatke obdelamo z metodo najmanjših
kvadratov. Kadar bi lahko uporabili metodo ANOVA, bomo pri metodi najmanjših kvadratov dobili
popolnoma enake zaključke. Če pa se rezultati razlikujejo, pa je metoda najmanjših kvadratov boljša.
4.3 Metoda najmanjših kvadratov
Pri metodi najmanjših kvadratov (ang. Ordinary Least Square, OLS) predpostavimo, da je odgovarjajo či
model sistematski, ostanki pa so identično in neodvisno porazdeljeni. Število meritve po posameznih
skupinah se lahko razlikuje. Torej so podatki lahko neuravnoteženi. Pri uporabi metode ni nujno zahtevati
normalno porazdelitev, dokler se zadovoljimo samo z rešitvami. Ne smemo pa pozabiti, da se pri "divji"
porazdelitvi ocenjena vrednost lahko pojavi celo izven intervala zalog vrednosti. Torej dobimo lahko
vrednost, ki je nemogoča in neuporabna za interpretacijo.
4.3.1 Ilustracija metode najmanjših kvadratov
Najprej postopek ilustrirajmo s primerom. Za ilustracijo vzemimo podatke o spremembah krmnih dni
na živorojenega pujska v Sloveniji po letih iz tabele 4.1 in narišimo sliko 4.1! Krmni dnevi predstavljajo
lastno ceno živorojenega pujska v trdni “prašičerejski” valuti in so tako dober pokazatelj uspešnega
rejskega dela. Tako iz tabele kot iz grafa dobro vidimo, da so slovenski rejci izboljšali rejo praši čev.
Dosežen rezultat v posameznem letu je na grafu označen z rdečo kroglico.
Tabela 4.1: Število krmnih dni na živorojenega pujska po letih

80 81 82 83 84 85 86 87 88 89 90 91
26.33 24.14 22.95 22.97 21.76 21.21 21.66 21.88 21.13 20.44 18.21 17.59
70
Biometrija 71
27
25
23
KD / puj.
21
19
17
80 81 82 83 84 85 86 87 88 89 90 91
L e t o
Slika 4.1: KD na živorojenega pujska in prileganje razli čnih premic
Za obrazložitev uporabimo kar preprost model, ki vsebuje samo linearno regresijo z neodvisno spremen-
ljivko xi j kot sistematski vpliv. Verjetno bi polinom tretje stopnje bil primernejši, a bi si samo otežili
izračune in prikaze. Lahko pa vajo s polinomom tretje stopnje naredite doma za vajo. V skalarni obliki
bo torej model imel preprosto obliko, kot nakazuje ena čba 4.1, naslednji dve enačbi pa model predstavita
v matrični obliki (4.2, 4.3) in opišeta tudi običajne predpostavke.
yi = µ + bxi + ei [4.1]
y = Xβ + e [4.2]

y ∼ IID Xβ, Iσ2e [4.3]
Iz slednje enačbe (4.3) je razvidno, da so meritve y i identično in neodvisno porazdeljene, na kar nas
opozori oznaka IID in varianca Iσ2e , s pričakovano vrednostjo Xβ. Diagonalni elementi v matriki I
so identični - popolnoma enaki - saj je njihova vrednost natanko 1. Vsi nediagonalni imajo vrednost0,
kar pomeni, da so ostanki med seboj neodvisni, z drugo besedo nepovezani. Oznako IID bi lahko tudi
izpustili.
Porazdelitev naključnih spremenljivk v modelu moramo nujno preveriti, ko preizkušamo zna čilnost po-
stavljenih hipotez. Za preveritev hipotez bi lahko preprosto rekli, da preverjamo verodostojnost dobljenih
rezultatov. Ta nadaljni korak je praviloma pričakovan in povsem logičen, saj brez statističnega preiz-
kusa ne moremo rezultatov interpretirati. Analiza brez statisti čnega preizkusa bi bila torej brez pravega
učinka. Za presojo rezultatov je porazdelitev meritev pomembna. Dokazali pa smo že, da je porazdelitev
odvisna od naključnega dela modela - od naključnih spremenljivk. Kadar razmišljamo o varianci, pred-
postavimo, da je spremenljivka normalno porazdeljena ali pa je porazdeljena tako, da lahko pri obdelavi
predpostavimo normalno porazdelitev. Takšna predpostavka nam pride prav, ker lahko uporabimo me-
tode iz skupine najmanjših kvadratov. V živinorejskih poskusih tega ne smemo vedno narediti. Da bi ne
naredili napake, moramo vedno preveriti porazdelitev!
Prilagodimo na grafu 4.1 najprej 9 premic iz tabele 4.3. Zanima nas, katera od premic podatke najbolje
opiše ali pojasni. Z drugimi besedami: zanima nas, katera premica se podatkom najbolje prilega.
71
72 Biometrija
Tabela 4.2: Nekaj izbranih enačb za opis zgornjih podatkov

Oznaka Nekatere izbrane enačbe Oznaka Nekatere izbrane enačbe
1 yi = 39.033 − 0.20084 xi + ei 6 yi = 81.533 − 0.70084 xi + ei
2 yi = 47.533 − 0.30084 xi + ei 7 yi = 90.033 − 0.80084 xi + ei
3 yi = 56.033 − 0.40084 xi + ei 8 yi = 98.533 − 0.90084 xi + ei
4 yi = 64.533 − 0.50084 xi + ei 9 yi = 107.033 − 1.00084 xi + ei
5 yi = 74.146 − 0.6135 xi + ei
27
26
25
24
23
22
KD / puj.
21
20
19
18
17
16
80 81 82 83 84 85 86 87 88 89 90 91
L e t o
Slika 4.2: KD na živorojenega pujska in prileganje razli čnih premic
Odgovor je enostaven: najbolje se prilega srednja - modra premica. Izbrali smo jo zato, ker se to čke
modri premici najbolje prilegajo. “Prilegajo” pomeni, da so od nje najmanj oddaljene. Kakšna od to čk
lahko leži kar na najboljši premici, tu in tam pa imamo tudi precej oddaljene to čke. Ker je več točk,
moramo tako najti neko statistiko, ki bo merila skupno oziroma povpre čno oddaljenost. Oddaljenost točk
(meritev) od premice (pričakovane vrednosti) pa imenujemo ostanek. Ker pravih ostankov ne poznamo,
ocenimo pa jih lahko kot razliko med izmerjeno vrednostjo y i in pripadajočo pričakovano vrednostjo
E(yi ), kot to prikazuje enačba 4.4.
ebi = yi − E(yi ) [4.4]
Pri razmišljanju nas dostikrat zapelje želja, da bi izbrali rešitev tako, da bi bila vsota ostankov enaka 0
(4.5) ali morda celo najmanjša (4.6). V zgornjem primeru (graf 4.2) je vsota ostankov pri vseh premicah
enaka 0. Pravzaprav ta kriterij izpolnjuje cel šop premic, ki gredo skozi prese čišče premic na grafu.
Premic je celo neskončno mnogo. Torej je med njimi po tem kriteriju ni nobene najboljše - po tem
kriteriju ne bomo našli dobre rešitve.
X
(yi − E (yi )) = 0 [4.5]
i
X
(yi − E (yi )) = min. [4.6]
i
72
Biometrija 73
500
400
300
KD / puj.
ostanki so zelo majhne vrednosti

(velike negativne vrednosti)
200
100
0
8 0 81 82 83 84 85 86 87 88 89 90 91
Leto
Slika 4.3: Vsota ostankov je minimalna
Pri drugem kriteriju (4.6), da bi bila vsota ostankov najmanjša, tudi ne bi bili uspešni. Najmanjše niso
vrednosti blizu 0, ampak zelo “velike” negativne vrednosti. Po tem kriteriju bi poiskati tisto premico
(graf 4.3), ki bi dala najbolj negativno vsoto. Premice prav gotovo ne bi imeli na grafu! Od to čk -
opazovanj - bi bila odmaknjena neskončno daleč. Do nje bi potovali več svetlobnih let, če vam je tako
všeč. Rešitev, ki je daleč od opazovanj, bi o opazovanjih zelo malo povedala. Potem pa to sploh ni
rešitev!
Poiskali bi lahko še kak kriterij in morda bi bila obrazložitev, zakaj z njim nismo najbolj zadovoljni,
celo zahtevna. Poskusimo zato kar s kriterijem, na katerem je osnovana metoda najmanjših kvadratov.
Uporabiti moramo odklone, da se bo premica najbolje prilegala. Ker je v nazivu metode beseda “kvadra-
tov”, moramo odklone kvadrirati. Tako dobimo za vsako meritev eno vrednost - kvadrirani odklon. Če
pa kvadrirane odklone seštejemo, pa imamo statistiko, ki pa nam da rešitev. Statistiko bomo imenovali
vsota kvadratov ali vsota kvadratnih odklonov. Poglejmo, če je razmišljanje dobro!
Za vsa leta in vse enačbe imamo kvadratne odklone shranjene v tabeli 4.3 in jih v zadnji vrsti še se-
štejemo. Tako smo dobili vsoto kvadratnih odklonov (4.7), uporabljali bomo pa kar oznako RS S , kar
je povzeto po angleškem izrazu "Residual S um of S quares". Katera premica je torej najboljša? Zaradi
izbora metode prav gotova tista, pri kateri je vsota kvadratnih odklonov RS S najmanjša. To je v našem
primeru enačba 5, ki tudi predstavlja rešitev sistema. To pravzaprav ni naklju čno: pred tem postopkom
smo na skrivaj opravili izračun.
X
RS S = (yi − E (yi ))2 [4.7]
i
73
74 Biometrija
Tabela 4.3: Kvadrati za ostanke pri različnih prirejenih premicah (tabela, graf)
En. 1 2 3 4 5 6 7 8 9
b -0.20 -0.30 -0.40 -0.50 -0.61 -0.70 -0.80 -0.90 -1.00
80 11.316 8.2025 5.5885 0.74650 0.13264 0.01844 0.40424
81 1.8907 0.95070 0.33067 0.39057 1.0505 2.0305 3.3305
82 0.14890 0.00737 0.04585 0.26432 0.66279 1.2413 1.9997 2.9382 4.0567
83 0.36811 0.16542 0.04273 0.00004 0.03736 0.15467 0.35198 0.62929 0.98661
84 0.16196 0.25245 0.36293 0.49342 0.64391 0.81439 1.0049 1.2154 1.4459
85 0.56491 0.56491 0.56490 0.56490 0.56490 0.56490 0.56490 0.56490 0.56491
86 0.01015 0.00000 0.00985 0.03970 0.08954 0.15939 0.24925 0.35909 0.48893
87 0.10245 0.27048 0.51851 0.84655 1.2544 1.7426 2.3107 2.9587 3.6867
88 0.05248 0.00501 0.13758 0.45014 0.94269 1.6152 2.4678 3.5003 4.7129
89 0.51587 0.10128 0.00668 0.23210 0.77750 1.6429 2.8283 4.3337 6.1591
90 7.5482 5.0508 3.0534 1.5560 0.55801 0.06121 0.06381 0.56641 1.5690
91 10.027 6.5872 3.8674 1.8675 0.58761 0.02774 0.18787 1.0680 2.6681
RSS 32.7067 22.1582 14.5290 9.81981 8.02982 9.16137 13.212 20.183 30.074
Vseeno pa narišemo še graf (4.4): na abciso nanesimo regresijske koeficiente, na ordinato pa vsote
kvadratnih odklonov. Točke leže na paraboli, peta točka pa predstavlja minimum te parabole. Vsota
kvadratov je pozitivna vrednost. Vsaka druga premica, razen optimalne, pa daje ve čjo vsoto kvadratnih
odklonov.
32
28
Vsota kvadratov za ostanek
24
20 y = 74.146 - 0.6135 x + e
i i i
v vsota kvadratov
Najmanjsa
16
12
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2

Smerni (regresijski) koeficient
Slika 4.4: Spreminjanje vsote kvadratov v odvisnosti od regresijskega koeficienta
Pri odločitvi smo torej poiskali minimum za vsoto kvadratnih odklonov. Kljub temu, da je metoda
najmanjših kvadratov za nas še neznanka, pa smo pravkar spoznali, da bo še najbolj sprejemljiva. Sedaj
pa metodo najmanjših kvadratov še izpeljimo!
4.3.2 Izpeljava metode v skalarni obliki
V tem poglavju se želimo osredotočiti na izpeljavo metode najmanjših kvadratov (OLS - Ordinary Least
Square), ki je v živinoreji je pogosto uporabljena. Metodo bomo izbrali takrat, ko število opazovanj ni
74
Biometrija 75
uravnoteženo (balansirano) med posameznimi razredi. Isto časno pa mora biti izpolnjen še en osnovni
pogoj: ostanki morajo biti neodvisno in identično porazdeljeni. Pri zgornjem modelu, opisanem v ena č-
bah 4.1, 4.2 in4.3, je slednji pogoj izpolnjen, kar dokazujeta oznaka IID pri opisu porazdelitve v ena čbi
4.3 in tudi identična matrika I pri opisu strukture variance. Zgornji model bomo za izpeljavo metode
najmanjših kvadratov razširili še za sistematski vpliv A i z nivoji4.8. Novi model se ne nanaša več na
zgornje podatke. Primeren pa bi bil za analizo sprememb po letih za ve č farm. Takrat bi sicer vpliv z
nivoji preimenovali, da bi nas oznaka spominjala na farmo.
yi j = µ + Ai + bxi j + ei j [4.8]
yi j ∼IID(µ + Ai + bxi j , σ2 ) [4.9]
Rešitve sistema poiščemo tako, da je vsota kvadratov za ostanek minimalna. Ker iš čemo minimum
vsote kvadratov, bomo funkcijo4.8 odvajali po vseh neznankah in vse prve delne odvode izena čili z nič.
Neznanke so lokacijski parametri µ, A 1 , A2 , ... in A pA in b. Enačbo 4.10 za RSS bomo najprej malo
preoblikovali.
p X
X ni
2
RS S = e e = 0
ei j [4.10]
i=1 j=1
V enačbo vstavimo izraz za ostanek in poenostavimo zapis pri vsoti (4.11).

X 2
RS S = yi j − E yi j [4.11]
ij
Potrebujemo torej pričakovano vrednost, ki jo predstavlja praviloma le sistematski del modela (4.12).

E yi j = µ + Ai + bxi j [4.12]
Tako dobimo za vsoto kvadratov za ostanek zapisano v naslednji obliki:

X 2
RS S = yi j − µ − Ai − bxi j [4.13]
ij
Od tu naprej sta dve možnosti. Po enem postopku lahko ena čbo 4.13 razčlenimo. To lahko naredite sami
za vajo. Tu pa bomo izhaljali kar iz te enačbe.Torej vrnimo se k naši nalogi. Iščemo torej minimum
funkcije za izračun RSS (4.14)!
X 2
yi j − µ − Ai − bxi j = min. [4.14]
ij
Funkcija ima obliko parabole. V prvem koraku moramo poiskati vse parcialne odvode. Najprej odva-
jajmo na parameter µ (4.15).
P 2
∂ yi j − µ − Ai − bxi j
ij
[4.15]
∂µ
Pri odvajanju bomo uporabili naslednje pravilo 4.16.
∂ f (g (x)) ∂ f (g) ∂g (x)

= · [4.16]
∂x ∂g (x) ∂x
75
76 Biometrija
Rezultat v enačbi 4.17 izenačimo z 0. Hkrati paramertre nadomestijo ocene, rešitve, ki bodo izpolnjevale
pogoje zahtevane pri metodi najmanjših kvadratov. Parametre in njihove ocene lo čimo tako, da ocene
nosijo strešico (enačba 4.18).
X
2∗ yi j − µ − Ai − bxi j ∗ (−1) [4.17]
ij
X
2∗ µ − Abi − b
yi j − b bxi j ∗ (−1) = 0 | ÷ (−2) [4.18]
ij
V enačbi 4.18 lahko desno in levo stran delimo z 2 ter dobimo ena čbo 4.19.
X
µ + Abi + b
−yi j + b bxi j = 0 [4.19]
ij
Sedaj pa poskusimo enačbo še malo poenostaviti. Prav vseeno je, ali vsako meritev najprej o čistimo
sistematskih vplivov in tako dobljene ostanke seštejemo, kakor kaže ena čba 4.19. LahkoPpa levo stran
enačbe 4.19lahko najprej razčlenimo. Tako lahko posebej seštejemo vsa opazovanja ( yi j ), nato še
ij
P P P
vse srednje vrednosti ( b b b
µ), vplive Ai ( Ai ) in prispevke regresije ( bxi j ) in na koncu opravimo
ij ij ij
odštevanje, kot je to nakazano v enačbi 4.20.
X X X X
− yi j + b
µ+ Abi + b
bxi j = 0 [4.20]
ij ij ij ij
Člene z neznanimi parametri zadržimo na levi strani ena čbe, člen brez njih pa prenesimo na desno stran.
Poleg tega pa opravimo še kratek premislek. Pri izračunu ostanka smo vsakemu opazovanju odšteli
srednjo vrednost, torej smo to naredili natanko n−krat. Torej lahko vsoto nadomestimo z zmnožkom
(enačba 4.21).
X
b
µ=n ∗ b
µ [4.21]
ij
Podobno ravnamo tudi pri vplivih Ai . Nivojev za vpliv Ai je več in sicer smo predpostavili, da jih je p A ,
kjer pA predstavlja število nivojev in s tem tudi neznanih parametrov pri vplivu A. Vsota za vpliv A torej
vključuje n1 opazovanj pri nivoju A1 , n2 opazovanj pri nivoju A2 , ... in n pA opazovanj pri nivoju A pA .
Tretji člen iz enačbe 4.20 zapišemo v obliki 4.22.
X
Abi =n1 ∗ Ab1 + n2 ∗ Ab2 + ... + n pA ∗ AbpA [4.22]
ij
Tudi četrti člen iz enačbe 4.20 lahko preuredimo, kot kaže enačba 4.23, ker je vsaki člen pri vsoti po-
množen s parametrom b̂.
X X
b
bxi j = b
b xi j [4.23]
ij ij
Sedaj smo si pogledali vsak člen posebej in lahko tako preurejene vstavimo v enačbo 4.20. Naredimo
samo še nekaj: člene s parametri obdržimo na levi strani enačbe, člen brez parametrov pa prenesimo na
desno stran. Tako dobimo enačbo 4.24.
X X
µ + n1 ∗ Ab1 + n2 ∗ Ab2 + ... + n pA ∗ AbpA + b
n∗b b xi j = yi j [4.24]
ij ij
76
Biometrija 77
Dobili smo enačbo, s katero lahko izvrednotimo parameter µ. V enačbi pa so še drugi neznani parametri,
zato moramo poiskati še druge enačbe. Da bi problem rešili, potrebujemo za vsak neznan parameter po
eno enačbo. Na razpolago imamo še druge parcialne odvode.
Poskusimo odvajati tudi na parametre A 1 , A2 , · · ·, A pA . Postopek je identičen za vse parametre vpliva
A, zato bomo izpeljali postopek za katerikoli parameter in ga ozna čili z Ai0 . Na koncu pa bomo razvili
enačbo za vsak parameter posebej, saj mora imeti po eno ena čbo za vsak neznan parameter. Odvajati
moramo izraz v 4.25.
P 2
∂ ij yi j − µ − Ai − bxi j
= [4.25]
∂Ai0
Dobimo dve možnosti. Kadar je parameter A, na katerega odvajamo, isti kot tisti iz tretjega člena v
števcu enačbe 4.25, velja, da sta indeksa i in i 0 enaka. Tako moramo najti odvod iz 4.26.
∂ (−Ai )
= −1 [4.26]
∂Ai
V primeru, da sta indeksa i in i0 različna, pa moramo rešiti odvod v 4.27.
∂ (−Ai )
=0 [4.27]
∂Ai0
Končno lahko napišemo odvod, ki smo ga zastavili v enačbi 4.25. Omenili smo dve možnosti, ki jih
lahko nakažemo, kot prikazuje enačba 4.28.
X
(−1) ; k jer i = i0
=2∗ yi j − µ − Ai − bxi j ∗ [4.28]
(0) ; k jer i , i0
ij
Druga možnost v enačbi 4.28 je 0, iz prve možnosti pa dobimo izraz 4.29.

X
=2∗ yi j − µ − Ai − bxi j (−1); k jer i = i0 [4.29]
ij
Delimo z −2 in izenačimo z 0. Parametre ob tem zamenjamo z njihovimi ocenami (ena čba 4.30). Spodnji
izraz predstavlja več enačb in sicer za i = 1, 2, ..., p A .
X
µ − Abi − b
yi j − b bxi j = 0; k jer i = i0 [4.30]
ij
Najprej prikažimo enačbo, kjer je i = 1. Vstavimo vrednost 1 namesto oznake i in tako dobimo 4.31.
X X X X
y1 j − b
µ− c
A1 − b
bx1 j =0 [4.31]
1j 1j 1j 1j
Prvi člen, ki ne vsebuje parametrov, prenesimo na desno stran. Drugi člen predstavlja vsoto srednjih
vrednosti bµ za vse meritve opravljene pri nivoju A 1 . Meritev je natanko n1 , srednje vrednosti imajo iste
vrednosti, zato lahko drugi člen zapišemo tudi v obliki iz 4.32.
X
µ = n1 b
b µ [4.32]
1j
77
78 Biometrija
Tudi tretji člen lahko poenostavimo, kot prikazujemo v 4.33.

X
c
A1 = n1 ∗ Ab1 [4.33]
1j
Zadnji člen preuredimo po zgledu 4.23. Po preureditvi dobimo 4.34.

X X
µ + n1 ∗ Ab1 + b
n1 ∗ b b x1 j = y1 j [4.34]
1j 1j
V enačbi ni členov z ostalimi parametri vpliva A, vendar jih lahko brez škode dodamo, če jih pomnožimo
s konstanto 0.
X X
µ + n1 ∗ Ab1 + 0 ∗ Ab2 + · · · + 0 ∗ AbpA + b
n1 ∗ b b x1 j = y1 j [4.35]
1j 1j
Postopek od koraka 4.31 do 4.35 lahko ponovimo še za vse i od 2 do p A . Tako dobimo še preostale
enačbe za neznane parametre iz vpliva A. Prikazujemo ena čbi za i = 2 (4.36) in i = p A (4.37).
X X
µ + 0 ∗ Ab1 + n2 ∗ Ab2 + · · · + 0 ∗ AbpA + b
n2 ∗ b b x2 j = y2 j [4.36]
2j 2j
X X
µ + 0 ∗ Ab1 + · · · + 0 ∗ AbpA −1 + n pA ∗ AbpA + b
n pA ∗ b b x pA j = y pA j [4.37]
pA j pA j
Odvajati moramo še po enem parametru. To je regresijski koeficient b, kot smo zastavili v 4.38.
P 2
∂ ij yi j − µ − Ai − bxi j
[4.38]
∂b
Pri odvodu moramo paziti, da odvajamo po parametru b in ne po neodvisni spremenljivki x i j . To nas

lahko hitro zavede, ker smo bili pri matematiki vajeni, da smo neznanko poimenovali z x. V našem
primeru pa so neznani parametri v modelu. Torej je neznanka regresijski koeficient b, neodvisne spre-
menljivke xi j pa so bile izmerjene, ko smo poskus opravili. Tako so za oznako skrite konstante. Odvod
smo dobili v enačbi 4.39.
X
2∗ yi j − µ − Ai − bxi j ∗ −xi j [4.39]
ij
Izenačimo dobljeni parcialni odvod z nič in spremenimo parametre v ocene parametrov (parameter s
strešico)! V enačbi 4.40 še nakažemo deljenje desne in leve strani s konstanto −2.
X
2∗ µ − Abi − b
yi j − b bxi j ∗ −xi j = 0 | ÷ (−2) [4.40]
ij
Člene z ocenami parametrov zadržimo na desni strani ena čbe, na levo pa prestavimo člene brez njih.
Prestavljen člen je vsota produktov med opazovanji y i j in pripadajočimi neodvisnimi spremenljivkami
xi j (enačba 4.41).
X X X X
µ xi j +
b Abi xi j + b
b x2i j = yi j xi j [4.41]
ij ij ij ij
78
Biometrija 79
Iz vsot izpostavimo parametre (enačba 4.42). Pri tem dobimo nekaj več členov: pri vplivu A smo izpo-
stavili parametre za posamezne nivoje.
X X X X X X
b
µ xi j + Ab1 x1 j + Ab2 x2 j + ... + AbpA x pA j + b
b x2i j = yi j xi j [4.42]
ij 1j 2j pA j ij ij
Tako, sedaj imamo vse prve parcialne odvode pripravljene ??, 4.34, 4.35, 4.36 in 4.42. Ena čbe lahko
uredimo v matrično
h obliko. Ocene parametrov i bµ, Ab1 , Ab2 , ..., AbpA in b
b zberemo v vektor z ocenami
0
b
parametrov β = b b b b b
µ A1 A2 · · · A p b . Vsa nanizamo v vektor opazovanj y. Nastaviti moramo
A
tudi matriko dogodkov X. Začnimo na desni strani enačbe (ang. Right Hand Side, RHS): vektor je
zmnožek matrike dogodkov in vektorja opazovanj. Torej ga lahko predstavimo z X 0 y. Na levi strani
vektor ocen βb že poznamo. Matrika na levi se imenuje tudi matrika koeficientov ali matrika varianc
in kovarianc. Dobimo pa jo z množenjem transponirane matrike X 0 z matriko dogodkov X. Povsem
sprejemljiva je torej oznaka X0 X, ki hkrati ponazori, kako smo dobili matriko koeficientov.
 P 
n n1 n2 ··· n pA xi j
 ij
P    P 
 n1 n1 0 0 x1 j  y
 ···  b
µ P ij ij
 1j  b
A1   y 
 P    P1 j 1 j 
 n2 0 n2 ··· 0 x2 j    
 y 

 2j  Ab2   2j 2j

  .. = ..  [4.43]
 .. .. .. .. .. ..   
 . . . . . .  .   P . 

   
 .. P  b
A pA   PpA y pA j 

 n pA 0 0 . n pA x pA j  yi j xi j
 pP
Aj
 b
b
 P P P P 2
 ij
xi j x1 j x2 j · · · x pA j xi j
ij 1j 2j pA j ij
Sistem enačb 4.43 lahko zapišemo v matrični obliki 4.44. Dokaz si lahko preberete v poglavju, ki
prikazuje izpeljavo metode najmanjših kvadratov v matri čni obliki (4.3.4).
b = X0 y
X0 Xβ [4.44]
Sistem enačb pri metodi najmanjših kvadratov si bomo dobro zapomnili.
4.3.3 Vaje
Izpeljite metodo najmanjših kvadratov in nastavite sistem ena čb v matrični obliki za naslednje modele!
yi = µ + b11 x1i + b12 x21i + b13 sin(x1i ) + b21 x2i + b22 x22i + ei [4.45]
yi jk = µ + Pi + S j + ei jk [4.46]
yi jk = µ + Pi + S j + PS i j + ei jk [4.47]
yi jk = µ + Pi + S j + bi xi jk + ei jk [4.48]
yi jk = µ + Pi + S j + b x xi jk + bz zi jk + ei jk [4.49]
yi jk = µ + Pi + S j + b11 x1i + b12 x21i + b21 x2 j + b22 x22 j + ei jk [4.50]
Pri modelih 4.46, 4.47, 4.48, 4.49 in 4.50 vzemite, da je i = 1, 2, 3 in j = 1, 2, 3, 4.
79
80 Biometrija
4.3.4 Izpeljava metode v matrični obliki
Model, ki ga lahko obdelamo po metodi najmanjših kvadratov, vsebuje poleg ostanka samo še sistematske
vplive. V matrični obliki model zapišemo, kot je prikazano v enačbi 4.51.
y = Xβ + e [4.51]
Metoda najmanjših kvadratov zahteva, da je vsota kvadratnih odklonov za ostanek najmanjša. V matri čni
obliki vsoto kvadratnih odklonov zapišemo kot produkt vrsti čnega vektorja ostankov e0 s stolpičnim vek-
torjem ostankov e(enačba 4.52).
e0 e [4.52]
Iz modela 4.51 lahko izpeljemo enačbo za ostanek 4.53.
e = (y − Xβ) [4.53]
Nadomestimo vektorja ostankov iz 4.52 z desno stranjo ena čbe 4.53.
= (y − Xβ)0 (y − Xβ) = [4.54]
Transponirajmo prvi člen iz 4.54!

= y0 − β0 X0 (y − Xβ) = [4.55]
Pomnožimo člena v 4.55! V enačbi 4.56 smo tako dobili štiri člene. Če preverimo red pri posameznih
členih, ugotovimo, da imajo produkti samo eno vrstico in en stolpec - so torej skalarji.
= y0 y− y0 Xβ − β0 X0 y +β0 X0 Xβ
| {z } | {z } [4.56]
skalar skalar
Posebej pa sta za nas zanimiva druhi in tretji člen iz 4.56. Tretji člen je enak transponiranemu drugemu
členu. Ker pa sta oba člena le skalarja, je transponirana vrednost enaka vrednosti sami. Člena lahko
izjemoma, ker sta skalarja, izenačimo (enačba 4.57).
0
y0 Xβ = y0 Xβ = β 0 X0 y [4.57]
Namesto drugega člena v 4.56 vstavimo kat tretji člen. Člena sta nato enaka, zato ju lahko seštejemo
in tako dobimo enačbo 4.58. Lahko bi tudi tretjega zamenjali z drugim, a nam bi potem delalo nekaj
več preglavic pri odvajanju. Vztrajni pa lahko preverite, da tudi z drugo možnostjo pridemo do pravega
rezultata.
e0 e = y0 y − 2β0 X0 y + β0 X0 Xβ [4.58]
Sedaj pa moramo poiskati minimum funkcije na desni strani ena čbe 4.58. Postopamo povsem enako
kot pri skalarni obliki zapisa. Minimum funkcije najdemo pa č tako, da poiščemo prve parcialne odvode
po neznanih parametrih, jih izenačimo z nič in preuredimo, kot nam najbolje odgovarja. Ne smemo
pa pozabiti na dokaz, da smo našli minimum. V ta namen poiš čemo druge parcialne odvode in jih
izvrednotimo v točki, ki jo opisujejo naše rešitve. Pri minimumu morajo biti vrednosti drugih odvodov
pozitivne. Za odvajanje bomo poiskali pravila in jih uporabili.
80
Biometrija 81
Minimum funkcije najdemo tako, da v prvem koraku izra čunamo vse parcialne odvode po neznanih
parametrih β v 4.59.

∂ y0 y − 2β0 X0 y + β0 X0 Xβ
= [4.59]
∂β
∂y0 y ∂β0 X0 y ∂β0 X0 Xβ

= −2 + = [4.60]
∂β ∂β ∂β
= −2X0 y + 2X0 Xβ [4.61]
in odvode izenačimo z vektorjem 0 v 4.62.
b = 0 | /2
−2X0 y + 2X0 Xβ [4.62]
Po preureditvi dobimo sistem enačb 4.63, kjer X0 X predstavlja levo stran sistema, matriko koeficientov,
imenovano tudi matriko varianc in kovarianc, vektor X 0 y pa desno stran sistema (ang. right hand side,
oznaka RHS).

X0 X bβ = X0 y [4.63]
Če je matrika koeficientov (X0 X) polnega ranga, dobimo rešitve sistema enačb na enostaven način. Levi
in desno stran enačbe od leve pomnožimo z inverzo matrike koeficientov (X0 X)−1 , kot je nakazano v
enačbi 4.75.
−1 0
X0 X X0 X βb = X0 X −1 X y [4.64]
Na levi strani dobimo samo vektor ocen za parametre. Na desni strani ena čbe 4.76 pa je razvidno, kako
poiščemo rešitve. Prikazani način je praviloma računsko zelo zahteven ter numerično nestabilen (obču-
tljiv). Uporabljamo ga predvsem pri učenju, ko uporabljamo manjše primere. Pogosto pa v živinoreji
uporabimo računsko manj zahtevne algoritme za reševanje sistema ena čb.
−1
b
β = X0 X X0 y [4.65]
b V primeru minimuma
Delo bi končali šele, ko bi poiskali druge parcialne odvode in jih izvrednotili pri β.
b
je vrednost drugih odvodov v točki β pozitivna.

∂ y0 y − 2β0 X0 y + β0 X0 Xβ ∂ (−2X0 y + 2X0 Xβ)
= = 2X0 X [4.66]
∂β∂β0 ∂β0
Pri sistemu s polnim rangom je drugi odvod (X0 X) b pozitiven.

β=β
Izračunjamo še pričakovane vrednosti za rešitve sistema enač (enačba 4.67)!

b =
E β [4.67]
Namesto rešitev vstavimo desno stran iz enačbe 4.76.

−1
=E X0 X X0 y = [4.68]
81
82 Biometrija
Prvi del izraza v enačbi 4.68 je konstantna, saj množimo samo matriko dogodkov, katerih vsebina je po
izvedbi poskusa znana - torej konstantna. Tako lahko konstanto izpostavimo, kot prikazujemo v ena čbi
4.69. Premisliti moramo samo o pričakovanih vrednostih opazovanj v vektorju y.
−1
= X0 X X0 E (y) =
| {z } [4.69]
konstanta
−1
= X0 X X0 E (Xβ + e) = [4.70]
−1
= X0 X X0 E (Xβ) + E (e) = [4.71]
−1
= X0 X X0 Xβ = [4.72]
=β [4.73]
b
Izračunjamo še pričakovane vrednosti (enačba 4.74) za rešitev β.
−1
var b
β = var (X0 X)−1 X0 y = X0 X X0 var (y) X (X0 X)−1 = (X0 X)−1 X0 Iσ2e X (X0 X)−1 =
| {z }
konstanta [4.74]
= (X0 X)−1 (X0 X) (X0 X)−1 σ2e = (X0 X)−1 σ2e
b Iz inverze matrike koeficientov

Iz slednjega lahko izračunamo standardno napako za ocene parametrov β.
vzamemo pripadajoči diagonalni element in izračunamo kvadratni koren. Rezultat še pomnožimo s
standardnim odklonom (σe ).
4.3.5 Rešitev sistema enačb
Poskusimo dobiti rešitev sistema enačb 4.63 za metodo najmanjših kvadratov. Najprej se bomo poslužili
kar matrične oblike zapisa sistema enačb prav zaradi preglednosti. Opisani algoritem se je predstavnik
tako imenovanih direktnih metod.
V primeru, da je sistem enačb (matrika koeficientov) polnega ranga, lahko sistem rešimo tako, da v 4.63
obe strani enačbe pomnožimo z leve z inverzo matrike korficientov. Pri matrikah moramo biti pozorni, s
katere strani množimo enačbo. One strani morata biti množeni iz iste strani.
−1
X0 X X0 X βb = X0 X −1 X0 y [4.75]
Na levi strani imamo zmnožek inverzne matrike koeficientov (X0 X)−1 in matrike koeficientov (X0 X),
ki da identično matriko I. Zmnožek identične matrike I in vektorja z ocenami parametrov β b je kar b
β,
ki ostane na levi strani enačbe. Desne strani pa nimamo kaj preurejati. Tako smo dobili izraz 4.76, ki
ponazarja izračun
−1
b
β = X0 X X0 y [4.76]
Pri nepolnem rangu pa rešitve dobimo s pomočjo splošne inverze 4.77. V tem primeru pa dobimo lahko
zelo različne rešitve, saj je splošnih inverz neskončno mnogo in prav toliko je tako tudi rešitev. Pri
82
Biometrija 83
podajanju rezultatov pač navajamo samo rezultate, ki niso odvisni od izbrane splošne inverze. Dobimo
jih s tako imenovanimi ocenljivimi funkcijami.
−
b
β = X0 X X0 y [4.77]
Primer 1 Vzemimo podatke v tabeli ...To so podatki za mladice, za za četek pa nastavimo sistem enačb
za debelino hrbtne slanine. Predpostavimo naslednji model (4.78).
yi j = µ + Pi + bxi j + ei j [4.78]
Privzemimo predpostavke, ki so pri metodi najmanjših kvadratov potrebne. Meritve in ostanki morajo
biti identično in neodvisno porazdeljeni, kar je razvidno iz 4.79.
yi j ∼IID(µ + Pi + bxi j , σ2e ) [4.79]
Sistem enačb lahko nastavite s pomočjo matrike dogodkov X, vektorja opazovanj y in vektorja z ocenami
b Sistem enačb nastavite po zgledu v enačbi 4.63.
parametrov β.
    
23 11 12 2300.3 b
µ 281
 11 1092.1   b   144 
 11 0   P1 =  [4.80]
 12 0 12 1208.2   P
b2   137 
2300.3 1092.1 1208.2 129322.79 b
b 30422.4
To je sistem enačb s štirimi neznankami in štirimi enačbami. Pogumni lahko pomnožite levo stran in
začnete z reševanjem enačb. Tisti, ki dajejo prednost ugodju in sodobnim orodjem, bodo uporabili
Žal so enačbe med seboj odvisne. Tretja enačba je razlika med prvo in drugo enačbo.
•
Primer 2 Praviloma pri neodvisnih spremenljivkah odštejemo povpre čje ali pa zaokrožimo na vre-
dnost, ki je blizu povprečja. Po živinorejsko temu preprosto rečemo, da korigiramo na povprečje oziroma
na izbrano vrednost. Poskusimo torej model 4.81, v katerem korigiramo na 100 kg.
yi j = µ + Pi + b(xi j − 100) + ei j [4.81]
Ponovno predpostavimo, da so meritve in ostanki porazdeljeni identi čno in neodvisno, kar je razvidno iz
4.82.
yi j ∼IID(µ + Pi + b(xi j − 100), σ2e ) [4.82]
Del sistem enačb 4.83, ki pripada ocenam za srednjo vrednost µ in za vpliva pasme 11 (P 1 ) in 22 (P2 ),
je enak prejšnjemu v enačbi 4.80. Spremenita se zadnja vrstica in zadnji stolpec v matriki koeficientov
in zadnji element v vektorju opazovanj.
    
23 11 12 0.3 b
µ 281
 11 11 0   b
−7.9   P1   144 
 =  [4.83]
 12 0 12 8.2   Pb2   137 
0.3 −7.9 8.2 223.79 b
b −137.7
83
84 Biometrija
4.4 Metoda tehtanih najmanjših kvadratov
Model, ki ga lahko obdelamo z metodo tehtanih najmanjših kvadratov bomo prikazali kar v matri čni
obliki. Tako imamo zajeto veliko modelov in v nekaj simbolih zajeta vsa najpomembnejša pravila. Z
metodo tehtanih kvadratov bomo obdelali samo podatke, za katere lahko uporabimo sistematski model
(enačba 4.84). V naključnem delu modela je torej samo ostanek, ki je edini vir variabilnosti.
y = Xβ + e [4.84]
Opazovanja v vektorju y so normalno porazdeljena (ena čba 4.85). Pravzaprav bi lahko izračunali rešitve
tudi pri drugih porazdelitvah, vprašanje pa je, kaj bi nam take rešitve pomagale. Torej bomo metodo
izbrali, ko bo porazdelitev primerna: normalna ali pa se približa normalni porazdelitvi toliko, da lahko
zanemarimo napako. Pričakovana vrednost je določena s sistematskim delom modela: Xβ. Varianca pa
je heterogena, kar pomeni, da opazovanja niso enako zanesljivo merjena.

y ∼ N Xβ, Σ⊕ σ2i [4.85]
Matriko varianc in kovarianc za ostanek smo zapisali kot direktno vsoto (ena čba 4.86), ki smo jo nakazali
s simbolom Σ⊕ . Direktno vsoto v našem primeru predstavlja diagonalna matrika, elementi na diagonali
pa so posamezne variance σ2i , ki predstavljajo zanesljivost merjenja posameznih meritev. V matriki
enačbe 4.86 imamo tri različne komponente: σ21 ,σ22 in σ23 .
 
σ21

 σ22 

 σ21 
 
R = Σ⊕ σ2i =  ..  [4.86]
 . 
 
 σ23 
σ21
Iz matrike varianc in kovarianc za ostanek (R) je tudi razvidno, da so kovariance - nediagonalni elementi
- enake 0. Torej morajo biti meritve neodvisne. Z drugimi besedami: živali naj ne bi bile sorodne, ali
iz istih gnezd, istih hlevov ... Meritve pri sorodnikih so genetsko povezane, vpliv na meritve ima lahko
skupno okolje v gnezdu ali skupno okolje v hlevu. Kadar te vplive uravnotežimo s posebnim na črtom
poskusa, potem jih lahko tudi zanemarimo. Predno pa naredimo ta usodni korak, pa moramo preveriti,
če je uravnoteženost zadostna.
4.4.1 Ilustracija metode tehtanih najmanjših kvadratov
Primeri meritev z različno natančnostjo

Analiza vrednosti z različno standardno napako ocene
4.4.2 Izpeljava funkcije pri metodi tehtanih najmanjših kvadratov
Tudi pri izpeljavi metode tehtanih najmanjših kvadratov bomo uporabili enostavni model 4.87. Razlika
med modeloma, primernima za metodo najmanjših kvadratov (OLS, 4.8) in metodo tehtanih najmanjših
kvadratov (WLS, 4.87), se pokaže šele pri opisu strukture varianc.
yi j = µ + Ai + bxi j + ei j [4.87]
Tako sta pričakovani vrednosti v obeh modelih (enačbi 4.9 in 4.88) enaki: predstavljeni sta s sistematskim
delom modela. Pri OLS so ostanki identično in neodvisno porazdeljeni (4.9), pri WLS pa pričakujemo
84
Biometrija 85
heterogene variance med posameznimi nivoji pri vplivu A. Varianco za ostanek tako dodatno ozna čimo
z indeksom vpliva, ki povzroča heterogenost. V našem primeru (4.88) je to indeks i od vpliva A.
yi j ∼IID(µ + Ai + bxi j , σ2i ) [4.88]
Ostanki, in s tem tudi meritve, sedaj niso več enakovredni. Ene meritve so bolj zanesljive in bi jim pri
izvrednotenju radi dali tudi večji pomen - večjo težo. Drugim meritvam pa manj verjamemo, ker imajo
večji standardni odklon - z drugimi besedami - so manj natan čno izmerjene. Pri izvrednotenju bi jih tako
radi manj upoštevali. Sedaj moramo najti še primerno težo za posamezne meritve in jih potem dati na
skupni imenovalec. Natančnost merjenja prikazujemo z merami razpršenosti, torej varianco in standardni
odklon. Za standardizacijo ostankov je primeren standardni odklon (4.89).

ei j yi j − E yi j
i j = = [4.89]
σi σi
Tako pridobljene standardizirane ostanke smo označili z grško črko (4.89), prav tako bomo z odebeljeno
grško črko (4.90) označili standardizirane ostanke, razporejene v vektor.

0 = i j = 11 12 · · · i j · · · pn p [4.90]
Standardizirani ostanki (4.91) imajo pričakovano vrednost 0 in homogeno varianco 1.
i j ∼IID(0, 1) [4.91]
Iz enačbe 4.89 vidimo, da so elementi vektorja 0 standardizirani ostanki. V enačbi 4.92 prikazujemo te
standardizirane ostanke v matrični obliki, kot produkt ostankov in diagonalne matrike, katere diagonalni
elementi so inverzne vrednosti standardnih odklonov. Sliši se precej komplicirano. Veliko bolj boste
razumeli produkt, če vektor in matriko pomnožite. Ste dobili vektor standardiziranih odklonov?
 
σ−1
1
 σ−1 
 1 
 .. 
ei j  . 
0 = = e11 e12 · · · ei j · · · e pn p   [4.92]
σi  σ−1 
 i 
 .. 
 . 
σ−1
p
Vektor v enačbi 4.92 je vektor ostankov e, matriko pa bomo označili z L−1 . Oznaka za matriko L
pogosto uporabimo za spodnjo trikotno matriko. V našem primeru nimamo trikotne matrike, ampak
samo diagonalno. Če pa bi imeli bolj splošni model, pa bi ta matrika bila trikotna matrika, ki bi imela
od nič različne elemente na diagonali in pod diagonalno (spodnja trikotna matrika). Tako se nam zdi
primerno, da oznako prilagodimo bolj splošnemu primeru.
0 = e0 L−1 [4.93]
Sedaj imamo pripravljeno vse, da izračunamo tehtano vsoto kvadratov za ostanek (4.94). Pri tem potre-
bujemo standardizirane ostanke v vektorju .
RS S = 0 = [4.94]
85
86 Biometrija
Zamenjajmo vektorja z desno stranjo enačbe 4.93. Pri tem ne pozabite izraz ustrezno transponirati!
= e0 L−1 ()0 e = [4.95]
Pomnožimo najprej matriki L−1 ()0 (enačba 4.96).
  
σ−1
1 σ−1
1
 σ−1  σ−1 
 1  1 
 ..  .. 
 .  . 
   [4.96]
 σ−1  σ−1 
 i  i 
 ..  .. 
 .  . 
σ−1
p σ−1
p
Dobimo inverzo matrike varianc in kovarianc za ostanek (4.97). Struktura je enostavna: matriki R in
njena inverza sta diagonalni, elementi na diagonali pa so odvisni od tega, v katerih pogojih je bila meritev
opravljena. Zanesljivost meritev oziroma ostankov je tokrat ponazorjena z variancami, ki so specifi čne
za posamezne nivoje pri vplivu A.
 
σ−2
1
 σ−2 
 1 
 .. 
 . 
  = R−1 [4.97]
 σ−2 
 i 
 .. 
 . 
σ−2
p
Matriko lahko vstavimo v enačbo 4.95. Rezultat v enačbi 4.98 razločno pokaže, da pri računanju vsote
kvadratov “opravimo” tehtanje informacij z inverzo matrike varianc in kovarianc za ostanek R.
RS S = e0 R−1 e [4.98]
Izpišimo vektorja ostankov in inverzo matrike R (4.99)!
  
σ−2
1 e11
 σ−2  e12 
 1  
 ..  .. 
 .  . 
e11 e12 · · · ei j · · · e pn p    [4.99]
 σ−2   ei j 
 i  
 ..   .. 
 .  . 
σ−2
p e pn p
4.4.3 Izpeljava metode tehtanih najmanjših kvadratov v skalarni obliki
Vsoto kvadratov za ostanek pri metodi tehtanih najmanjših kvadratov v skalarni obliki (4.100) lahko
dobimo z množenjem vektorjev in matrike v enačbi (4.99).
!2
X ei j 2 X yi j − E yi j
RS S == = [4.100]
ij
σi ij
σi
86
Biometrija 87

V enačbo vstavimo izraz za pričakovano vrednost opazovanj E yi j in poenostavimo zapis pri vsoti
(4.101).
X 2
RS S = σ−2
i yi j − µ − Ai − bxi j [4.101]
ij
Sedaj smo že dobili funkcijo za vsoto kvadratov v taki obliki, da ji bomo kos. Poiskati ji moramo mi-
nimun, zato moramo najprej poiskati vse parcialne odvode po neznanih parametrih. Pri metodi tehtanih
najmanjših kvadratov (WLS) bomo kakšen korak presko čili. Če vam bo izpeljava delala preglavice, si
pomagajte z izpeljavo pri metodi najmanjših kvadratov (OLS). Postopka sta si zelo podobna. V funkciji
za WLS (4.101) imamo dodatni člen σ−2i , ki ga obravnavamo kot konstanto.
Najprej bomo odvajali funkcijo po neznanem parametru µ (4.102), ki predstavlja srednjo vrednost.
P 2
∂ σ−2
i yi j − µ − Ai − bxi j
ij
[4.102]
∂µ
Odvod v enačbi 4.103 bomo morali najprej izenačiti z 0.

X
2σ−2
i yi j − µ − Ai − bxi j (−1) [4.103]
ij
Namesto parametrov dobimo ocene, označene s strešico, in delimo obe strani s konstanto 2. Ena čbo
4.104 bomo še malo preuredili.
X X X X
− i yi j +
σ−2 σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = 0 [4.104]
ij ij ij ij
Člene z neznanimi ocenami zadržimo na levi strani ena čbe, na desno stran pa prenesemo preostali člen,
ki predstavlja tehtano vsoto opazovanj. Dobili smo prvo ena čbo (4.105) v sistemu enačb za metodo
tehtanih najmanjših kvadratov.
X X X X
σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = i yi j
σ−2 [4.105]
ij ij ij ij
Odvajati moramo še po vseh parametrih vpliva A. Pri metodi najmanjših kvadratov smo se nau čili, da
lahko odvajamo kar po parametru Ai0 , ki nam bo predstavljal vse parametre pri vplivu A. Na koncu pa
izpeljemo enačbe za vse parametre vpliva A z indeksi i 0 = 1, 2, ..., p. Odvajajmo torej po parametru A i0
(enačba 4.106).
P 2
∂ σ−2
ij
[4.106]
∂Ai0
Pri odvodu imamo dve možnosti. Pri prvi možnosti, nakazani v ena čbi 4.107 zgoraj, je vpliv pri meritvi
(Ai ) isti kot parameter, za katerega iščemo enačbo (Ai0 ) in smo po njem odvajali. Torej sta indeksa enaka
i = i0 . Pri drugi možnosti, nakazani v enačbi 4.107 spodaj, vpliv Ai0 , za katerega iščemo enačbo, ni
prisoten pri meritvah iz skupine Ai . Indeksa sta torej različna i , i0 , osvod je enak 0 in nas ne zanima
več.
X
(−1); k jer i = i0
2σ−2
i yi j − µ − Ai − bxi j [4.107]
0; k jer i , i0
ij
87
88 Biometrija
Nadaljujemo torej samo s prvo možnostjo. Ponovno ena čbo izenačimo z 0, parametri postanejo ocene
parametrov in delimo obe strani s konstanto 2. Varianca σ 2i je sicer tudi konstantna vrednost, a se od
meritve do meritve razlikuje, zato se je ne moremo znebiti.
X X X X
− i yi j +
σ−2 σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = 0 [4.108]
ij ij ij ij
Enačbo 4.108 preuredimo v 4.109 tako, da na levi strani zadržimo člene z neznankami - ocenami para-
metrov, na desno pa prenesemo preostali člen s tehtanimi meritvami.
X X X X
σ−2
i bµ+ σ−2 b
i Ai + σ−2 b
i bxi j = i y1i
σ−2 [4.109]
ij ij ij ij
Zgornja enačba (4.109) je splošna in predstavlja vse enačbe za parametre pri vplivu A. Razvijmo torej
enačbo za vpliv A1 ! V enačbi 4.109 indeks i nadomestimo povsod z indeksom 1 (ena čba 4.110). Isto
postopajmo še za indekse i = 2 (4.110) in zadnji indeks i = p A (4.112). Za ostale indekse lahko poskusite
sami.
X X X X
σ−2
1 bµ+ σ−2 b
1 A1 + σ−2 b
1 bx1 j = 1 y1 j
σ−2 [4.110]
1j 1j 1j 1j
X X X X
σ−2
2 bµ+ σ−2 b
2 A2 + σ−2 b
2 bx2 j = 2 y2 j
σ−2 [4.111]
2j 2j 2j 2j
X X X X
σ−2
pA b
µ+ σ−2 b
pA A pA + σ−2 b
pA bx pA j = pA y pA j
σ−2 [4.112]
pA j pA j pA j pA j
Tako smo iz splošne enačbe 4.109 dobili kar p A novih enačb: po eno za vsak neznan parameter pri vlivu
A. Spomnite se tudi, da ste pri matematiki rekli, da za potrebujemo v sistemu toliko ena čb, kot imamo
neznank. Do sedaj smo našli eno enačbo za srednjo vrednost in p A enačb za vpliv A. Potrebujemo še
eno enačbo, saj model vsebuje še eno neznanko - regresijski koeficient b. Tako moramo odvajati še po
parametru b (4.113)
P 2
∂ σ−2
ij
[4.113]
∂b
X
2σ−2
i yi j − µ − Ai − bxi j −xi j [4.114]
ij
Odvod 4.114 izenačimo z 0, parametre spremenimo v ocene in delimo s konstanto 2 (ena čba 4.115).
X X X X
i yi j xi j −
σ−2 σ−2
i bµ xi j − σ−2 b
i Ai xi j − σ−2 b 2
i bxi j = 0 [4.115]
ij ij ij ij
Nazadnje preuredimo enačbo tako kot vse doslej. Nova enačba 4.116 predstavlja zadnjo enačbo, ki jo
potrebujemo za nastavitev sistema enačb.
X X X X
σ−2
i bµ xi j + σ−2 b
i Ai xi j + σ−2 b 2
i bxi j = i yi j xi j
σ−2 [4.116]
ij ij ij ij
88
Biometrija 89
Xberimo skupaj enačbe 4.105, 4.110, 4.111, ..., 4.112, 4.116. Priporočam, da jih lepo podpisujete. Iz
zbirke enačb pa nastavimo sistem enačb (4.117) in ga v našem primeru nekoliko preuredimo (4.117).
 P P P P P   P 
σ−2
i σ−2
1 σ−2
2 ··· σ−2
pA i xi j
σ−2
i yi j
σ−2
 ij 1j 2j pA j ij   ij
 P P P   P 
σ−2 σ−2 0 ··· 0 σ−2 x b
µ  
σ−21 y1 j 
 1 1 1 1 j 
 1j 1j 1 j  Ab1  
 P P P −2    1 j
P −2 
 σ−2 0 σ−2 ··· 0 σ2 x2 j     σ2 y2 j 
 2 2
 Ab2   
 2j 2j 2j
 = 2j 
[4.117]
 .. .. .. .. .. ..  ..   ..
 . . . . . .  .   
    P −2 . 
 P .. P P −2  AbpA  


σ pA y pA j 
 σ−2
pA 0 0 . σ−2
pA σ pA x pA j   
 pA j  b
b  pA j 
 P P P PpA j pP
Aj
2
 P
σi yi j xi j
−2
i xi j
σ−2 1 x1 j
σ−2 2 x2 j · · ·
σ−2 pA x pA j
σ−2 σ−2i x ij ij
ij 1j 2j pA j ij
 P   P 
nσ−2 n1 σ−2 n2 σ−2 ··· nPA σ−2 i xi j
σ−2
i 1 2 pA
ij i yi j
σ−2
 P    ij
P 
 n1 σ−2 n1 σ−2 0 0 
 1 1 ··· σ−21 x1 j  b
µ  σ−21 y1 j 

 1 j  b  
 P −2  A1   1j
P 
 n2 σ−2 0 n2 σ−2 ··· 0 σi2 x2 j     σ−22 y2 j 

 2 2
 Ab2  
 2j  = 2j 
[4.118]
 .. .. .. .. .. ..  ..   ..
 . . . . . .  .   
    P −2 . 
 .
.. P −2  b
A pA  


σ pA y pA j 
 nPA σ−2 pA 0 0 nPA σ−2
pA σ pA x pA j   
 pP
Aj
 b
b  pA j
P 
 P −2 P −2 P −2 P −2 
σi xi j σ1 x1 j σ2 x2 j · · · σ PA x pA j σi xi j
−2 2 σi yi j xi j
−2
ij 1j 2j pA j ij ij
Pri metodi tehtanih najmanjših kvadratov so vključeni primeri s heterogenimi variancami za ostanek
4.120. Te primere srečamo lahko pri izvedbi preizkusa v različnih okoljih, meritvami opravljenimi z
različnimi merili ali metodami, pri večlasnostnih modelih. Pri slednjih lahko med meritvami na isti enoti
(živali) obstaja podobnost - kovarianca 4.121. Model je še vedno samo sistematski 4.119, tudi druge
predpostavke iz metode najmanjših kvadratov še vedno držijo.
y = Xβ + e [4.119]

y1 Iσ2e1 0
y= R= [4.120]
y2 0 Iσ2e2

y1 Iσ2e1 Iσe12
y= R= [4.121]
y2 Iσe12 Iσ2e2
Porazdelitev lahko ponazorimo tudi v obliki, prikazani v ena čbi 4.122.
y ∼ (Xβ, R) [4.122]
Če hočemo podatke skupaj obdelati, moramo ostanke dati na skupni imenovalec - jih standardiziramo
(enačba 4.123).
ε1 = e1 σ−1
e1 ε2 = e2 σ−1
e2 [4.123]
89
90 Biometrija
Pri dvolastnostni analizi tudi poiščemo kvadratni koren matrike varianc in kovarianc med lastnostmi.
Operacijo 4.124 imenujemo Cholesky razčlenitev, standardizirane ostanke pa dobimo po enačbi 4.125.
  
σ e1 0 σ e1 σe12 /σe1
σ2e1 σe12 r
2  
r
2  = LL0 [4.124]
R0 = =
σe12 σ2e2 σe12 /σe1 2 σ2e2 − σe12 /σe1 0 2 σ2e2 − σe12 /σe1
ε = L−1 e [4.125]
Vrnimo se k enolastnostni analizi iz 4.120, kjer smo standardizirane ostanke dobili v 4.123. Zastavimo
vsoto kvadratov (enačba 4.126).

0 0 ε1
ε1 ε2 = ε01 ε1 + ε02 ε2 = [4.126]
ε2
Uporabimo enačbi v 4.123 in preuredimo (4.127).
= e01 σ−1
e1 σe1 e1 + e2 σe2 σe2 e2 = e1 Iσe1 e1 + e2 Iσe2 e2 =
−1 0 −1 −1 0 −2 0 −2
[4.127]
Vsoto ostankov lahko preuredimo v levi in desni produkt matrike varianc in kovarianc z vektorjem ostan-
kov (4.128). Tistim, ki si te preureditve ne predstavljate povsem jasno, priporo čamo, da vektorje in
matrike pomnožite. Dobili boste vsoto v enačbi 4.127.

Iσ−2
e1 0 e1
= e01 e02 = [4.128]
0 Iσ−2
e2 e2
Iz enačbe 4.128 je razvidno, da se med ostanke e vrine inverza matrike R. Tako dobimo vsoto kvadratov
za metodo tehtanih najmanjših kvadratov. Ker ostanki niso enako natan čno merjeni, jih moramo stehtati.
Pomen (težo) predstavlja varianca: bolj je neka meritev površno zmerjena, torej je manj zanesljiva,
manjšo težo ji moramo dati pri obračunu. To dosežemo prav z množenjem z inverzo. Matriko R −1 dobili
iz 4.127 standardnih odklonov, ko smo standardizirali ostanke.
e0 R−1 e = [4.129]
Preuredimo vsoto kvadratov tako, da ostanke nadomestimo z razliko med vektorjem opazovanj (y) in
njihovo pričakovano vrednostjo (Xβ). Dobimo enačbo 4.130.
= (y − Xβ)0 R−1 (y − Xβ) = [4.130]
Transponirajmo prvi člen v enačbi.

= y0 − β0 X0 R−1 (y − Xβ) = [4.131]
Preurejeno enačbo 4.131.
= y0 R−1 y − y0 R−1 Xβ − β0 X0 R−1 y + β0 X0 R−1 Xβ =

| {z } | {z } [4.132]
skalar skalar
= y0 R−1 y − 2β0 X0 R−1 y + β0 X0 R−1 Xβ [4.133]
90
Biometrija 91
Enačbo 4.129 smo preuredili. Sedaj pa poiščimo odvode na neznane parametre v vektorju β(enačba
4.134 ).

∂ y0 R−1 y − 2β0 X0 R−1 y + β0 X0 R−1 Xβ
= −2X0 R−1 y + 2X0 R−1 Xβ [4.134]
∂β
Odvode izenačimo z vektorjem 0, parametre nadomestimo z ocenami in delimo s konstanto 2 4.135.
b=0
−X0 R−1 y + X0 R−1 Xβ [4.135]
Preuredimo (4.136)! Leva stran preurejene enačbe predstavlja matriko koeficientov ali matriko varianc
in kovarianc, desna stran pa predstavlja vsoto tehtanih opazovanj, ki pripadajo posameznim parametrom.
b = X0 R−1 y
X0 R−1 Xβ [4.136]

b - rešitve sistema - dobimo tako, da desno stran
Če je sistem polnega ranga, lahko ocene parametrov β
od spredaj pomnožimo z inverzo matrike koeficientov [4.2.13].
−1
b
β = X0 R−1 X X0 R−1 y [4.137]
Tako kot pri prvi metodi se moramo tudi tu prepričati,

da smo našli minimum. Zato potrebujemo druge
b
parcialne odvode, ki jih izvrednotimo v točki rešitev β .
h −1 i −1
E b
β = E X0 R−1 X X0 R−1 y = X0 R−1 X X0 R−1 E (y) =
| {z } [4.138]
konstanta
−1
= X0 R−1 X X0 R−1 Xβ = β [4.139]

−1
Var XR X XR y =
0 −1 0 −1
| {z } [4.140]
konstanta
h −1 0 −1 i
= Cov X0 R−1 X X R−1 y, y0 R−1 X X0 R−1 X = [4.141]
−1 −1
X0 R−1 X X0 R−1 var (y) R−1 X X0 R−1 X =
| {z } | {z } [4.142]
konstanta konstanta
−1 −1
= X0 R−1 X X0 R−1 RR−1 X X0 R−1 X = [4.143]
−1
= X0 R−1 X [4.144]
4.5 Metoda splošnih najmanjših kvadratov
Kadar pa se ukvarjamo z mešanimi modeli, imamo več odklonov in sicer za vsak naključni vpliv in
ostanek. V teh primerih jih poimenujemo po naključnih vplivih in po ostanku, seveda pa se moramo
takrat poslužiti zahtevnejše metode - metode splošnih najmanjših kvadratov.
91
92 Biometrija
4.5.1 Izpeljava metode v skalarni obliki
y = Xβ + Zu + ε [4.145]
y ∼ N (Xβ, V) [4.146]
V = ZGZ0 + R [4.147]
e0 V−1 e = y0 V−1 y − 2β0 X0 V−1 y + β0 X0 V−1 Xβ [4.148]

∂ y0 V−1 y − 2β0 X0 V−1 y + β0 X0 V−1 Xβ
= −2X0 V−1 y + 2X0 V−1 Xβ [4.149]
∂β
b = X0 V−1 y
X0 V−1 Xβ [4.150]

E β b =β [4.151]

b = X0 V−1 X −1
var β [4.152]

cov y, u0 = cov Xβ + Zu + ε, u0 = cov Zu, u0 = ZG [4.153]
Splošna formula za napoved naključne spremenlivke, ko so opazovanja normalno porazdeljena:

E (u | y) = cov u, y0 • var−1 (y) • (y − E (y)) [4.154]
Sedaj to preizkusimo na primeru za napoved plemenske vrednosti ( û). Pri tem bomo uporabili podatke -
opazovanja, zbrane v vektorju y.
û = E (u | y) = GZ0 V−1 (y − Xβ) = [4.155]
4.6 Metoda največje zanesljivosti
Funkcija
yanesljivosti
Predpostavljena
poraydelitev
Vyor;na distribucija
Slika 4.5: Funkcija zanesljivosti
a) diskretne spremenljivke

` (β, u | y) = f (y | β, u) = P Y1 = y1 , Y2 = y2 , ..., Yn = yn, [4.156]
b) zvezne spremenljivke
` (β, u | y) = f (y | β, u) = P (y1 ≤ Y1 < y1 + dy1 y2 ≤ Y2 < y2 + dy2 , . . . , yn ≤ Yn < yn + dyn ) [4.157]
92
Biometrija 93
4.6.1 Kako poiščemo maksimum neke funkcije?
1) Funkcija ima v dani točki maksimum, če so vsi parcialni odvodi v dani točki enaki 0.
2) Hkrati je vrednost drugih odvodov negativna.
4.6.2 Spremenljivke z naravno porazdelitvijo.
y = Xβ + Zu + e [4.158]
E (y) = Xβ [4.159]
V = R + Z GZ0 [4.160]
y ∼ N (Xβ, V) [4.161]
Pri tej metodi moramo poznati porazdelitveno funkcijo, ni pa nujno, da je to normalna porazdelitev.
Normalna porazdelitev je zanimiva zato, ker so metodo že dodobra obdelali: obrazložili in dokazali z
algebro ter napisali programske pakete za obdelavo podatkov. Nam ostane le, da izpeljavo ponovimo iz
dveh namenov: razumeti metodo, da jo pravilno uporabimo ter zaupamo rezultatom, in slediti postopku,
da morda razvijemo metodo za še neznani primer.
Za živinorejce je nadvse privlačno, da metoda dopušča neslučajne vzorce. Teh imamo na pretek: vse
naše populacije so selekcionirane na gospodarsko pomembne lastnosti in ravno te podatke z najve čjim
zanimanjem obdelujemo. Edini pogoj je, da so podatki, na osnovi katerih je bil izbor (selekcija) narejen,
zbrani v vektorju y. Pa še tu je izjema, sicer redka, pa vendar: če pa lastnosti, upoštevane pri izboru, niso
v nikakršni povezavi (med njima ni korelacije) z opazovano lastnostjo, potem teh ni potrebno uporabiti
pri obdelavi.
Slučajna spremenljivka y je porazdeljena po naravnem porazdelitvenem zakonu. Njena porazdelitvena
funkcija ima splošno obliko prikazano v enačbi 4.162.
p −1
1 0
f (y) = (2π)n | V | exp − y − E (y) V−1 y − E (y) [4.162]
2
Iz modela 4.158 razberemo, da želimo podatke opisati z lokacijskimi parametri β, za parametre disperije
(komponente varianc in kovarianc) pa smo predpostavili, da so znane. Tako bomo vektorju neznanih
parametrov θ (mala črka theta) priredili samo vektor β. Ker pa želimo postopek posplošiti, bomo za
vektor neznanih parametrov uporabili oznako θ.
Funkcija zanesljivosti na pove, s kolikšno zanesljivostjo se neznani parametri nahajajo na lokaciji θ, če
je vse, kar o populaciji vemo, nanizano v vektorju opazovanj y.
p −1
1 0
l (θ | y) = f (y | θ) = (2π)n | V | exp − y − Xβ V−1 y − Xβ [4.163]
2
n 1 1 0
ln (l (θ | y)) = L (θ | y) = − ln (2π) − ln | V | − y − Xβ V−1 y − Xβ [4.164]
2 2 2
V literaturi boste našli tudi zapis [4.4.9] s znakom za sorazmerno (proportional) ” ∝ ”.

0
L (θ | y) ∝ ln (| V |) + y − Xβ V−1 y − Xβ [4.165]
Poiščimo maksimum funkcije! Poiskati moramo vse parcialne odvode in jih izena čiti z nič.
93
94 Biometrija
Prvi parcialni odvodi
∂L (y | θ)
= [4.166]
∂θ
0
∂ − n2 ln (2π) − 21 ln | V | − 21 y − Xβ V−1 y − Xβ
= = [4.167]
∂β
0
∂ − 2n ln (2π) + ∂ − 21 ln | V | + ∂ − 21 y − Xβ V−1 y − Xβ
= = [4.168]
∂β
0
∂ − 2n ln (2π) ∂ − 12 ln | V | ∂ − 12 y − Xβ V−1 y − Xβ
= + + = [4.169]
∂β ∂β ∂β
1 1
=0+0+ • 2X0 V−1 y − • 2X0 V−1 Xβ = X0 V−1 y − X0 V−1 Xβ [4.170]
2 2
b=0
X0 V−1 y − X0 V−1 Xβ [4.171]
b = X0 V−1 y
X0 V−1 Xβ [4.172]
b Sistematski vplivi so tako lahko

Dobili smo sistem normalnih enačb za oceno sistematskih vplivov β.
ocenjeni z metodo splošnih najmanjših kvadratov. Rezultati so najboljše linearne nepristranske ocene
(Best Linear Unbiased Estimator - BLUE). Lastnosti bomo dokazali kasneje v poglavju 4.5.
Matrika drugih parcialnih odvodov
Preveriti moramo, ali se v najdeni točki (rešitvi) res nahaja maksimum. Potrebujemo torej vse druge
parcialne odvode in jih izvrednotiti v točki b
θ - pri rešitvi sistema. Pri maksimalni vrednosti funkcije
morajo biti drugi odvodi negativni.

∂2 L (y | θ)
[4.173]
∂θ∂θ0 θ=θb

∂2 L (y | θ) ∂ X0 V−1 y − X0 V−1 Xβ
= = −X0 V−1 X [4.174]
∂β∂β0 ∂β0
Matrika X0 V−1 X je neodvisna od rešitev β.b Ker je matrika varianc in kovarianc, je pozitivno definitna.
Preprosto: matriko sestavljajo različne vsote kvadratov: le-te pa ne morejo biti negativne. Zaradi minusa
pred produktom matrik so vrednosti drugih odvodov negativne. Dokaz je torej uspel.
Informacijska matrika

∂2 L (y | θ) 0 −1
−E = E X V X = X0 V−1 X [4.175]
∂θ∂θ0
Matrika asimptotičnih (spodnja meja) varianc za ML ocene

−1 −1
∂2 L (y | θ)
−E = X0 V−1 X [4.176]
∂θ∂θ0 θ=θb
Spodnje meje varianc za ML ocene najdemo na diagonali inverze za matriko koeficientov. Nediagonalni
elementi so kovariance med ocenama za različna parametra.
94
Biometrija 95
4.6.3 Selekcijski indeks
Selekcijski indeks je napoved naključnih vplivov, ko so sistematski vplivi znani. Tako opazovanja pred
izvrednotenjem plemenskih vrednosti očistimo sistematskih vplivov (opravimo korekcijo na sistemat-
ske vplive), naključni del pa z ozirom na variance in kovariance razdelimo po naklju čnih vplivih. Za
selekcijski indeks uporabimo samo aditivni genetski del.
Posamezni element vektorja u je plemenska vrednost u i - plemenska vrednost za i-to žival. Vektor kova-
rianc med opazovanji y in ui je vektor cov(y, ui ), kar je stolpec matrike kovarianc C = ZG. Označimo
pričakovano vrednost vektorja opazovanj z µ i , potem je E(y) = Xβ . Odstopanje y − Xβ je naključna
spremenljivka s pričakovano vrednostjo (srednjo vrednostjo) 0
Linearna napoved (ocena) plemenske vrednosti za i-to žival je û i = b0 (y − Xβ). Vektor b vsebuje teže
za vsak par (yi - µi ). Teže, ki maksimirajo korelacijo med oceno plemenske vrednosti û i in plemensko
vrednostjo ui in minimirajo vsoto kvadratov za razliko û i − ui , so podane v enačbi 4.177. Matrika V
predstavlja matriko fenotipskih varianc in kovarianc, stolpi čni vektor c pa vseguje genotipske kovarianco
med plemensko vrednosjo za lastnost, ki jo želimo izboljšati, in meritvami. Če izvajamo selekcijo na več
lastnosti, potem imamo za vsako lastnost en vektor c, ki jih lahko združimo skupaj v matriko kovarianc
C. Ostanimo kar pri eni lastnosti.
Vb = c ⇒ b = V−1 c
[4.177]
(Henderson, 1963)
µ̂i = b0 (y − Xβ) = c0 V−1 (y − Xβ) = c0 V−1 (y − Xβ) [4.178]
Pri tem predpostavimo, da so variance in kovariance ter sistematski vplivi (β) znani. Če primer posplo-
šimo in združimo enačbe za izračun plemenskih vrednosti za več živali hkrati, ko le-te temeljijo na istih
opazovanjih, je razširitev enostavna.
û = B0 (y − Xβ) [4.179]
VB = C ⇒ B = V−1 C [4.180]
−1
û = B0 (y − Xβ) = C0 V−1 (y − Xβ) = GZ0 R + Z GZ0 (y − Xβ) [4.181]
Selekcijski indeks je najboljša linearna napoved (Best Linear Predictor - BLP) plemenske vrednosti,
matrike varianc in kovarianc R in G ter vetor sistematskih vplivov β so znani. Je hkrati tudi najboljša
napoved (Best Prediktor - BP) med vsemi možnimi napovedmi, če so tako opazovanja v vektorju y kot
neznani parametri za naključne vplive v vektorju u porazdeljeni normalno (joint multivariate distribu-
tion).
Ker pa sistematski vplivi v β niso znani, smo jih nadomestili z ocenami 4.182. Tako dobimo najboljšo
linearno nepristransko napoved (Best Linear Unbiased Predictor - BLUP), če so ocene sistematskih
vplivov rezultat metode splošnih najmanjših kvadratov in so tako najboljše linearne nepristranske ocene
(BLUE).

b
û = C0 V−1 y − Xβ [4.182]
4.6.4 Sistem enačb mešanega modela
Matrika fenotipskih varianc in kovarianc V je pri večini primerov v živinoreji prevelika, da bi ji nepo-
sredno poiskali inverzo. Lahko pa izkoristimo pravilo 4.183. Ena čba nas sprva nekoliko prestraši, a ne
smemo obupati prehitro. Matriki R−1 in G−1 sta pogosto samo diagonalni ali kvečjemu blok-diagonalni
95
96 Biometrija
in ju je tako enostavno obrniti. Diagonalnim matrikam lahko poiš čemo inverzo kar na pamet, celo brez
računalnika. Matrika Z0 R−1 Z + G−1 pa je vedno manjša kot V in je zato manj dela za računalnik. Vedeti
moramo, da je izračun inverze računsko zelo zahtevna operacija.
−1 −1
V−1 = R + ZGZ0 = R−1 − R−1 Z Z0 R−1 Z + G−1 Z0 R−1 [4.183]
Sistem enažb mešanega modela bomo dobili tako, da bomo v sistemu normalnih ena čb 4.172 in formule
4.182 za izračun BLUP (u) zamenjali matriko V−1 z izrazom 4.183. Naredimo to najprej za drugo enačbo
4.182.
−1 0 −1
û = GZ0 R−1 − R−1 Z Z0 R−1 Z + G−1 ZR b
y − Xβ [4.184]

b od zadaj:
Razrešimo oklepaj tako, da pomožimo z GZ0 od spredaj in z izrazom y − Xβ

b − GZ0 R−1 Z Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
û = GZ0 R−1 y − Xβ b [4.185]
Izraz lahko najprej razširimo in sicer bomo na desni strani v drugem členu malo preuredili izraz pred
oklepajem. Zaradi preglednosti ga prikazujemo posebej v ena čbi4.186 .
GZ0 R−1 Z [4.186]
Sedaj pa se malo poigrajmo: matriko G pustimo zunaj, ostalo pa dajmo v oklepaj (ena čba 4.188). Produkt
je s tem ostal isti.

G Z0 R−1 Z [4.187]
S čaranjem še nismo zaključili. Če odvzamemo in dodamo isto matriko, potem se vrednost izraza v
oklepaju ne spremeni. Matrike morajo biti istega reda, da vsota obstaja. Sami preverite, da nismo
naredili nič napačnega!

G −G−1 + Z0 R−1 Z + G−1 [4.188]
Sedaj pa izraz 4.188 vstavimo nazaj v enačbo 4.185. Z enačbo 4.189 smo dobili ponovno priložnost, da
se poigramo z matrikami.

b − G −G−1 + Z0 R−1 Z + G−1 Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
û = GZ0 R−1 y − Xβ b [4.189]
V enačbi 4.190 smo preuredili člene tako, kot nam za nadaljevanje najbolj ugaja. Preverite, če je preure-
ditev korektna!

û = GZ0 R−1 b + GG−1 Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
y − Xβ b
−1 0 −1 [4.190]
−G Z0 R−1 Z + G−1 Z0 R−1 Z + G−1 ZR b
y − Xβ
V drugem in tretjem členu množimo matriko z njeno inverzo. Tako po izračunu dobimo poenostavljen
izraz v enačbi 4.191.

b + Z0 R−1 Z + G−1 −1 Z0 R−1 y − Xβ
û = GZ0 R−1 y − Xβ b − GZ0 R−1 y − Xβ
b [4.191]
96
Biometrija 97
Ker pa sta prvi in zadnji člen v enačbi 4.191 izraza enaka, se odštejeta in nova enačba 4.192 je že veliko
bolj pregledna.
−1
û = Z0 R−1 Z + G−1 b
Z0 R−1 y − Xβ [4.192]

Enačbo 4.192 smo nazadnje še od spredaj pomnožili z Z0 R−1 Z + G−1 .
−1
Z0 R−1 Z + G−1 û = Z0 R−1 Z + G−1 Z0 R−1 Z + G−1 b
Z0 R−1 y − Xβ
| {z } [4.193]
I
Na desni strani dobimo produkt matrike in njene inverze, kar zamenjamo z identi čno matriko I. Množenje
z identično matriko ničesar ne spremeni, zato smo jo tudi kar izpustili. Tako smo v ena čbi 4.194 dobili
drugo enačbo mešanega modela.

b
Z0 R−1 Z + G−1 û = Z0 R−1 y − Z0 R−1 Xβ [4.194]
Člene samo še preuredimo tako, da bo na prvem mestu člen s sistematskimi vplivi (β), na drugem člen s
naključnimi vplivi (u), na desni strani enačbe pa bomo zadržali tistega z opazovanji (y).

b + Z0 R−1 Z + G−1 û = Z0 R−1 y
Z0 R−1 Xβ [4.195]
Sedaj pa se lotimo še sistema normalnih enačb 4.172. Inverzo matrike fenotipskih varianc in kovarianc
V−1 nadomestimo z desnim izrazom v enačbi 4.183. Tako dobljena enačba 4.196 na prvi pogled izgleda
zelo kompleksna in razvlečena. Ko pa si stvari malo podrobneje pogledamo, pa se izkaže, da je lažje
opraviti vsa množenja in inverze v zamenjanem izrazu, kot pa poiskati inverzo matrike V.
−1 0 −1
X0 R−1 − R−1 Z Z0 R−1 Z + G−1 ZR b = X0 R−1 − R−1 Z Z0 R−1 Z + G−1 −1 Z0 R−1 y[4.196]
Xβ
Delo pa si bomo olajšali, če enačbo 4.196 malo preuredimo. Pričnimo izraze na desni in levi razstavljati.
Na levi strani enačbeod spredaj množimo z matriko dogodkov X 0 ter od zadaj s členom Xβ. b Na desni
strani enačbe od spredat tudi množimo z matriko dogodkov X , od zadaj pa z vektorjem opazovanj y.
0
−1 −1
b 0 R−1 Z Z0 R−1 Z + G−1
X0 R−1 Xβ−X b = X0 R−1 y−X0 R−1 Z Z0 R−1 Z + G−1
Z0 R−1 Xβ Z0 R−1 y[4.197]
Pazite! Čeprav imamo na obeh straneh od spredaj isto matriko (X 0 ), pa jih ne moremo pokrajšati, kot smo
vajeni pri skalarni algebri. Matrika dogodkov nima inverze! Isto velja tudi za izraz X 0 R−1 , ki ga imamo
v vseh členih enačbe 4.197. Produkt nima inverze. To lahko uganemo že po tem, da je pravokotne in
ne kvadratne oblike. Pravokotne matrike pa nimajo inverze. Torej moramo še malo potrpeti in še naprej
premetavati matrike.
Zadnji člen na desni stranienačbe 4.197 prenesimo na levo stran enačbe 4.198. Zadnja dva člena na levi
−1 0 −1
imata sedaj enak produkt X R Z Z R Z + G
0 −1 0 −1 −1 Z R , ki ga lahko spredaj izpostavimo.
−1
b + X0 R−1 Z
X0 R−1 Xβ Z0 R−1 Z + G−1 b
Z0 R−1 y − Xβ = X0 R−1 y
| {z } [4.198]
û
V drugem členu enačbe 4.198 lahko na osnovi enačbe4.192 zamenjamo produkt, ki je posebej označen,
z vektorjem napovedi û . Enačba 4.199 je tako prva enačba v sistemu enačb mešanega modela.
b + X0 R−1 Zû = X0 R−1 y

X0 R−1 Xβ [4.199]
97
98 Biometrija

b + Z0 R−1 Z + G−1 û = Z0 R−1 y
Z0 R−1 Xβ [4.200]
Zaradi preglednosti smo ponovno navedli tudi drugo ena čbo mešanega modela 4.195. Ni potrebno veliko
spretnosti, da ju preuredimo v sistem enačb mešanega modela 4.201.

X0 R−1 X X0 R−1 Z b
β X0 R−1 y
= [4.201]
Z0 R−1 X Z R−1 Z + G−1
0
û Z0 R−1 y
Sistematski in naključni vplivi so lahko ovrednoteni istočasno s sistemom enačb mešanega modela, ki
ga je razvil Henderson (1973). Za katerikoli mešani linearni model dobimo ekvivalentne rezultate kot
pri sistemu normalnih enačb 4.172 in nato še po enačbi 4.192 za naključne vplive. Rešitve so najbolše
linearne nepristranske ocene (BLUE) pri sistematskih vplivih in najboljše linearne nepristranske napo-
vedi (BLUP) pri naključnih vplivih. Sistem enačb mešanega modela je sorazmerno enostavno nastaviti
in rešiti.
Sistem enačb mešanega modela nastavljamo v dveh korakih. Najprej nastavimo sistem in se pri tem
pretvarjajmo, da so vsi vplivi sistematski. Dobili bomo naslednji sistem:

X0 R−1 X X0 R−1 Z b
β X0 R−1 y
= [4.202]
Z0 R−1 X Z0 R−1 Z û Z0 R−1 y
Če nato primerjamo dobljeni sistem 4.202 s sistemom ena čb mešanega modela 4.201, vidimo, da moramo
sistematskim vplivom dodati še inverzo matrike varianc in kovarianc za naklju čne vplive - matriko G−1 .
4.7 Lastnosti ocen in napovedi
Rešitve za sistematke vplive so najboljše (Best), linearne (Linear) in nepristranske (Unbiased) ocene
(Estimator), značilnosti označimo na kratko s kratico BLUE.
Rešitve za naključne vplive so najboljše (Best), linearne (Linear) in nepristranske (Unbiased) napovedi
(Prediktor), značilnosti označimo na kratko s kratico BLUP.
Oznaki BLUE in BLUP označujeta lastnosti rešitev in ne metode, kot jih v žargonu pogosto uporabimo!
4.7.1 Linearne ocene in napovedi
b in û linearni kombinaciji opazovanj y!

Dokažimo, da sta β
−1
b=
β Z0 V−1 X X0 V−1 y
| {z } [4.203]
linearna kombinaci ja y
−1
û = GZ0 V−1 y − X X0 V−1 X X0 V−1 y
−1
= GZ0 V−1 I − X X0 V−1 X X0 V−1 y
−1 [4.204]
= GZ0 V−1 − V−1 X X0 V−1 X X0 V−1 y
| {z }
linearna kombinaci ja y
98
Biometrija 99
4.7.2 Ocene in napovedi so najboljše
[4.205]
Dokaz je malo manj atraktiven in ga bomo zaenkrat izpustili. Za tistega, ki ga pa želi vseeno spoznati,
pa naj predstavlja iziv.
Naslov poglavja ne drži popolnoma. Ocene in napovedi so najboljše med vsemi tistimi možnimi oce-
nami, kjer sta istočasno zadovoljeni tudi drugi dve karakteristiki: da so ocene linearne kombinacije opa-
zovanj in so hkrati nepristranske. Če popustimo pri slednjih dveh in se zadovoljimo s pristansko oceno ali
pa ubereremo nekoliko zahtevnejšo pot nelinearnih kombinacij, pa bomo lahko dobili celo boljše ocene.
4.7.3 Nepristranske ocene in napovedi
Nepristranost ocen preverimo z izračunom pričakovane vrednosti. Če je pričakovana vrednost ocene
oziroma napovedi enaka pričakovani vrednosti parametra,ki ga želimo oceniti, potem bo naš rezultat
nepristranski. Tako je nepristranska ocena za sistematske vplive (ena čba 4.206), ki smo jo dobili po
metodi splošnih najmanjših kvadratov.
−1
b
E β = E X0 V−1 X X0 V−1 y
−1 −1 [4.206]
= X0 V−1 X X0 V−1 E (y) = X0 V−1 X X0 V−1 Xβ = β
Tudi napoved plemenske vrednosti je nepristranska (ena čba 4.207).
h −1 0 −1 i
E (û) = E Z0 R−1 Z + G−1 ZR b =
y − Xβ
−1 0 −1
= Z0 R−1 Z + G−1 Z R E y − Xβ b = [4.207]
−1 0 −1
= Z0 R−1 Z + G−1 Z R Xβ − Xβ = 0
4.7.4 Ni vse najboljše, kar je BLUE ali BLUP
Pa le omenimo primer iz živinoreje, da bi se prehitro ne razveselili. Prav verjetno bo kdo izmed vas
našel službo v selekcijski službi. Tam se na veliko ukvarjamo z ocenjevanjem komponent (ko)variance,
ki je osnovana na vsotah kvadratov. Vsote kvadratov so “kvadratne kombinacije opazovanj”, imenovali
jih bomo strokovno tudi kvadratne oblike. Problem rešimo z ve č metodami. Nekatere med njimi so celo
nepristranske, vendar pa je rezultat včasih prav nemogoč. Tako dobimo lahko negativne variance. Delež
posameznih komponent variance preseže vrednost 1, kar pomeni 100 %. To bi v praksi pomenilo, da
je ena komponenta variance večja kot vsota vseh. Č:e iz komponent varianc in kovarianc izračunamo
korelacije, so ocene izven parametrskega prostora - izven intervala možnih vrednosti. Tako so se bolje
obnesle metode, ki dajejo pristranske rezultate. Za te metode, ki jih obi čajno tudi izberemo, je značilno,
da so asimptotično nepristranske. Kadar imamo dovolj podatkov, so ocene torej tako malo pristranske,
da lahko to zanemarimo. Ne smemo pa na to pozabiti in komponent variance ocenjevati z nekaj 100 ali
še manj meritvami! tudi 10000 meritev ni prav veliko, raje jih imamo nekaj 100000. Nekaj pa je tudi
izjem, a o njih ne bomo razpravljali prezgodaj. Tako se kaj rado zgodi, da postanejo obi čajna praksa in
celo dokaz za “pravilnost” napačnih pristopov.
Poskusimo primerjati nepristransko in pristransko metodo (4.6). Sliko smo malo pretiravali, da bi bila
razlika bolj jasna. Če imamo kolikor toliko dobre podatke, bodo razlike bistveno manjše. Pristranske
ocene bodo manj precenjene, nepristranske pa bolj zanesljivo ocenjene (manj razpršene). Zeleno oziroma
pikčasto območje pa predstavlja parametrski prostor ali zalogo vrednosti. Kar je ve čje ali manjše od
parametrskega prostora, so vrednosti, ki jih naš prou čevani parameter pač ne mora imeti v nobenem
primeru.
99
100 Biometrija
Pristranost
Parameterski
prostor
b Porazdelitev najbolj¹ih
pristranskih ocen
Porazdelitev najbolj¹ih
linearnih nepristranskih
ocen
Slika 4.6: Primejava pristranske in nepristranske metode
Nepristranske meritve bodo, če bomo poskuse ponavljali, lahko precej različne. Tako kot vedno bodo
natančnost izvedbe preizkusa, natančnost meritev in število meritev odločali o zanesljivosti ocene. Pri
vsakem od ponovljenem poskusu pa obstaja enaka verjetnost, da bo rezultat ve čji ali manjši od parametra,
zato ne govorimo o tem, da so rezultati v posameznem poskusu pristranski. Ocene so porazdeljene okrog
parametra. Ker dejanskih vrednosti parametrov ne poznamo, tudi ne moremo oceniti za koliko odstopajo.
To bi lahko dobili le, če bi poskus mnogokrat ponovili. To pa bi ne bilo nič drugega kot en sam večji
poskus. Ker pa poiskusi vedno stanejo, delamo malo ve čje poskuse šele, ko smo zbrali zadosti zanesljivih
dokazov, da je uspeh zagotovljen.
Pristranske ocene pa niso porazdeljene okrog parametra. Vrh porazdelitve je pomaknjen v desno. Ocene,
ki nam jih metoda ponuja, so bolj pogosto večje od parametra. V tem primeru so ocene precenjene, na
naši sliki skoraj vedno. Če znamo izračunati pričakovano vrednost, bomo lahko ocenili tudi pristranost.
Pristranost ne bo ocenjevala odstopanje našega rezultata, ampak odstopanja pri čakovane vrednosti ocene
od parametra. Običajno je to funkcija parametra.
4.8 Metode preverjanja ocenljivosti
Linearna kombinacija k0 je ocenljiva, če velja:

−
k0 X0 V−1 X X0 V−1 X = k0 [4.208]
Linearne kombinacije iščemo pri interpretaciji rezultatov in testiranju hipotez. Obravnavamo lahko samo
tiste linearne kombinacije k0 , ki so ocenljive. Tako smo že ugotavljali, da vpliv pasme ni ocenljiv,
ocenljive pa so razlike med pasmami - pa še to ne vedno! V primeru, da ni ocenljiva razlika med
pasmama, je gotovo slabo načrtovan poskus: struktura podatkov je slaba.
Le redko se lotimo testiranja posameznih hipotez. Radi imamo najprej namig, ali se z dolo čeno skupino
sploh splača ukvarjati. Npr., zanima nas, ali se pasme značilno razlikujejo. Vse linearno neodvisne
kombinacije nanizamo v matriko K in preizkusimo ocenljivost.
 
k01
 k02 
 
K= ..  [4.209]
 . 
k0p
100
1
Biometrija 101
Tako velja:
−
K X0 V−1 X X0 V−1 X = K [4.210]
−
K X0 V−1 X X0 V−1 X = H [4.211]
Toda H iz zgornje enačbe je ocenljiva, ker velja

−
H X0 V−1 X X0 V−1 X = H [4.212]
Pri metodi najmanjših kvadratov je pravilo nekoliko enostavnejše. Matrika varianc in kovarianc V je
enostavna: meritve so med seboj neodvisne in identično porazdeljene.
V = Iσ2e [4.213]
Njena inverzna oblika je tudi enostavna:
V−1 = Iσ−2
e [4.214]
Inverzo matrike V iz enačbe 4.214 lahko vstavimo v enačbo 4.210.

− 0 −2
e X
K X0 Iσ−2 X Iσe X = K [4.215]
Varianca za ostanek je skalar, prav tako tudi njena inverzna vrednost, ki nastopa v prvem in drugem
oklepaju v enačbi 4.215. Skalar lahko tudi izpostavimo iz oklepaja. Pri prvem oklepaju ne smemo
pozabiti na splošno inverzo, zato smo izpostavili varianco σ 2e , iz drugega člena pa izpostavimo inverzno
vrednost za varianco (σ−2
e ).
−
K X0 IX σ2e σ−2
e X0 IX = K [4.216]
Enačbo 4.210 lahko še naprej poenostavimo. Produkt skalarja z njegovo inverzno vrednostjo je 1, ki pa
jo pri množenju lahko izpustimo.
−
K X0 X X0 X = K [4.217]
Primer
 
22 6 8 8
 6 6 
X0 X = 
 8

 [4.218]
8
8 8
Če črtamo prvo vrstico in prvi stolpec (enačba ), smo v preostanku matrike dobili diagonalno matriko s
tremi vrsticami in stolpci.
 
0 0 0 0
 0 6 
A=
 0

 [4.219]
8
0 8
 
0 0 0 0
 0 1/6 
  = A − = X0 X − [4.220]
 0 1/8 
0 1/8
101
102 Biometrija
• Ali lahko napišete model za zgornji primer?
• Dobili smo eno od neskončno mnogo splošnih inverz:

... črtali prvo vrstico in prvi stolpec ...
−
X0 X X0 X = [4.221]
 
22 6 8 8
 6 6 
 
 8 8 
8 8
   [4.222]
0 0 0 0 0 0 0 0
 0 1/6   1 1 0 0 
   
 0 1/8   1 0 1 0 
0 1/8 1 0 0 1
• Pazimo na vrstni red matrik!
• Matrika služi kot filter za preverjanje hipotez

−
K X0 X X0 X = [4.223]
 
0 0 0 0
 1 1 0 0 
 
 1 0 1 0 
   1 0 0 1  [4.224]
0 1 −1 0 0 1 −1 0
 0 0.5 0 −0.5   0 0.5 0 −0.5 
0 0 2 −2 0 0 2 −2
• Pogoju ocenljivosti smo zadostili
• lahko uporabili katerokoli drugo splošno inverzo

 
22 6 8 0
 6 6 0 
X0 X = 
 8
 [4.225]
8 0 
0 0 0 0
 
0 0 0 0
−  0 1/6 
X0 X = 
 0

 [4.226]
1/8
0 1/8
102
Biometrija 103
Poglavje 5
POSTAVITEV IN TESTIRANJE HIPOTEZ

Testiranje hipotez je osrednja naloga pri vsaki obdelavi podatkov. Od postavitve hipotez je odvisen na črt
preizkusa, torej moramo hipoteze postaviti še pred izpeljavo poskusa. Po izvedbi poskusa je v časih
potrebno stvari celo popraviti ali prilagoditi, saj se kaj rado zgodi, da pri poskusu poteka kakšna re č
drugače, kot smo predvideli.
Preizkus hipotez opravimo v treh korakih:
1. Preizkusimo, ali je model značilen. Č
2. Preizkusimo, kateri vplivi v modelu so značilni in kateri niso.
3. Preizkusimo, kateri nivoji pri značilnih vplivih se med seboj razlikujejo.
Nikoli ne preizkušamo razlik med nivojema dveh razli čnih vplivov, izogibamo se tudi kombiniranim
razlikam. Hipoteze naredimo čimbolj enostavne, da jih je tudi enostavno razložiti.
5.1 Postavitev hipoteze
5.1.1 Ničelna in alternativna hipoteza
Hipoteza ima dve komponenti: ničelno hipotezo H0 (5.1) in alternativno hipotezo H1 (5.2). Ničelna
hipoteza ima lahko dve obliki. Prva oblika pomeni, da se linearne kombinacije K (lokacijskih) parame-
trov β ne razlikujejo od vektorja 0, v drugem primeru pa pri čakujemo pri rezultatu linearnih kombinacij
konstantno vrednost v vektorju m. Prvi primer je zelo obi čajen, saj najprej preverjamo ali so dobljeni
rezultati od 0 različne.
H0 : Kβ = 0 [5.1]
H0 : Kβ = m [5.2]
Alternativna hipoteza (H1 ali tudi Ha ) lahko zavzema vse druge možnosti ali pa samo del. Zelo po-
membno je, da alternativno hipotezo nazorno nakažemo. Hipotezi v naslednjih vrsticah vklju čujeta vse
alternative ničelni hipotezi. Pri prvi hipotezi 5.3, ki je alternativa ni čelni hipotezi 5.1, ovržemo ničelno
hipotezo, če da katerakoli linearna kombinacija iz matrike K rezultat razli čen od 0. Druga hipoteza v 5.4
je alternativa ničelni hipotezi v enačbi 5.2. Alternativno hipotezo sprejmemo, če je vrednost najmanj ene
linearne kombinacije iz matrike K različna od vrednosti v vektorju m. Ne moremo pa kombinirati niti
ničelno hipotezo v 5.1 z alternativno hipotezo v 5.4 niti ni čelno hipotezo v 5.2 z alternativno hipotezo v
5.3.
H1 : Kβ , 0 [5.3]
H1 : Kβ , m [5.4]
Če npr. ničelna hipoteza pokriva možnost, da med pasmami ni razlik, oziroma bolj dosledno, da so
razlike med pasmami enake nič, alternativna hipoteza predstavlja vse možnosti, ko med pasmami obsta-
jajo razlike. Že ob eni sami od nič različni razliki bo ničelna hipoteza zavržena in sprejeta alternativna
104 Biometrija
hipoteza. V primeru, da drži ničelna drži, nobena od razlik ni dokazano od nič različna. Vsako na-
daljnje razglabljanje in iskanje razlik je neprimerno. Le v primeru, da so razvidni kakšni trendi, lahko
predlagamo, da se poskus dopolni s potrebnimi meritvami ali pa ponovno zastavi s primernimi popravki
(velikost vzorca, način vzorčenja itd.), da bi dobili potrditev ali zavrnitev nakazanega trenda.
Alternativna hipoteza pa lahko vključuje samo del alternativnih možnosti. Najpogostejši obliki sta v
tem primeru hipotezi, ki vključujeta samo tiste možnosti, ko so ocene linearnih kombinacij ve čje od 0
(5.5), manjše od 0 (5.7), večje od konstant v vektorju m (5.6) ali manjše od konstant v vektorju m (5.8).
Alternativni hipotezi v 5.5 in 5.7 lahko kombiniramo z ni čelno hipotezo 5.1, ostali dve (5.6 in 5.8) pa z
5.2. Drugih možnosti ni.
H1 : Kβ > 0 [5.5]
H1 : Kβ > m [5.6]
H1 : Kβ < 0 [5.7]
H1 : Kβ < m [5.8]
Za ponazoritev moramo poiskati nov primer, nesmiselno bi bilo primer razlagati na primeru pasem.
V selekcijkskem programu predvidevamo, da bo selekcijsko delo prineslo na črtovan genetski napredek.
Čez leta lahko genetski napredek preverimo. Ker je bilo vloženega dela in kapitala mnogo, se ne moremo
zadovoljiti z genetskim trendom, ki bi bil samo razli čen od nič. Negativni trendi, vrednosti manjše od
nič, so še slabše, kot če bi genetskega napredka sploh ne gi bilo (genetski trend enak ni č). Torej nas
zanima le genetski napredek (trend) z ocenami, ki so ve čje od nič. Še bolj pogosto pa se odločamo v tem
primeru za hipotezo, ki v vektorju m hrani načrtovane, planirane genetske spremembe.
Vlogi hipotez pa sta v praksi nekoliko drugačni kot v statistični teoriji. V praksi praviloma želimo
dokazati, da obstajajo razlike, da obstajajo trendi ali povezave med spremenljivkami. Tako bi nam bilo
skoraj bolj razumljivo, da poskušamo postaviti to kot ni čelno, izhodiščno hipotezo. V statistiki pa vedno
najprej ovržemo možnost, da razlik ni oziroma niso dovolj velike. Šele nato iš čemo, kateri nivoji se
med seboj razlikujejo. Če smo dobili odgovor, da nivoji niso različni od nič, je vsako nadaljne iskanje
samo izguba časa. Nobena razlika ni značilna. Po domače bi rekli "ni dovolj pomembna" ali "ni dovolj
prepričljiva". Paziti moramo, ker nam lahko napačno izbrani testi razliko pokažejo, čeprav so nam z
njimi na krožniku postregli najboljši statistični paketi. Naloga statističnih paketov je, da uporabniku
olajšajo delo tako, da jim ni potrebno poznati vseh številnih formul. Tudi mi bomo lahko po izpitu
kakšno pozabili. Ne morejo pa pomagati pri izboru orodij, med njimi tudi pravilnih statisti čnih testov.
Tako kot moramo na kmetiji vedeti, s katerimi stroji bomo pomolzli krave in s čim bomo orali njivo,
moramo vedeti, katera so najprimernejša orodja za obdelavo podatkov, ki jih v živinoreji zbiramo. O
izboru metod za obdelavo podatkov smo raypravljali v predhodnem poglavju.
5.1.2 Postavitev linearnih kombinacij
Hipoteze lahko predstavimo oziroma oblikujemo v matri čni obliki. Z matrično obliko lahko nazorno
ponazorimo posamezne hipoteze. Kot smo prikazali v skalarni obliki, so hipoteze pogosto enostavne.
Takšne je tudi laže razložiti. Če pa je struktura podatkov nekoliko bolj zapletena (manjkajo či podatki,
interakcije...), je lahko hipoteza tudi bolj sestavljena.
Našo hipotezo predstavimo v matriki linearnih kombinacij parametrov K. Če je hipoteza ocenljiva,
potem bo produkt Kβ vedno enak, ne glede na to katero izmed neskon čno velikega števila možnih rešitev
smo izbrali. Za matriko hipotez je pomembno, da ni v njej linearno odvisnih hipotez. Te dodatne hipoteze
ne prinesejo novih spoznanj, ampak samo prikažejo rezultate v drugi lu či.
PRIMER:
104
Biometrija 105
Vzemimo npr. primer mladic iz preizkusa v proizvodnih razmerah. Prou čujemo le vpliva pasme (Pi ) in

b0 (enačba
farme F j s po tremi nivoji. Ocene parametrov za sistematske vplive so nanizane v vektorju β
5.9). Pri tem ne smemo pozabiti na srednjo vrednost (µ).
0
b
β = b1 P
µ P
b b2 P
b3 Fb1 Fb2 Fb3 [5.9]
Zanimajo nas razlike med pasmami. Imamo tri možne razlike (prva-druga, prva-tretja in druga-tretja).
Prvi dve razliki smo vnesli v prvi dve vrstici matrike H. Lahko pa bi nas zanimala tudi dvakratna razlika
med drugo in tretjo pasmo, kar smo ponazorili v tretji vrstici. V matriki H je tretja vrstica dvakratna
razlika med drugo in prvo vrstico: je linearna kombinacija prvih dveh. To v praksi pomeni, da je tretja
razlika logični zaključek prvih dveh. V matriki, ki jo uporabljamo pri testiranju hipotez, uporabimo
katerokoli kombinacijo samo linearno neodvisnih vrstic iz matrike H. Matriko katerekoli teh kombinacij
bomo poimenovali K. Imeti mora polni rang v vrsticah, po stolpcih pa ni omejitve.
 
0 1 −1 0 0 0 0
H =  0 1 0 −1 0 0 0  [5.10]
0 0 2 −2 0 0 0
Razlike med pasmami torej testiramo z naslednjimi hipotezami. Našli bi lahko še druge možnosti. Vre-
dnosti, ki so različne od nič, so pogosto 1 in -1, tako kot v spodnjih dveh. Tako zapišemo npr. razliko
med dvema nivjema znoraj vpliva.

0 1 −1 0 0 0 0
K= [5.11]
0 1 0 −1 0 0 0

0 1 −1 0 0 0 0
K= [5.12]
0 0 1 −1 0 0 0
Vajo bi lahko ponovili tudi za razlike med farmami. Z linearnimi kombinacijami iz 5.13 pa si ne moremo
veliko pomagati. Poskušajmo prebrati prvo vrstico. Zanima nas razlika med prvo pasmo in drugo farmo.
Takšna vrednost pa živinorejca bolj malo zanima. Kaj bi se iz razlike nau čil? Ali bi kupil živali prve
pasme, ali pa morda farmo 2? Vsekakor takšne dileme ne obstajajo. Odlo čamo se med pasmami ali med
farmami. Konec koncev bi se lahko zgodilo, da bi želel kupiti farmo in živali. Še vedno pa bi farmo
izbiral med farmami in bi te primerjave ločno opravil. Pasme (živali) pa bi izbiral med pasmami.

0 1 0 0 −1 0 0
K= [5.13]
0 0 0 −1 0 0 1
Če bi bili pogoji med farmami zelo različni, bi pred nakupom živali hotel preveriti, ali s pasmami dosega
različne proizvodne rezultate na posameznih farmah. V tem primeru pa bi želel preveriti tudi interakcije.
0
b
β = b1 P
µ P
b b2 P
b3 Fb1 Fb2 Fb3
0
h i
b
β = b1 P
µ P
b b3 Fb1 Fb2 Fb3 PF
b2 P c 12 PF
c 11 PF c 21 PF
c 13 PF c 23 PF
c 22 PF c 32 PF
c 31 PF c 33
Če imamo težavo s postavitvijo hipoteze, si lahko pomagamo na naslednji na čin.

1) Sestavite linearno kombinacijo (vrstico), ki predstavlja pri čakovano vrednost pri določeni pasmi!
E (yi ) = 1µ + 1Pi + 1/3 (F1 + F2 + F3 ) [5.14]
105
106 Biometrija
140
130 Iymerjena vrednost

Indeks plemenske vrednosti
ostanek
120
110
100 Ocenjena vrednost
90
80
70
60
80 82 84 86 88 90
Leto preiykusa
Slika 5.1: Napoved ostanka
Sestavimo linearni kombinaciji za pričakovano vrednost pri pasmah 1 in 2. Pri tem upoštevamo srednjo
vrednost, vpliv izbrane pasme in povprečen učinek farm. Ker so farme tri, vzamemo tretjino vsake farme.

k10 = 1 1 0 0 13 13 31 [5.15]
1 1 1

k20 = 1 0 1 0 3 3 3 [5.16]
2) Sestavite linearno kombinacijo (vrstico), ki predstavlja razliko pri čakovanih vrednosti med izbranima
pasmama i in i’.
Poiščimo razliko pasme 1 (5.15) in pasme 2 (5.16). Iz dobljenega rezultata 5.17 vidimo, da je razlika
med pasmama očiščena drugih vplivov.

k12
0
= k10 − k20 = 0 1 −1 0 0 0 0 [5.17]
5.2 Vsota kvadratov in stopinje prostosti
Metode najmanjših kvadratov, tehtanih najmanjših kvadratov in splošnih najmanjših kvadratov spreje-
majo svoje zaključke na osnovi
• vsote kvadratov, ki ga pojasnijo posamezni vplivi,

• vsote kvadratov za ostanek, ki praviloma služi za primerjavo, in
• stopinj prostosti, to je, številu parametrov, ki smo jih porabili za opis posameznega vpliva.
Pri biometriji moramo biti zelo natančni: ostanek (e) je razlika med resnično in ocenjeno vrednostjo. Ker
pa resnične vrednosti ne poznamo, na njeni osnovi ne moremo narediti nobenih zaklju čkov. Preostane
nam samo ena ali več meritev, s katerimi se poskušamo čimbolj približati dejanski vrednosti. Razlika
med izmerjeno in ocenjeno vrednostjo je tako nadomestek dejanskega ostanka, je torej samo napoved za
ostanek (ê). Brali boste lahko tudi o oceni ostanka, a ocena je povezana s sistematskimi vplivi, ostanek
pa je naključna spremenljivka.
Vsote kvadratov si bomo ogledali kasneje, s stopinjami prostosti pa smo se spoznali že v poglavju o
modelih.
106 1
Biometrija 107
5.3 Preveritev modela
Primer . Za ilustracijo primera ponovno obudimo primer enajstih merjenih mladic. V prvem delu
bomo uporabili samo meritve za dnevni prirast (tabela 5.1). Poskusimo preveriti model! Zaradi lažjega
razumevanja pa začnimo pri najbolj enostavnem modelu: v prvi model smo dali samo srednjo vrednost
in ostanek. Ker bomo parametre ocenjevali po metodi najmanjših kvadratov, je kriterij za odlo čitve
vsota kvadratov za ostanek. Seveda pa moramo najprej oceniti neznane parametre. V našem preprostem
primeru je to samo srednja vrednost µ, ki znaša 550 g/dan.
yi = µ + e i [5.18]
Tabela 5.1: Izračun vsote kvadratov za ostanek pri modelu 5.18

Žival Pasma Mesec Dnevni prirast µ̂ êi = yi − E (yi ) ê2i j
(g/dan)
1 SL JAN 540 550 -10 100
2 SL JAN 550 550 0 0
3 SL FEB 550 550 0 0
4 SL FEB 580 550 30 900
5 LW JAN 520 550 -30 900
6 LW FEB 500 550 -50 2500
7 LW FEB 490 550 -60 3600
8 NL JAN 560 550 10 100
9 NL JAN 550 550 0 0
10 NL FEB 600 550 50 2500
11 NL FEB 610 550 60 3600
Skupaj 14200
Razvrstimo rezultate v tabelo 5.2. Vsoto kvadriranih meritev smo tako razdelili na del, ki ga pojasni
srednja vrednost in ostanek. Vsoto kvadratov smo razdelili torej na dve neodvisni komponenti. Sre-
dnja vrednost je pojasnila skoraj vso variabilnost, za to pa smo porabili samo en parameter, eno stopinjo
prostosti. V ostanku pa je ostalo še 10 stopinj prostosti. Ko ugotavljamo pomen parametrov, upora-
bimo srednji kvadrat. Ta pove, koliko vsote kvadratov v povpre čju pojasni ena stopinja prostosti. Za
primerjavo si praviloma izberemo srednji kvadrat za ostanek, le izjemona kaj drugega.
Tabela 5.2: Viri variabilnosti za dnevni prirast iz modela 5.18

Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost
Srednja vrednost 1 3327500.00 3327500.00 2343.3 <0.0001
Ostanek 10 14200.00 1420.00
Skupno 11 3341700.00
•
Sedaj lahko obogatimo primer še s formulami. Uporabili bomo oznake izpeljane iz angleških izrazov.
a) Skupna vsota kvadratov (Total Sum of Square, T S S ) je vsota kvadriranih opazovanj.

X
TS S = y2i [5.19]
V matrični obliki je skupna vsota kvadratov zapisana s kvadratno obliko 5.20. Matrika kvadratne oblike,
ki predstavlja skupno vsoto kvadratov, je inverza matrike fenotipskih varianc (V −1 ). Z njo pri izračunu
skupne vsote kvadratov stehtamo opazovanja.
T S S = y0 V−1 y [5.20]
107
108 Biometrija
Ko so ostanki identično in neodvisno porazdeljeni (V = Iσ 2e ), je skupna vsota kvadratov poenostavljena

v 5.21.
T S S = y0 V−1 y = y0 Iσ−2
e y = y yσe
0 −2
[5.21]
Ker je v tem primeru varianca za ostanek σ −2

e konstantna vrednost, ista pri vseh meritvah, in nastopa pri
vseh vsotah kvadratov, deljenje z varianco ni potrebno. Pri testiranju hipotez vedno ra čunamo razmerje
dveh vsot kvadratov. Tako se varianca iz vsote kvadratov v števcu in imenovalcu pokrajšata. Skupno
vsoto kvadratov lahko izračunamo torej brez tehtanja, enostavno kot vsoto kvadriranih opazavanj iz 5.22.
T S S = y0 y [5.22]
b) Korigirana skupna vsota kvadratov Iz skupne vsote kvadratov najprej odstranimo vsoto kvadra-
tov, ki jo pojasnjuje ocena srednje vrednosti µ.
X X
CT S S = y2i − bµ2 [5.23]
Povprečno vrednost v matrični obliki zapišemo v obliki 5.24, v kateri 1 0 predstavlja vrstični vektor samih
enic, kot je prikazano v enačbi 5.22.
1 0
b
µ= 1y [5.24]
n

10 = 1 1 ··· 1 [5.25]
Korigirano skupno vsoto kvadratov zapišimo v obliki kvadratne forme! Predpostavimo še, da so ostanki
identično in neodvisno porazdeljeni, zato tehtanje z variancami ni potrebno. Prvi člen iz 5.23 je skupna
vsota kvadratov iz 5.23

11 0 1 0
CT S S = y y − y 1 1 y = y I − 2 11 y
0 0 0
[5.26]
nn n
Poskusite napisati korigirano skupno vsoto kvadratov, če so meritve korelirane, struktura varianc in ko-
varianc pa ponazorjena v matriki V!
c) Vsota kvadratov za model (model sum of square, MS S ) je enaka vsoti kvadratov 5.27 za pri čako-
vane vrednosti potem, ko smo odstranili vsoto kvadratov, ki jo pojasnjuje srednja vrednost. Z drugimi
besedami MS S 5.28 predstavlja razliko med korigirano vsoto kvadratov CT S S in vsoto kvadratov za
ostanek RS S .
X X
MS S = (E(yi ))2 − bµ2 [5.27]
MS S = CT S S − RS S [5.28]
Izjema je model, ki vsebuje samo srednjo vrednost in ostanek. Tam ne izvrednotimo korigirane skupne
vsote kvadratov, vsota kvadratov za model je kar vsota kvadratov, ki jo pojasnjuje srednja vrednost.
Preizkusimo se še v matričnem zapisu!
11 0
MS S = y0 1 1y
nn
108
Biometrija 109
d) Vsota kvadratov za ostanek (residual sum of square, RS S ) je vsota kvadriranih ostankov5.29.

X
RS S = (yi − E(yi ))2 [5.29]
e) Srednji kvadrat 5.30 dobimo tako, da vsoto kvadratov delimo s stopinjami prostosti. Znak x v
enačbi zamenjamo s katerokoli vsoto kvadratov za model ali za posamezni vpliv.
xS S
MS x = [5.30]
d. f. x
f) F−statistika je razmerje med dvema srednjima kvadratoma. V imenovalcu je tistai srednji kvadrat, s
katerim primerjamo ostale. Kar praviloma je to srednji kvadrat za ostanek. F-statistika ima porazdelitev
F, ko drži ničela hipoteza.
MS x
F= [5.31]
MS e
g) P−vrednost je verjetnost, da vpliv (v našem primeru je to tudi celoten model ali pa smo srednja
vrednost) ni pomemben. Pravzaprav bi morali reči, da je to verjetnost, da drži ničelna hipoteza. Da
pa bi lažje razumeli, smo pač ubrali preprostejšo obliko. S testiranjem modela in posameznih vplivov
presojamo, koliko variabilnosti smo pojasnili. Primerjavo praviloma delamo z variabilnostjo ostanka.
Po domače bi lahko rekli, da del, ki ga pojasni posamezni vpliv, primerjamo z informacijami, ki so v
ostanku še ostale.
h) Analiza variance za model Izračunane vrednosti uredimo v tabelo t5.3, kjer razčlenimo vsote kva-
dratov na posamezne komponente in določimo stopinje prostost (d. f ). Pri preizkušanju modela v celoti
imamo samo tri komponente: srednjo vrednost, ostali del modela in ostanek. Nato izvrednotimo sre-
dnje kvadrate, F−vrednosti in iz tabel odčitamo P−vrednosti. Praviloma nas ne zanima vrstica, ki je
namenjena srednji vrednosti (prva vrstica v tabeli), test je usmerjen na model (druga vrstica v tabeli).
Tabela 5.3: Viri variabilnosti za dnevni prirast za model

Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat
P 2
F-vrednost P-vrednost
P 2 b
µ MS µ
Srednja vrednost 1 b
µ 1 MS e
MS M
Model d. f. MS S MS M MS e
Ostanek n − 1 − d. f. RS S MS e
Skupno n TS S
Značilnost srednje vrednosti nas zanima, kadar obdelujemo razlike med pari. Tako bi poskus opravljali
lahko na enojajčnih dvojčkih, sestrah/bratih in polsestrah/polbratih. Imamo dve pokusni skupini. So-
rodnike uvrstimo v različni skupini in tako sestavimo pare. Skupini nista neodvisni: meritve povezuje
genetski del variabilnosti. Da bi se motnji izognili, ne obdelamo meritev samih, ampak razlike med
živalima v paru. Pri ničelni hipotezi je pričakovana vrednost (srednja vrednost) enaka nič.
Primer . Skupno vsoto kvadratov (T S S ) bomo sedaj razdelili na tri komponente in sicer na tisto:
• kar pojasni srednja vrednost (S S (µ̂)),
• kar pojasnijo ostali vplivi v modelu (MS S ) in
• kar je ostalo (RS S ).
109
110 Biometrija
Skupna vsota kvadratov 5.32 in vsota kvadratov 5.33, ki jo pojasni srednja vrednost µ, se nista spremenili
v primerjavi z modelom 5.18 (glej tabelo 5.2). Korigirana vsota kvadratov CT S S iz 5.34 je enaka kot
vsota kvadratov za ostanek v enostavnem modelu 5.18.
T S S = 5402 + 5502 + 5502 + 5802 + ... + 6002 + 6102 = 3341700.00 [5.32]
S S (µ̂) = 5502 + 5502 + 5502 + ... = 11 ∗ 5502 = 3327500.00 [5.33]
CT S S = T T S − S S (µ̂) = 3341700.−3327500. = 14200.00 [5.34]
Uredimo v tabelo za analizo variance 5.4. Iz tabele lahko vidimo samo, da je srednja vrednost zelo
različna od 0. Seveda to za dnevni prirast pri rastočih živalih tudi pričakujemo. Pri odraslih živalih,
zlasti samicah v času laktacije, pa lahko imamo tudi negativne dnevne priraste. Ker živalim primanjkuje
hranilnih snovi v zaužiti krmi za prirejo mleka, koristijo telesne rezerve. V takih primerih so lahko
rezultati tudi drugačni. Na splošno pa nas povprečja ne zanimajo, da bi zmanjšali numerične probleme,
ki jih računalnikom povzročajo velike številke, se statistični paketi srednje vrednosti znebijo in opravijo
analizo variance brez nje. Mi jo bomo v prikazih zaradi kompletnosti obdržali, rezultati pa zaradi tega
niso nič boljši in nič slabši. So enaki.

Ostanek 10 14200.00 1420.00
Skupno 11 3341700.00
Pravzaprav v ostanku pri modelu 5.18 ni ostalo veliko stvari nepojasnjenih. Vseeno dodajmo modelu
5.18 vpliv pasme (Pi ). Tako dobimo še vedno preprost model 5.35.
yi j = µ + P i + e i j [5.35]
Vpliv pasme predstavlja edini res pravi vpliv v modelu5.35. Tako smo iz vsote kvadratov za ostanek iz
tabele 5.42 oziroma CT S S iz 5.34 pojasnili še dodatno variabilnost, ki je ocenjena v ena čbi 5.36. Slednja
vsota predstavlja kvadrirane odklone srednjih vrednosti po pasmah od skupne srednje vrednosti za vsako
meritev. Ker vemo, da imamo pri pasmi 1 štiri meritve, pri pasmi 2 tri in pri pasmi 3 zopet štiri meritve,
smo izračun pač nekoliko poenostavili (enačba 5.36).
MS S = S S (P) = 4 ∗ (555 − 550)2 + 3 ∗ (503.33 − 550)2 + 4 ∗ (580 − 550)2 = 10233.33 [5.36]
Za isto vsoto pa se je zmanjšala vsota kvadratov za ostanek 5.37.
RS S = ê2i j = 3966.67 [5.37]
Izračun posameznih vsot kvadratov smo ponazorili tudi v tabeli 5.5.

Sedaj uredimo vsote kvadratov še v tabelo za analizo variance (5.6) in izvrednotimo srednje kvadrate,
F−stratistiko in določimo P−vrednost. Srednja vrednost je tudi v tem modelu pojasnila najve čji del
variabilnosti, za kar smo porabili 1 stopinjo prostosti. V podatkih smo imeli 3 pasme, zato porabimo za
vpliv pasme 2 stopinji prostosti, za ostanek nam je ostalo samo 8 stopinj prostosti. Kljub temu razmerje
med srednjim kvadratom za vpliv pasme in srednjim kvadratom za ostanek pokaže, da je vpliv pasme
pomemben. Tudi P−vrednost, ki jo preberemo iz tabel oziroma izra čunamo, potrjuje naše sklepanje.
Ker je vpliv pasme edini vpliv v modelu 5.35, veljajo isti zaklju čki tudi za celotni model. Kot smo že
omenili, vsoto kvadratov, ki jo povzroča srednja vrednost, obravnavamo posebej. Pravzaprav se z njo
praviloma niti ne ukvarjamo.
110
Biometrija 111
Tabela 5.5: Izračun vsote kvadratov za ostanek pri modelu 5.35

Žival Pasma Mesec Dnevni prirast µ̂ + P̂i Pˆ2 i êi = yi − E (yi ) ê2i j
(g/dan)
1 SL JAN 540 555.00 25.00 -15.00 225.00
2 SL JAN 550 555.00 25.00 -5.00 25.00
3 SL FEB 550 555.00 25.00 -5.00 25.00
4 SL FEB 580 555.00 25.00 25.00 625.00
5 LW JAN 520 503.33 2177.77 16.67 277.89
6 LW FEB 500 503.33 2177.77 -3.33 11.09
7 LW FEB 490 503.33 2177.77 -13.33 177.69
8 NL JAN 560 580.00 900.00 -20.00 400.00
9 NL JAN 550 580.00 900.00 -30.00 900.00
10 NL FEB 600 580.00 900.00 20.00 400.00
11 NL FEB 610 580.00 900.00 30.00 900.00

Pasma 2 10233.33 5116.67 10.32 0.0061
Ostanek 8 3966.67 495.83
CTSS 10 14200.00
Skupno 11 3341700.00
Primer . Vzemimo še en enostaven model in vključimo vanj le vpliv meseca (Mi )5.38.
yi j = µ + M i + e i j [5.38]
Vsoto kvadratov za model (enačba 5.39) izračunamo podobno kot v zgornjem primeru (enačba 5.36).
Pojasnjena vsota je precej manjša kot pri pasmi. Dobili smo jo tako, da smo kvadrirali odklone srednjih
vrednosti po pasmah od skupne srednje vrednosti za vsako meritev. Pri čakovana vrednost za januar je
544, za februar pa 555. Ker vemo, da imamo v januarju pet meritev, v februarju pa šest, smo izra čun pač
nekoliko poenostavili (enačba 5.39).
MS S = S S (M) = 5 ∗ (544 − 550)2 + 6 ∗ (555 − 550)2 = 330.00 [5.39]
Izvrednotiti moramo še vsoto kvadratov za ostanek (5.40). Dobimo jo lahko tako, da izra čunamo ostanke,
jih kvadriramo in kvadrate seštejemo.
RS S = ê2i j = 13870 [5.40]
Lahko pa uberemo krajšo pot (enačba 5.41). Od korigirane skupne vsote kvadratov (CT S S ) smo odšteli
tisti del (MS S ), ki ga pojasni model.
RS S = CT S S − MS S = 14200 − 330 = 13870 [5.41]
Uredimo izračune v tabelo za analizo variance 5.7. Vpliv meseca je nepomemben. Vsota kvadratov in
srednji kvadrat sta majhna v primerjavi z ostankom. Ker je bil vpliv pasme pomemben, že sedaj vemo,
da so zaključki iz modela z mesecem neuporabni. Model smo uporabili le zato, da bomo kasneje lažje
razmišljali o dodajanju vplivov v modele in presojanju pomena dodatnih vplivov.
111
112 Biometrija

Mesec 1 330.00 330.00 0.21 0.6545
Ostanek 9 13870.00 1541.11
CTSS 10 14200.00
Skupno 11 3341700.00
Primer . Dodajmo modelu z vplivom pasme (enačba 5.35) še vpliv meseca, kot prikazuje model 5.42.
yi jk = µ + Pi + M j + ei jk [5.42]
Skupna vsota kvadratov in vsota kvadratov za srednjo vrednost sta ostali nespremenjeni. Iz tega sledi, da
je nespremenjena tudi korigirana vsota kvadratov CT S S . Vsota kvadratov za ostanek 5.43 je zmanjšana,
kar je pričakovano: z novim vplivom pričakujemo, da bodo podatki bolje predstavljeni.
RS S = 2900.00 [5.43]
Vsota kvadratov za model 5.44 je tako povečana. Oba vpliva v modelu skupaj pojasnita pomemben
delež variabilnosti. Srednji kvadrat za model je zmanjšan, ker smo za pojasnitev porabili ve čje število
stopinj prostosti. Nekoliko se je zmanjšala tudi F−statistika, kar pa ni mo čno vplivalo na verjetnost P.
To seveda ne velja za vse modele. V našem primeru imamo majhno število opazovanj, dokaj izena čene
skupine, izbrali pa smo tudi meseca, ko so proizvodni rezultati bolj podobni. Dodatno je bilo pojasnjeno
le nekaj malega vsote kvadratov. Dobra informacija o tem, koliko model doprinese, je vsota kvadratov, ki
jo pojasni ena stopinja prostosti. V modelu 5.42 imamo tri stopinje prostosti, vsota kvadratov za model
je nekoliko povečana, srednji kvadrat, vsota kvadratov na stopinjo prostosti pa je zmanjšana. Model je
še vedno značilen, med dvema vplivoma v modelu je vsaj eden statisti čno značilen, pri vsaj enem bomo
ovrgli ničelno in sprejeli altrnativno hipotezo. Naša naloga je, da sedaj ugotovimo, kateri vpiv je to.
Lahko pa bi bila tudi oba.
MS S = CT S S − RS S = 14200.00 − 2900.00 = 11300.00 [5.44]

Model 3 11300.00 3766.67 9.09 0.0082
Ostanek 7 2900.00 414.29
Skupno 11 3341700.00
5.4 Preveritev vplivov
Nadaljujmo kar z istim primerom. Novi model (5.42) je skupno pojasnil ve čjo vsoto kvadratov, na
porabljeno stopinjo prostosti smo pojasnili nekoliko manj kot pri prejšnjem modelu (5.35), a je kljub
temu zadostovalo, da je model značilen. Nadalje nas zanima, koliko k modelu doprineseta posamezna
vpliva.
112
Biometrija 113
5.4.1 Vsota kvadratov tipa I
Vsota kvadratov tipa I je izračunana iz razlike med polnim modelom in poenostavljenim modelom, kjer
smo predpostavili, da je opazovani vpliv nepomemben in smo ga zato izpustili. V tem primeru smo vsoto
kvadratov razdelili tako, da je vsota vseh posameznih vsot kvadratov natanko skupna vsota kvadratov.
Imenujemo jih tudi sekvenčne vsote kvadratov.
Nastavimo tabelo za analizo variance pri modelu 5.42. Vsoto kvadratov za model (ena čba 5.44) moramo
razdeliti na vsoto, ki jo pojasni pasma, in vsoto, ki jo pojasni mesec. Vsoto kvadratov za pasmo smo
že izračunali v enačbi 5.36. Razlika (5.47) med vsotama kvadratov za modela 5.42 in 5.35 je vsota
kvadratov, ki jo pri tipu I pripišemo vplivu mesec. Mesec je v tem primeru vklju čen za pasmo.
S S (M) = 11300.00 − 10233.33 = 1066.67 [5.45]
Uredimo rezultate v tabelo za analizo variance 5.9. Razvidno je, da so med pasmami razlike, med meseci
pa ne. Toda pa bodite pozorni! Verjetnost (P-vrednost) se je za mesec precej zmanjšala v primerjavi, ko
v modelu ni bilo pasme (tabela 5.7). Tako je vpliv meseca skoraj postal zna čilen, kar pri pitanju prašičev
običajno pričakujemo. Neznačilen je morda zato, ker imamo malo opazovanj ali pa se meseca januar in
februar nista bistveno razlikovala v temperaturi ali drugih klimatskih dejavnikih. Praviloma sta to tipi čna
zimska meseca.
Tabela 5.9: Viri variabilnosti za dnevni prirast iz modela 5.42 tip - I

Pasma 2 10233.33 5116.67 12.35 0.0051
Mesec 1 1066.67 1066.67 2.57 0.1526
Ostanek 7 2900.00 414.29
Skupno 11 3341700.00
Sedaj pa uporabimo isti model, le vrstni red vplivov v modelu zamenjajmo.
yi jk = µ + Mi + P j + ei jk [5.46]
Vsoto kvadratov za ostanek se ne spremeni. Ker je mesec prvi vpliv, zanj velja vsota kvadratov, izra ču-
nana v enačbi 5.39.
S S (P) = 11300.00 − 330.00 = 10970.00 [5.47]
Uredimo rezultate še v tabelo za analizo variance 5.10. Vsoto kvadratov za model smo razdelili v prvem
(tabela 5.9) in drugem (tabela 5.10) primeru različno. Zaključki sicer slučajno niso različni, vendar pa
se lahko zgodi celo to. Ko smo vpliv dodali kot drugi vpliv, je pojasnil ve č variance kot takrat, ko smo
ga napisali na prvo mesto. Primer pa nam vseeno jasno pokaže, da je pri tem na činu izbora vsot lahko
dobimo različne zaključke. Če se držimo nenapisanega pravila, da navajamo vplive v modelih glede
na značilnost (oziroma glede na srednje kvadrate), in predvsem pravilno interpretiramo, pa se neljubim
zapletom lahko izognemo. Kljub vsemu bi se radi izognili razli čnim rezultatom, zato bomo poiskali
boljšo rešitev. Vrstni red v modelu pač ne sme vplivati na zaključke.
Vsota kvadratov tipa I je izračunana vsakokrat avtomatsko. Izračunana vsota kvadratov je odvisna od
vrstnega reda vplivov v modelu. Zanje tudi velja, da vsota predstavlja vsoto kvadratov za model brez
vsote kvadratov, ki jo pojasni srednja vrednost. V primeru neuravnoteženih podatkov vsot kvadratov tipa
I ne smemo uporabljati, ker so odvisne od strukture podatkov.
Preizkusi tipa I so primerni za:
113
114 Biometrija
Tabela 5.10: Viri variabilnosti za dnevni prirast iz modela 5.46 tip - I

Mesec 1 330.00 330.00 0.80 0.4018
Pasma 2 10970.00 5485.00 13.24 0.0042
Ostanek 7 2900.00 414.29
CTSS 10 14200.00
Skupno 11 3341700.00
Tabela 5.11: Zmanjšanje vsote kvadratov v modelu s tremi vplivi

Vpliv Tip I Tip II Tip III Tip IV
A R(A) R(A | B, C)
B R(B | A) R(B | A, C)
C R(C | A, B) R(C | A, B)
• uravnotežene ANOVA modele, če zagotovimo pravilni vrstni red vplivov (npr. interakcije za glav-
nimi vplivi ...)
• popolnoma hierarhične modele, če zagotovimo pravilni vrstni red vplivov (npr. vgnezdeni za
nadrejenimi ...)
• regresijske modele s polinomi, če zagotovimo pravilni vrstni red vplivov (npr. višje stopnje sledijo
nižjim ...).
Zmanjšanje vsote kvadratov za ostanek
Predno nadaljujemo se bomo dogovorili še za poseben zapis, s katerim bomo opisali zmanjšanje (reduk-
cija) vsote kvadratov za ostanek.
R(P) - zmanjšanje vsote kvadratov zaradi vpliva P
R(P|µ)- zmanjšanje vsote kvadratov za ostanek, ko modelu s srednjo vrednostjo dodamo še vpliv P
R(P|µ, M)- zmanjšanje vsote kvadratov za ostanek, ko modelu s srednjo vrednostjo in vplivom M dodamo
še vpliv P
Pri modelu s tremi vplivi A, B in C razdelimo vsoto kvadratov na na čina prikazana v tabeli 5.11. Vsote
kvadratov pri tipu I dobimo tako, da sekvenčno dodajamo vplive. Vrstni red dodajanja vplivov je po-
memben. Pri tipu II pa izvrednotimo, koliko pridobimo, če ostalim vplivom v modelu dodamo še vpliv,
za katerega računamo vsoto kvadratov.
5.4.2 Vsota kvadratov tipa II
Vsota kvadratov pri tipu II ni odvisna od vrstnega reda vplivov v modelu. Hipoteze naj bi bile pravilne za
večino setov podatkov, primerov, če lahko zagotovimo, da ni v modelu interakcij ali vgnezdenih vplivov.
Vsota kvadratov za interakcijo in dodatni vpliv je pravilna, nepravilna je vsota kvadratov za vpliva, med
katerima nastopa interakcija. Če je interakcija neznačilna, bo test za glavni vpliv tudi sprejemljiv.
Tabela 5.12: Zmanjšanje vsote kvadratov v modelu z dvema vplivoma in interakcijo

Vpliv Tip I Tip II Tip III Tip IV
A R(A) R(A | B)
B R(B | A) R(B | A)
A ∗ B R(A ∗ B | A, B) R(A ∗ B | A, B)
114
Biometrija 115
Pričakovano se je spremenila razporeditev vsote kvadratov med vplivoma pasma in mesec ter ostankom.
Novi vpliv mesec je pojasnil dobro četrtino ostanka iz enostavnejšega modela 5.35. Nekoliko ve čja je
bila tudi vsota kvadratov za pasmo. Ta prerazporeditev je posledica nekoliko spremenjenih rešitev za
vpliv pasme, ko vključimo dodatno še vpliv meseca.
S S (P) = 10970.00 [5.48]
S S (M) = 1066.67 [5.49]
Vsota kvadratov za model naj bi bila tudi vsota kvadratov vseh vplivov v modelu. V našem primeru
imamo vpliv pasme in vpliv meseca. Če vsoti seštejemo 5.50, pa dobimo večjo vsoto kvadratov kot pri
5.44. Vsote kvadratov niso neodvisne. Tako smo razliko 12036.67 − 11300.00, kar znese 736.67, šteli
dvakrat: enkrat pri pasmi in enkrat pri mesecu. Oba vpliva smo obravnavali s pretvezo, da drugega ni v
modelu. Tako smo prišli do nelogičnega rezultata, da skupek vplivov pojasni več variabilnosti kot model.
Na ta način pojasnjujemo neko dodatno variabilnost, ki je sploh ni.
MS S = S S (P)+S S (M) =10970.00+1066.67=12036.67 [5.50]
Vsota kvadratov za model, ko smo odstranili vsoto kvadratov za srednjo vrednost, pri tipu I znaša
11300.00. Pri tipu II je vsota kvadratov za model večja in sicer znaša 12036.67.
Vsekakor razliko 736.67 ne smemo kar izbrisati, potem bi bil seštevek premajhen. Ena od možnosti je
prikazana v tabeli 5.13, da razliko 736.67 upoštevamo pri vplivu pasme, pri vplivu meseca pa ne. Vpliv
pasme je značilen, pomemben, kar smo dokazali že s preprostejšim modelom 5.35, v modelu 5.42 z
dodatnim vplivom se je vpliv pasme še bolj potrdil. To sicer ne smemo posplošiti na vse primere. Vsota
kvadratov za vpliv meseca je v tem primeru sorazmeroma majhna (330.00). Ko imamo v modelu že
pasmo, z mesecem ne pridobimo veliko.
Tabela 5.13: Viri variabilnosti za dnevni prirast iz modela 5.42 tip - II

Pasma 2 10970.00 5485.00 13.24 0.0042
Mesec 1 1066.67 330.00 0.797 0.1526
Ostanek 7 2900.00 414.29
CTSS 10 14200.00
Skupno 11 3341700.00
yi jk = µ + Pi + M j + PMi j + ei jk [5.51]
Pri modelu z interakcijami za glavna vpliva P in M ne moremo poiskati vsote kvadratov, ki bi model
očistila tudi interakcije PM. Interakcijo lahko vklju čimo šele, ko sta v modelu oba glavna vpliva. Kadar
je interakcija značilna, preizkus glavnih vplivov s pomočjo vsote kvadratov tipa II ni primeren.
Tip II vsote kvadratov so primerne:
• za uravnotežene primere (drugače odvisni od strukture podatkov)
• za modele samo z glavnimi vplivi
• za čiste regresijske modele
• za vpliv, ki ni vključen v drugi vpliv
• uporaben tudi za popolnoma hierarhične modele
115
116 Biometrija
Tabela 5.14: Viri variabilnosti za dnevni prirast iz modela 5.51 tip - II

Srednja vrednost 1 3327500.00
Mesec 1 1066.67 1066.67 8.21 0.0352
Pasma 2 10970.00 5485.00 42.19 0.0007
Mesec*pasma 2 2250.00 1125.00 8.65 0.0238
Ostanek 5 650.00 130.00
CTSS 10 14200.00
Skupno 11 3341700.00
5.4.3 Vsota kvadratov tipa III in IV
Vsote kvadratov za ta dva tipa so vse izračunane z medodo splošnih linearnih hipotez. Uporabnik mora
poznati ocenljive funkcije ali pa si jih izpisati, da prepozna hipoteze, ki so bile preverjene. Potreboval jih
bo pri interpretaciji rezultatov.
Vsota kvadratov tipa III 5.14 za posamezni vpliv je neodvisna od vrstnega reda. Predstavlja vsoto, ki
je dodatno pojasnjena, če je vpliv v modelu, oziroma je izpuščen. Pri tem smo popustli pri dejstvu, da
se vsote kvadratov seštejejo do skupne vsote kvadratov. Izra čun vsote kvadratov temelji na hipotezi,
ki jo želimo preveriti. O hipotezah in ocenljivosti se bomo pogovarjali kasneje. Ker izra čun vsot kva-
dratov za posamezne vplive ni enostaven, bomo verjeli statisti čnim paketom. Iste preizkuse živinorejci
poznajo iz “Harvey-evega programa”. Tip III lahko prakti čno vedno uporabljamo. Vsote tipa I ali II pa
uporabljamo v živinoreji samo takrat, ko so vrednosti v tabelah enake kot pri tipu III ter pri popolnem hi-
erarhičnem modelu. Učimo se jih bolj zaradi razumevanja. Včasih moramo poznati enostavnejši primer,
da razumemo malo bolj zapletene.
Pomembna predpostavka pri tipu III je, da so vse celice − vsi podrazredi− zasedeni. Polna celica ima
najmanj eno opazovanje. Praviloma to ni zadostno za dober poskus, a to je že druga zgodba. Če vemo,
da je ena celica slabo zasedena, pa tistih nekaj podatkov pustimo v obelavi, ker bo izpeljava hipotez in
s tem interpretacija lažja. Vedeti pa moramo, da bodo vse primerjave s slabo zasedeno celico oziroma
skupino nezanesljive. Če so pri interakciji manjkajoče celice, izberemo vsote kvadratov tipa IV, ker so
lahko boljše. Še vedno velja, da poskus ni bil najbolj posre čeno zasnovan. Zgodi pa se lahko, da smo
šele na koncu poskusa ugotovili, da je interakcija pomembna. Takrat pa celic ne moremo ve č popolniti
in iz poskusa poskušamo izvleči, kar se da.
Pri modelu z vplivom meseca in pasme 5.42 je delitev vsote kvadratov pri tipu III (tabela 5.15) enaka
kot pri tipu II (tabela 5.13). Vpliv meseca ni značilen. Če dodamo vpliv pasme, dodatni vpliv pojasni
vsoto kvadratov v znesku 10970.00 in za to porabi dve stopinji prostosti. Dodani del variabilnosti tudi v
tem primeru pojasni pomemben delež variabilnosti. Vpliv pasme je zna čilen. Za preizkus vplivov lahko
uporabimo vsoto kvadratov po tipu II ali III.
Tabela 5.15: Viri variabilnosti za dnevni prirast iz modela 5.42 tip - III
Mesec 1 1066.67 1066.67 2.57 0.1526
Pasma 2 10970.00 5485.00 13.24 0.0042
Ostanek 7 2900.00 414.29
CTSS 10 14200.00
Skupno 11 3341700.00
Pri modelu z vključeno interakcijo (5.51) se vsote kvadratov med tipoma II (5.14) in III (5.16) razlikujeta.
Pri interakciji je vsota kvadratov enaka, pri glavnih vplivih pa je pri tipu II precenjena. Pri podobnih
modelih uporabljamo pri preizkušanju vplivov vsote kvadratov, izra čunane po tipu III.
116
Biometrija 117
Tabela 5.16: Viri variabilnosti za dnevni prirast iz modela 5.51 tip - III
Mesec 1 558.57 558.57 4.45 0.0887
Pasma 2 8450.00 4225.00 32.50 0.0014
Mesec*pasma 2 2250.00 1125.00 8.65 0.0238
Ostanek 5 650.00 130.00
CTSS 10 14200.00
Skupno 11 3341700.00
V uporabljenih modelih so vsote kvadratov pri tipu IV enake kot pri tipu III, ker nimamo praznih celic.
5.4.4 Analiza variance v modelih za debelino hrbtne slanine
Uporabimo ista modela 5.35 in 5.13 še pri debelini hrbtne slanine. Pri tej lastnosti je ve č opazovanj,
dodali pa bomo še model s korekcijo na skupno maso 100 kg.
yi jkl = µ + Pi + M j + b(xi jk − 100) + ei jkl [5.52]
Tabela 5.17: Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 tip I
Pasma 2 399.29 199.65 30.49 <0.0001
Mesec 1 19.38 19.38 2.96 0.1035
Masa 1 0.023 0.023 0.00 0.9537
Ostanek 17 111.31 6.55
CTSS 21 530.00
Skupno 22 9330.00
Tabela 5.18: Viri variabilnosti za debelino hrbtne slanine iz modela 5.52 za tip II, III in IV
Pasma 2 256.44 128.22 19.58 <0.0001
Mesec 1 10.87 10.87 1.66 0.2148
Masa 1 0.023 0.023 0.00 0.9537
Ostanek 17 111.30 6.55
CTSS 21 530.00
Skupaj 22 9330.00
yi jkl = µ + Pi + M j + PMi j + b(xi jk − 100) + ei jkl [5.53]
5.5 Preveritev nivojev znotraj vpliva
5.6 Nov naslov
V naslednji tabeli
Povprečja po pasmah in letih. Model.
117
118 Biometrija
Tabela 5.19: Viri variabilnosti za debelino hrbtne slanine

Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F1-vrednost P-vrednost
Pasma 2
Mesec 1
Pasma*mesec 2
Masa 1
Ostanek 15
CTSS 21
Skupaj 22 9330.00
Ali so razlike
180
160
140
120
100
80
60
80 82 84 86 88 90 92 94 96
Leto preiyku[nje
180
160
140
120
100
80
60
80 82 84 86 88 90 92 94 96
Leto preiyku[nje
118
Biometrija 119
Tabela 5.20: Povprečja po pasmah in letih

2
xi j Pi yi j y2i j yi j − E yi j
80 11 68
81 11 82
82 11 90
83 11 109
84 11 104
85 11 105
86 11 107
87 11 111
88 11 115
89 11 114
90 11 115
91 11 122
92 11 128
93 11 140
94 11 132
95 11 140
96 11 167
97 11 169
80 22 89
81 22 105
82 22 100
83 22 120
84 22 114
85 22 111
86 22 108
87 22 113
88 22 115
89 22 116
90 22 110
91 22 118
92 22 123
93 22 137
94 22 126
95 22 142
96 22 166
97 22 154
83 33 125
84 33 128
85 33 121
86 33 122
87 33 130
88 33 129
89 33 126
90 33 125
91 33 131
92 33 132
93 33 146
94 33 130
95 33 139
96 33 166
97 33 166 119
120 Biometrija
160
Indeks plemenske vrednosti 140
120
100
80
60
80 82 84 86 88 90 92 94 96
Leto preiykusa
160
140 Odstopanje meritve od pri;akovane

vrednosti ya pasmo duroc
120
100
Odstopanje pri;akovane vrednosti ya
pasmo duroc od pri;akovane vrednosti
celotnega vyorca
80
60
80 82 84 86 88 90 92 94 96
Leto preiykusa
F-test in t-test Pri testiranju modelov bolj preprost model, ki privzame ni čelno hipotezo, primerjamo z
obsežnejšim, kompleksnejšim modelom, ki zastopa alternativno hipotezo. Preprostejšega dobimo tako,
da postavimo na nič nekatere parametre, parametre izenačimo ali izenačimo z neko komstanto iz obse-
žnejšega modela. Pri preizkušanju modelov praviloma predpostavimo, da eden od vplivov ni pomemben
in ga tako izpustimo.
Pri testiranju hipotez uporabljamo F−test, kadar imamo ve č nivojev pri proučevanih vplivih. V izjemnih
razmerah lahko uporabimo tudi t−test in sicer ima prou čevani vpliv samo dva nivoja. V tem primeru je
t−statistika le kvadratni koren F−statistike.
y0 Ay/ fA
F 0 ( fA , f B , λ A ) = [5.54]
y0 By/ fB
Oba testa zahtevata, da so neodvisne slučajne spremenljivke in ostanki normalno porazdeljeni. To omo-
goča, da je vsota kvadratov porazdeljena po distribuciji χ 2 .
χ2 (r(Q), λ = β0 X0 QXβ/2) [5.55]
120
1
Biometrija 121
Primer:
Vzemimo opazovanja y (5.56), ki so porazdeljena normalno s pri čakovano vrednostjo Xβ in varianco V.
Model vključuje naključno spremenljivko u, ki je tudi normalno porazdeljena (5.57).
y∼N (Xβ, V) [5.56]
u∼N (0, G) [5.57]
e∼N (0, R) [5.58]
Poleg tega morata biti kvadratni formi neodvisni. Pri kvadratni formi v imenovalcu mora biti λ = 0.
1) Preveri ocenljivost hipoteze! Hipoteza je ocenljiva, če velja:

−
K X0 V−1 X X0 V−1 X = K [5.59]
Preverjanje ocenljivosti je potrebno tudi zaradi interpretacije rezultatov. Če določena linearna kombina-
cija ni ocenljiva, se je moramo izogibati tudi pri interpretaciji.
PRIMER: Podatki za test mladic
Tako npr. ni ocenljiv sistematski vpliv pasme, zato v tekstu ne moremo napisati: “Vpliv pasme P 1 je
bil večji kot vpliv pasme P2 .” K sreči so lahko ocenljive razlike med pasmami. Tako lahko napišemo:
“Prašiči P1 so bili boljši (slabši) kot prašiči P2 .” Zgodi pa se lahko, da zaradi strukture podatkov tudi
razlike med pasmami niso ocenljive. Če se nam poskus zavleče več mesecev, moramo imeti pasme v
vseh mesecih, da lahko ločimo vpliva sezone in pasme.
Preizkusite ničelno hipotezo, da so razlike med pasmami enake 0.
Ponovite vajo tako, da pri pasmi švedska landrace ne upoštevate podatkov v januarju in februarju. •
2) Preuči distribucije odvisnih (y) in neodvisdnih (u ) naključnih spremenljivk in ostanka (e)! Ta

zahteva, da so podatki porazdeljeni normalno, je lahko bila kršena dokler smo iskali rešitve. Brž ko
jih začenjamo primerjati, z drugimi besedami testirati hipoteze, pa morajo biti opazovanja y (5.56),
naključne spremenljivke u (5.57) in ostanek e (5.58) normalno porazdeljene.
3) Preveri, ali je produkt matrike kvadratne oblike Q in V idempotenten!
QVQV = QV [5.60]
Matrika M je idempotentna, če velja 5.61. Tu bomo praktično prvič uporabili kvadrat matrike.
M = M2 = MM [5.61]
Pri teh matrikah veljata tudi naslednji dve koristni pravili. Produkt idempotentne matrike M in matrike
dogodkov X je 0 (5.62).
MX = 0 [5.62]
Rank idempotentne matrike M je enak njeni sledi (5.63).
rank(M) = tr(M) [5.63]
To zagotavlja, da je vsota kvadratov neodvisna od parametrov, to je od sistematskih vplivov.
121
122 Biometrija
4) Ugotovi rang matrike Q
5) Izračunaj λ
5.6.1 Metoda splošnih najmanjših kvadratov
5.6.1.1 Kvadratna oblika za model

Poiščimo kvadratno obliko (ang. quadratic form) za model 5.64pri metodi splonih najmanjših kvadra-
tov. Kvadratno obliko prepoznamo po tem, da je matrika kvadratne oblike Q od spredaj pomnožena z
vrstičnim vektorjem opazovanj y0 , od zadaj pa s stolpičnim vektorjem opazovanj y. Torej ima obliko
y0 Q y.
Porazdelitev opazovanj y je normalna s pričakovano vrednostjo Xβ in varianco opisano z matriko V
(5.65). Tudi naključni vpliv u (5.66) in ostanek e (5.67) sta normalno porazdeljena. Pri obeh vektorjih
so vse pričakovane vrednosti enake 0. Varianca za naključni vpliv je opisana v matriki G, za ostanek pa
v matriki R.
y = Xβ + Zu + e [5.64]
y∼N (Xβ, V) [5.65]
u∼N (0, G) [5.66]
e∼N (0, R) [5.67]
Rešitev b
β po metodi splošnih kvadratov dobimo z enačbo 5.68.
−1
b
β = X0 V−1 X X0 V−1 y [5.68]
Vsoto kvadratov za model dobimo tako, da kvadriramo pri čakovane vrednosti in jih stehtamo z ustre-
znimi variancami. To bi lahko imenovali tudi vsoto splošnih kvadratov. Ker je matrika fenotipskih
varianc V lahko sorazmeroma sestavljena, bomo uporabili kar matri čno obliko zapisa. Tako torej levi
izraz 5.69 predstavlja vsoto splošnih kvadratov za model. V izrazu na desni strani pa smo pri čakovano
vrednost opazovanj ŷ zamenjali z izrazom Xβ,b ki ga uporabljamo pri izračunu.
b0 X0 V−1 Xβ
ŷ0 V−1 ŷ = β b= [5.69]
Namesto rešitev β b vstavimo desno stran enačbe 5.68. V izrazu 5.70 smo torej že dobili vrstični in
stolpični vektor, osrednji del pa predstavlja matriko kvadratne oblike Q.
b0
β βb
z }| { z }| { [5.70]
−1 −1
y0 V−1 X X0 V−1 X X0 V−1 X X0 V−1 X X0 V−1 y
Predno pa jo dokončno proglasimo matriko

kvadratne oblike Q, izraz še malo preuredimo. V osrednjem
delu je matrika koeficientov X0 V−1 X iz desne in leve pomnožena z inverzo. Produkt se poenostavi,
ostane le inverza matrike koeficientov, kot je prikazano v 5.71.
−1 −1 −1

X0 V−1 X X0 V−1 X X0 V−1 X = X0 V−1 X [5.71]
122
Biometrija 123
Vrnimo se v izraz 5.70 in nadomestimo osrednji del z rezultatom iz 5.71. Kvadratna oblika za model je
prikazana v 5.88.
−1
= y0 V−1 X X0 V−1 X X0 V−1 y
| {z } [5.72]
Q
Sedaj pa preverimo, če je QV idempotentna matrika. Dokazati moramo, da je velja 5.73.
QV • QV = QV [5.73]
Ko smo vstavili Q iz enačbe 5.71, dobimo 5.74. V sredini izraza smo dobili desni in levi produkt matrike
varianc V z njenimi inverzami.
−1 −1
V−1 X X0 V−1 X X0 V −1
| {z VV−1} X X0 V−1 X X0 V−1 V
[5.74]
V−1
Po poenostavitvi nam ostane samo še inverza V −1 , dobili pa smo matriko koeficientov X 0 V−1 X v enačbi
5.75.
−1 −1
V−1 X X0 V−1 X X0 V−1 X X0 V−1 X X0 V
| {zV}
−1
| {z } [5.75]
I I
Ponovno imamo desni in levi produkt matrike koeficientov z inverzami, iz tega produkta izberemo npr.
desni produkt, ki nam da identično matriko in nam ostane torej samo še inverza matrike koeficientov v
enačbi 5.76. Sicer bi lahko poenostavili tudi skrajno desno stran ena čbe, a lahko zaenkrat kar pustimo
nespremenjeno. Tako bomo laže prepoznali matriko kvadratne oblike Q, ostala pa nam bo tudi matrika
varianc V v enačbi 5.76.
−1
V−1 X X0 V−1 X X0 V−1 V = QV [5.76]
Končno smo dokazali, da je matrika kvadratne oblike idempotentna.

Ugotovimo tudi rank matrike Q! Rank idempotentne matrike 5.77 je enak sledi matriki 5.78.
−1
rank V−1 X X0 V−1 X X0 V−1 V = [5.77]
−1
= tr V−1 X X0 V−1 X X0 = [5.78]
Pri sledi zavrtimo matrike in sicer matriko dogodkov X 0 postavimo na začetek izraza (5.79).
−1
= tr X0 V−1 X X0 V−1 X = [5.79]
Tako smo dobili produkt matrike koeficientov in njene inverze. Produkt je identi čna matrika I, red določa
število neznanih lokacijskih parametrov p (5.80).

tr I p = p [5.80]
123
124 Biometrija
b) Vsota kvadratov za ostanek

−1
RS S = y0 V−1 y − y0 V−1 X X0 V−1 X X0 V−1 y =
−1
y0 V−1 − V−1 X X0 V−1 X X0 V−1 y
| {z } [5.81]
Q
Preverimo, če je matrika kvadratne oblike res idempotentna.

−1 −1
V−1 − V−1 X X0 V−1 X X0 V−1 V V−1 − V−1 X X0 V−1 X X0 V−1 V
−1 −1
I − V−1 X X0 V−1 X X0 I − V−1 X X0 V−1 X X0
−1 −1 −1

I − 2V−1 X X0 V−1 X X0 + V−1 X X0 V−1 X X0 V−1 X X0 V−1 X X0
−1 −1
I − 2V−1 X X0 V−1 X X0 + V−1 X X0 V−1 X X0
−1
I − V−1 X X0 V−1 X X0
−1
I − V−1 X X0 V−1 X X0 V−1 V
5.6.2 Metoda najmanjših kvadratov
Vzemimo sedaj enostavnejši model, kjer so ostanki identi čni in neodvisni. Porazdeljeni pa so normalno.
V takih primerih lahko uporabimo metodo najmanših kvadratov.
y = Xβ + e [5.82]

y∼N Xβ, Iσ2e [5.83]
−1
b
β = X0 X X0 y [5.84]
Vsota kvadratov za model
b0 X0 Xβ
ŷ0 ŷ = β b= [5.85]
b z desno stranjo enačbe 5.84.

Nadomestimo ocene parametrov β
−1 −1
= y 0 X X0 X X0 X X0 X X0 y = [5.86]
Srednji del izraza 5.86 se poenostavi, ker velja 5.87.
−1 −1 −1

X0 X X0 X X0 X = X0 X [5.87]
124
Biometrija 125
V izrazu 5.88
0
−1
= y0 X XX 0
Xy
| {z } [5.88]
Q
Matrika kvadratne oblike je idempotentna

h −1 i h −1 i −1
Q2 = X X0 X X0 X X0 X X0 = X X0 X X0 [5.89]
rank (Q) = p [5.90]
Vsota kvadratov za ostanek

−1
RS S = y0 y − y0 X (X0 X)−1 X0 y = y0 I − X X0 X X0 y
| {z } [5.91]
M
rank (M) = n − p [5.92]

−1 −1
M2 = I − X X0 X X0 I − X X0 X X0 = [5.93]
−1 −1 −1

= I − 2X X0 X X0 + X X0 X X0 X X0 X X0 = [5.94]
−1
= I − X X0 X X0 = M [5.95]
−1
MX = I − X X0 X X0 X = X − X = 0 [5.96]
Če je V = Iσ2e , potem

E (RS S ) = E y0 My = tr (MV) + β0 X0 MXβ = tr MIσ2e + 0 = (n − p) σ2e [5.97]

RS S
E = σ2e [5.98]
n− p
, nepristranska ocena variance za ostanek

metoda REML (omejene največje zanesljivosti)
y0 My
σ̂2e = [5.99]
n−p
Pri metodi ML (največje zanesljivosti) dobimo pristranske rezultate - rezultat je podcenjen, vendar pa
je varianca ocene manjša - ocena je bolj natančna. Razlika je pomembnejša, ko je v modelu veliko
sistematskih vplivov (ali veliko nivojev). Ko pa je število opazovanj v primerjavi s stopinjami prostosti
za model veliko, pa je razlika minimalna.
y0 My
ML σ2e = [5.100]
n
(n − p) 2

E ML σ2e σe = [5.101]
n
n − p n − p 2
var ML σ2e = var σ2e = var σ2e [5.102]
n n
125
126 Biometrija
Tabela 5.21: V
k = n/p (np) /n (1 − 1/k)2
1 0 0
2 1/2 1/4
3 2/3 4/9
10 9/10 81/100
limML σ2e = REML σ2e = σ̂2e
k→∞
∞ 1 1
5.6.3 Pričakovana vrednost kvadratne oblike
y ∼ (Xβ, V) [5.103]

E tr y0 Qy = [5.104]

= E tr Qyy0 = tr E Qyy0 = tr QE yy0 = [5.105]

= tr Q V + Xββ0 X0 = [5.106]

= tr (QV) + tr QXββ0 X0 = [5.107]

= tr (QV) +tr β0 X0 QXβ =
| {z } [5.108]
skalar
= tr (QV) + β0 X0 Q Xβ
| {z } |{z} [5.109]
E (y0 ) E (y)
5.6.4 Distribucija kvadratne oblike
y ∼ N (Xβ, V) [5.110]

2 β0 X0 QXβ
y Qy ∼ χ
0
rank (Q) , λ = [5.111]
2
Rank matrike kvadratne oblike Q predstavlja stopinje prostosti (degree of freedom).

Pri vrednosti 0 je χ2 distribucija centralna, drugače pa necentralna. Da je porazdelitev kvadratne oblike
χ2 , morata biiti izpolnjena dva pogoja:
• opazovanja morajo biti porazdeljena normalno
• QV mora biti idempotentna: QVQV = QV
Vrednost λ predstavlja parameter necentralnosti (noncentrality parameter). Vrednost λ postane po-

membna pri testiranju hipotez, kar se lahko zgodi v dveh primerih:

Xβ = 0
⇒λ=0 [5.112]
QX = 0
126
Biometrija 127
PRIMER:
y = Xβ + Zu + e [5.113]
Vzemimo vsoto kvadratov za ε pri metodi splošnih najmanjših kvadratov (5.114).
(y − Xβ)0 V−1 (y − Xβ) [5.114]
ε = y − Xβ [5.115]
y0∗ V−1 y∗ [5.116]
⇒ y∗ ∼ N (0, V) [5.117]
QVQV = V−1 V V−1 V = II = I [5.118]

rank V−1 = n [5.119]
1
λ= E y0∗ QE (y∗ ) = 0 [5.120]
2
y0∗ V−1 y∗ ∼χ2 [n, λ = 0] [5.121]
PRIMER:
y = Xβ + e [5.122]

y ∼ N Xβ, Iσ2 [5.123]
(y − ŷ)0 (y − ŷ)
[5.124]
σ2
0
y − X (X0 X)−1 X0 y y − X (X0 X)−1 X0 y
[5.125]
σ2
y0 MMy M
2
= y0 2 y [5.126]
σ σ
M 2M 2
QVQV = Iσ 2 Iσ = MM = M [5.127]
σ2 σ
−1
rank M/σ2 = tr (M) = tr I − X X0 X X = n − p [5.128]
1
λ= E y0 QE (y) = [5.129]
2
1
= β0 X0 Mσ−2 Xβ = 0 [5.130]
2
M
y0 y∼χ2n−p [5.131]
σ2
127
128 Biometrija
5.6.5 Neodvisnost kvadratnih oblik
y∼N (Xβ, V) [5.132]
0 0
Vzemimo dve kvadratni obliki: y Ay in y By. Ti dve kvadratni obliki sta neodvisni, če velja AVB=0.
y0 Ay∼χ2 ( fA , λA ) [5.133]
y0 By∼χ2 ( fB , λB = 0) [5.134]
y0 Ay/ fA
∼F ( fA , fB , λA ) [5.135]
y0 By/ fB
F ( fA , fB , λA ) >necentralna F - porazdelitev
Za test hipoteze pri mešanih modelih in nebalansiranih podatkih je pomembno, da sta kvadratni obliki
neodvisni.
PRIMER:
Vzemimo kvadratni obliki za ostanek in model.
y0 y − y0 X (X0 X)−1 X0 y
RS S = = [5.136]
σ2
−1
= y0 σ−2 I − X X0 X X0 y [5.137]
−1
M=σ−2 I − X X0 X X0
β0 X0 y y0 X (X0 X)−1 X0 y
MS S = = = y0 σ−2 (I − M) y
σ2 σ2
Sta A in B neodvisna

y∼N Xβ, Iσ2
M 2M 2
QVQV = Iσ 2 Iσ = MM = M
σ2 σ
I − M 2I − M 2
QVQV = Iσ Iσ = (I − M) (I − M) = I − M − M + MM = I − M
σ2 σ2
−1
fB = rank M/σ2 = tr (M) = tr I − X X0 X X = n − p

fA = rank σ−2 (I − M) = tr (I − M) = tr (I) − tr (M) = n − (n − p) = p
1 1
λB = E y0 QE (y) = β0 X0 Mσ−2 Xβ = 0
2 2
1
λA = E y0 QE (y) =
2
128
Biometrija 129
1
= β0 X0 Mσ−2 (I − M) Xβ =
2
1
= β0 X0 Xβσ−2
2
y0 My 2
∼χn−p
σ2
y0 (I − M) y 2
∼χ p
σ2
AVB = σ−2 (I − M) Iσ2 Mσ−2 = (M − MM) σ−2 = 0
Kvadratni obliki sta neodvisni in obe imata χ 2 porazdelitev. Opravimo lahko F−test
y0 (I − M) yσ−2 /fA MMS

= ∼ F ( fA , fB .λA )
y Myσ /fB
0 −2 RMS
5.6.6 Neodvisnost linearne in kvadratne oblike
y ∼ N (Xβ, V)
Vzemimo linearno obliko Ay in kvadratno obliko y 0 By. Zanju velja, da sta neodvisni, če velja AVB = 0.
PRIMER:
A.
B.
Sta A in B neodvisna|
1y ∼ N (Xβ, V)
2
3
4
in
5
Kvadratni obliki sta neodvisni in obe imata χ 2 porazdelitev. Opravimo lahko F-test
129
130 Biometrija
Stvarno kazalo
Blok-diagonalna matrika, 39
diagonalne matrike, 38
direkne metode, 82
Identi;na matrika, 39
identi;na matrika, 39
Kvadratne matrike, 38
matrika koeficientov, 82
rang matrike, 38
red matrike, 38
simetri;ne matrike, 38
Skalar, 37
splo[na inverza, 82
transponirana matrika, 40
Vektor, 37

Biometri PDF

Uploaded by

Copyright:

Available Formats

You might also like

Biometri PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Biometri PDF

Uploaded by

Copyright:

Available Formats

Biometrija

2 PORAZDELITVE NAKLJUČNIH SPREMENLJIVK 25

3 MATRIČNI ZAPIS MODELA IN OSNOVE MATRIČNE OPERACIJE 37

4 OCENJEVANJE IN INTERPRETACIJA PARAMETROV 67

4.3.1 Ilustracija metode najmanjših kvadratov 70

5 POSTAVITEV IN TESTIRANJE HIPOTEZ 103

5.5 Preveritev nivojev znotraj vpliva 117

4.1 Število krmnih dni na živorojenega pujska po letih 70

5.1 Izračun vsote kvadratov za ostanek pri modelu 5.18 107

1.1 Populacija hroščev 14

2.1 Različne porazdelitve 26

4.1 KD na živorojenega pujska in prileganje različnih premic 71

5.1 Napoved ostanka 106

1.1.1 Raziskave in razvojno delo

• študij literature ("ne odkrivajmo Amerike ponovno")

• načrtovanje preizkusa ("postavitev dobrih temeljev")

• izvedba preizkusa ("protipotresna gradnja")

• obdelava podatkov ("fina dela in oprema")

• presoja podatkov ("bodimo kritični do svojega dela in dela drugih").

1.1.2 Iskanje informacij

(a) kontrola mlečnosti pri govedu, drobnici ...

2. Načrtovanje in izvedba poizkusov

(a) izvedemo na vzorcu

1.2 Populacija in vzorci

Slika 1.1: Populacija hroščev

• vse krave lisaste pasme v Sloveniji,

• vse plemenske svinje na farmi A,

• vsi plemenski ovni na Primorskem,

• ves krompir na njivi,

• lisaste krave v čredah z več kot desetimi kravami,

• plemenske svinje linije 12,

• plemenske svinje pasme švedska landrace in large white...

• vse krave lisaste pasme po regijah (Pomurje, Podravje ...),

• svinje na farmi A po kategorijah (mladice, prvesnice, svinje po 2. zaporedni prasitvi),

• krompir po gredah (njiva je razdeljena na grede, ki predstavljajo podmnožice).

Slika 1.2: Podmnožice zelenih, črnih in rjavih hroščev

dodatne pogoje podmnožice. Populacijo lahko na podmnožice razdelimo na ve č načinov, odvisno od

• nekaj deset krav lisaste pasme v Sloveniji,

PRIMER: Določitev vzorca

PRIMER : Primeren in neprimeren vzorec

1. Ali so študenti drugega letnika visokošolskega strokovnega (univerzitetnega) študija populacija,

3. Ali lahko krave črnobele pasme obravnavamo kot populacijo? Obrazložite!

pomlad + polet je + jesen + zima

3000 10.67 % 25.54 %

Slika 1.4: Distribucija mase toplih polovic pri praši čih

Na lastnosti, ki jih ne znate razporediti, opozorite predavatelje in jih rešite skupaj!

Z = (x1 , x2 , ... xn ) [1.3]

1.4.1 Srednje vrednosti

1.4.1.1 Aritmetična sredina

Slika 1.6: Bimodalna in polimodalna

Debelina hrbtne slanine

1.4.2 Mere razpršenosti

Slika 1.8: Normalna porazdellitev z veliko in malo razpršenostjo

Definicija: Varianca je povprečni kvadratni odklon od pričakovane vrednosti.

1.4.2.2 Standardni odklon

1.4.2.3 Standardna napaka ocene

Da dobimo enačbo 1.9, moramo končni rezultat še koreniti.

1.4.2.4 Koeficient variabilnosti