Download as pdf or txt
Download as pdf or txt
You are on page 1of 160

Mster en Estadstica i Investigaci Operativa

Ttol: Anlisi Bayesiana fent servir models lineals Autor: Anna Brichs Fernndez Director: Josep Ginebra Molins Codirector: Xavier Puig Oriol Departament: Estadstica i Investigaci Operativa Convocatria: Octubre del 2009

An` alisi Bayesiana fent servir models lineals


Anna Brichs 13 doctubre de 2009

Index
1 Introducci o a la infer` encia Bayesiana 1.1 La losoa Bayesiana . . . . . . . . . . . . . . . 1.2 El m` etode Bayesi` a . . . . . . . . . . . . . . . . 1.2.1 Distribuci o a priori . . . . . . . . . . . . 1.2.2 Model estad stic . . . . . . . . . . . . . . 1.2.3 Distribuci o a posteriori . . . . . . . . . . 1.3 Estimaci o Bayesiana . . . . . . . . . . . . . . . 1.3.1 Estimaci o puntual . . . . . . . . . . . . 1.3.2 Estimaci o per interval . . . . . . . . . . 1.4 Proves dhip` otesi . . . . . . . . . . . . . . . . . 1.5 Distribuci o predictiva a priori i a posteriori . . . 1.6 Previsi o . . . . . . . . . . . . . . . . . . . . . . 1.7 Infer` encia a partir de la simulaci o de (|y ) o de 1.8 Paquets estad stics utilitzats . . . . . . . . . . . 1.8.1 WinBUGS . . . . . . . . . . . . . . . . . 1.8.2 R . . . . . . . . . . . . . . . . . . . . . . 7 7 7 7 10 11 12 12 13 15 18 19 19 21 21 21 23 23 24 24 25 26 26 27 27 28 33 33 34 34 36 38 38 38 40 40

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P ( y |y ) . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

2 Model de regressi o lineal normal Bayesi` a 2.1 Model de regressi o lineal normal . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Regressi o lineal normal Bayesiana amb la distribuci o a priori conjugada . . 2.2.1 La distribuci o a priori conjugada . . . . . . . . . . . . . . . . . . . 2.2.2 La distribuci o a posteriori conjugada . . . . . . . . . . . . . . . . . 2.3 Regressi o lineal normal Bayesiana amb la distribuci o a priori de refer` encia 2.3.1 La distribuci o a priori de refer` encia . . . . . . . . . . . . . . . . . . 2.3.2 La distribuci o a posteriori de refer` encia . . . . . . . . . . . . . . . . 2.4 Selecci o del model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Validaci o del model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Les illes Gal` apagos 3.1 Les dades . . . . . . . . . . . . . . . . . . 3.2 An` alisi descriptiva de les dades . . . . . . 3.2.1 An` alisi univariant . . . . . . . . . . 3.2.2 An` alisi bivariant . . . . . . . . . . 3.3 Model freq uentista . . . . . . . . . . . . . 3.3.1 Selecci o del model . . . . . . . . . . 3.3.2 Validaci o del model amb la variable 3.4 Model bayesi` a . . . . . . . . . . . . . . . . 3.4.1 Denici o del model . . . . . . . . . 3

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . log (Area) . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

INDEX 3.4.2 Selecci o del model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.4.3 Validaci o del model amb la variable log (Area) . . . . . . . . . . . . . . . 50 Interpretaci o del model Bayesi` a . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 59 59 64 64 65 67 67 67 69 69 69 76 85 87 87 90 90 91 93 93 93 95 95 95 104 111 113 116 117 . 117 . 122 . 131 . 141 151 151 152 153 154 155 156

3.5

4 El pes del nad o 4.1 Les dades . . . . . . . . . . . . . . . . . . . 4.2 An` alisi descriptiva de les dades . . . . . . . 4.2.1 An` alisi univariant . . . . . . . . . . . 4.2.2 An` alisi bivariant . . . . . . . . . . . 4.3 Model freq uentista . . . . . . . . . . . . . . 4.3.1 Selecci o del model . . . . . . . . . . . 4.3.2 Validaci o del model amb les variables 4.4 Model bayesi` a . . . . . . . . . . . . . . . . . 4.4.1 Denici o del model . . . . . . . . . . 4.4.2 Selecci o del model . . . . . . . . . . . 4.4.3 Validaci o del model amb les variables 4.5 Interpretaci o del model Bayesi` a . . . . . . . 5 La volta ciclista a Espanya 5.1 Les dades . . . . . . . . . . . . . . . . . . . 5.2 An` alisi descriptiva de les dades . . . . . . . 5.2.1 An` alisi univariant . . . . . . . . . . . 5.2.2 An` alisi bivariant . . . . . . . . . . . 5.3 Model freq uentista . . . . . . . . . . . . . . 5.3.1 Selecci o del model . . . . . . . . . . . 5.3.2 Validaci o del model amb les variables 5.4 Model bayesi` a . . . . . . . . . . . . . . . . . 5.4.1 Denici o del model . . . . . . . . . . 5.4.2 Selecci o del model . . . . . . . . . . . 5.4.3 Validaci o del model amb les variables 5.5 Interpretaci o del model Bayesi` a . . . . . . . 6 Conclusions Bibliograa A Codi en R A.1 Funci o model . . . A.2 Les illes Gal` apagos A.3 El pes del nad o . . A.4 La volta ciclista . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . marepes, f uma, ht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . marepes, f uma, ht . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . i iu . . . . . . . . . i iu . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . qms i mpujats . . . . . . . . . . . . . . . . . . . . . . . . . . . qms i mpujats . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . a . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . . i . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

B Formulaci o de les distribucions B.1 MODEL1.txt . . . . . . . . . B.2 MODEL1prev.txt . . . . . . . B.3 MODEL2.txt . . . . . . . . . B.4 MODEL2prev.txt . . . . . . . B.5 MODEL3.txt . . . . . . . . . B.6 MODEL3prev.txt . . . . . . .

priori . . . . . . . . . . . . . . . . . . . . . . . .

del model estad stic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

INDEX

B.7 MODEL4.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 B.8 MODEL4prev.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 B.9 MODEL5.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

Cap tol 1 Introducci o a la infer` encia Bayesiana


1.1 La losoa Bayesiana

La infer` encia bayesiana es basa en les seg uents postulacions: 1. La probabilitat descriu graus de credibilitat, no l mits de freq u` encies. Per exemple, es pot dir que la probabilitat que hi hagu es classe dInfer` encia Bayesiana a la Facultat de Matem` atiques i Estad stiques el dia 12 de mar c del 2007 es de 0.97. Aix` o no fa cap refer` encia a cap l mit de freq u` encies, sin o que reecteix la for ca de la creen ca que la proposici o sigui certa. 2. Es poden fer armacions probabil stiques sobre els par` ametres, encara que siguin constants xes. 3. La infer` encia sobre el par` ametre sempre es basa en la distribuci o a posteriori de .

1.2

El m` etode Bayesi` a

La infer` encia bayesiana es duu a terme seguint els seg uents passos: 1. Escollir una funci o densitat () anomenada distribuci o a priori de que expressi els coneixements i les creences sobre el par` ametre abans de veure les dades. 2. Escollir un model estad stic f (y |) que reecteixi la nostra creen ca sobre y donat . 3. Despr es dobservar les dades y1 , y2 , ...yn sactualitza i es calcula la distribuci o a posteriori de , (|y1 , ...yn ), la funci o densitat del par` ametre conegudes les dades.

1.2.1

Distribuci o a priori

La infer` encia Bayesiana considera el par` ametre com una variable aleat` oria i sha de triar una distribuci o a priori sobre lespai param` etric abans de mirar les dades que reecteixi el coneixement que es t e sobre . Una q uesti o important de la infer` encia Bayesiana es com escollir o aconseguir la funci o de distribuci o a priori del par` ametre , (). Lestad stic no es qui ha de 7

1. Introducci o a la infer` encia Bayesiana

triar la distribuci o a priori i gaireb e sempre obliga a posar dacord a molts experts. Per triar-la, en principi, hom es basa en dades antigues o coneixements subjectius. A continuaci o es presenta un esquema amb les principals maneres de classicar les distribucions a priori: Informativa o subjectiva Conjugada No conjugada No informativa o objectiva o de refer` encia Plana Jereys Conjugada amb vari` ancia gran Jer` arquica Emp rica Bayesiana Distribuci o a Priori Informativa Una escola de pensament, anomenada subjectivisme, diu que la distribuci o a priori hauria de reectir la opini o subjectiva de lexpert sobre abans de recollir les dades. Aix` o pot ser possible en alguns casos, per` o es impracticable en molts problemes complicats, especialment si hi ha molts par` ametres. Distribuci o a Priori Conjugada Quan la distribuci o a priori i la distribuci o a posteriori s on de la mateixa fam lia, es diu que la distribuci o a priori es conjugada respecte el model. En aquests casos passar de la distribuci oa priori a la posteriori nom es requereix actualitzar els par` ametres. Nom es existeixen distribucions a priori conjugades per models de la fam lia exponencial. A a la taula 1.1 es mostra un quadre resum de les principals distribucions conjugades. Els par` ametres de la distribuci o a priori s on coneguts. A lhora de triar els par` ametres de la distribuci o a priori de la fam lia conjugada normalment es juga amb lesperan ca, E [], i la vari` ancia a priori, V ar []. Com m es gran es la vari` ancia a priori V ar [] menys informativa i menys subjectiva es la distribuci o a priori. Distribuci o a Priori Informativa no Conjugada Les distribucions a priori informatives no conjugades s on totes aquelles distribucions a priori que aporten informaci o i no s on conjugades. S on les ideals, per` o es molt dif cil que lexpert les tingui. Moltes vegades surten de comen car a triar una distribuci o predictiva a priori i reconstruint la distribuci o a priori a partir de la predictiva. Distribuci o a Priori de Refer` encia La idea seria que per cada model estad stic els estad stics es posessin dacord sobre quina () fer servir si no es vol suposar res sobre i que interfereixi el m nim amb les dades. A aquest

1.2. El m` etode Bayesi` a

Distribuci o a Priori Beta(, ) Gamma(, ) Gamma(, )


2 ) N ormal(0 , 0

Model Estad stic y | Binomial(n, ) y | P oisson() y | Exponencial() y | N ormal(, 2 ) y | 2 N ormal(, 2 ) y | N eg Bin(r, ) y | M ultinomial(n, )

Distribuci o a Posteriori
n n

|y Beta(
i=1

yi + , n
n i=1 i=1

yi + )

|y Gamma( +

yi , + n)
n

|y Gamma( + n, + |y N ormal(
n
1 y + 1 2 0 2 o 1 1 2 +n 2 0

yi )
i=1 1

2 2 Inv 2 (0 , 0 )

2 |y Inv 2 (o + n,

1 1 2 +n 2 0 n 2+ (yi )2 0 0 i=1

o +n

Beta(, ) Dirichlet(1 , ..., k )

|y Beta( + nr, +
i=1

yi )

|y Dirichlet(1 + y1 , ..., k + yk )

Taula 1.1: Taula de les distribucions conjugades.

consens nom es shi ha arribat pels models m es senzills. Distribuci o a Priori de Refer` encia Plana Una de les distribucions a priori de refer` encia que sutilitza es la distribuci o a priori plana () constant, es a dir, d ona la mateixa probabilitat a tots els valors de lespai param` etric . El principal avantatge es que la distribuci o a posteriori passa a ser proporcional a la funci o de versemblan ca. Quan sadopta la distribuci o a priori plana () constant noteu que ()d = i, per tant, no es una funci o de densitat en el sentit usual, sin o que es una distribuci o a priori impr` opia. No obstant, encara es pot dur a terme el teorema de Bayes i calcular la distribuci o a posteriori multiplicant la distribuci o a priori i la versemblan ca (m es informaci o a lapartar 1.2.3). En general, les distribucions a priori impr` opies no s on cap problema sempre i quan la distribuci o a posteriori sigui una funci o densitat ben denida. Tamb e sha de tenir en compte que la distribuci o a priori plana no es invariant quan es reparametritza. Distribuci o a Priori de Jereys Una altra opci o es escollir la distribuci o a priori de Jereys. Jereys suggereix crear la distribuci o a priori de la seg uent manera: () I () 2 on I () es la funci o dinformaci o de Fisher. Aquestes distribucions a priori s on invariants a la reparametritzaci o. Distribuci o a Priori de Refer` encia Conjugada Consisteix en escollir una distribuci o a priori conjugada amb vari` ancia molt gran (V ar() +) per tal dassegurar-se que tots els valors possibles del par` ametre s on probables sota la distribuci o a priori . Distribuci o a Priori Jer` arquiques Les dades es distribueixen segons y | p(y |) i la distribuci o a priori de es | (| ).
1

10

1. Introducci o a la infer` encia Bayesiana

Per` o com que no se sap quan es se li crea una distribuci o a priori, anomenada hiperpriori ( ), que es coneguda. El problema es complica, per` o amb els algorismes basats en les cadenes de Markov i Monte Carlo (MCMC) es possible abordar-los. En el fons, el cas jer` arquic es pot reescriure de 2 maneres alternatives: 1. y | p(y |) on () = 2. y | p(y | ) = (| )( )d

p(y |) (| )d on ( )

Distribuci o a Priori Emp rica Com ja sha explicat, les dades es distribueixen segons y | p(y |) i la distribuci o a priori de es | (| ). Els emp rics bayesians escullen la com la que sajusta millor a les dades; sovint sagafa lestimador m` axim versemblant M V . Daquesta manera es fan servir les dades dues vegades, una per obtenir la distribuci o a priori i laltra per calcular la distribuci oa posteriori. Per tant, no es v` alid des de un punt de vista bayesi` a.

1.2.2

Model estad stic

Un model estad stic es una llista de models de probabilitat que comparteixen un mateix espai mostral i que estan indexades per un par` ametre que pertany a lespai param` etric : M = {p (y |); } on p (y ) es el model de probabilitat, es a dir la distribuci o de les dades y , i es lespai param` etric. Lobjectiu de la infer` encia estad stica consisteix en esbrinar quin valor de ha generat les dades. Sha desbrinar quina de les distribucions es la bona. Com m es gran sigui m es gran ser` a la llista de distribucions i m es dif cil el problema de lestad stic. No hi ha estad stica de cap tipus sense model estad stic. Un cop recollides les dades Y = y , la idea de Fisher es que tota la informaci o daquestes sobre els par` ametres, est` a continguda en la funci o de versemblan ca:
y ( )

= p(Y = y |).
y ( ),

La idea intu tiva es que com m es gran sigui la funci o de versemblan ca versemblan ca que les dades provenen del model de probabilitat p(y |). Sobserva que
y ( )

m es gran es la

= p(Y = y |) no es una densitat de probabilitat perqu` e p(Y = y |)d = 1.

Sanomena versemblan ca estandarditzada a


st lY =y ( ) =

p(Y = y |) . p(Y = y |)d

1.2. El m` etode Bayesi` a

11

st Es pot fer servir lY es que la versem=y ( ) com a densitat de probabilitat de ? El problema blan ca no es comporta com una densitat de probabilitat quan es reparametritza. Per convertir la versemblan ca en probabilitat cal acceptar la teoria Bayesiana. La distribuci o a priori es el que fa falta per convertir la funci o de versemblan ca en una aut` entica densitat de probabilitat.

1.2.3

Distribuci o a posteriori

Per veure com es duu a terme el c` alcul de la distribuci o a posteriori, primer se suposa que el par` ametre es discret i que sobt e una observaci o discreta de Y . Ara, en lescenari discret, sobt e: P (Y = y | = )P ( = ) P (Y = y, = ) = P ( = |Y = y ) = P (Y = y ) P (Y = y | = )P ( = )

que es reconeix com el Teorema de Bayes. La versi o en escenaris continus sobt e usant les funcions de densitat: f (y |) () . (|y ) = f (y |) ()d() Si hi ha n observacions independents i id` enticament distribu des (i.i.d.) Y1 , ...Yn , aleshores:
n

f (y |) =
i=1

f (yi |) =

n ( )

(|y1 , ...yn ) =

f (y1 , ...yn |) () = f (y1 , ...yn |) ()d()

n ( ) ( )

n ( ) ( )

on c = en de i, per tant, es constant. A aquesta constant se lanomena n ( ) ( )d( ) no dep` constant normalitzada i no es necess` aria calcular-la per tenir la distribuci o a posteriori de . Moltes vegades nhi ha prou multiplicant la funci o de versemblan ca ( n ()) per la distribuci oa priori ( ()) i buscar la constant que fa que la distribuci o a posteriori ( (|y )) integri a 1. (|y1 , ...yn )
n ( ) ( )

En el cas multi param` etric, es suposa que = (1 , ...p ), la distribuci o a posteriori segueix sent: (|y1 , ...yn )
n ( ) ( ).

Ara la q uesti o recau en com extraure infer` encia sobre un par` ametre. La clau es trobar la distribuci o marginal a posteriori del par` ametre dinter` es. Per fer infer` encia sobre 1 , la distribuci o marginal a posteriori de 1 es: (1 |y1 , ...yn ) = ... (1 , ...n |y1 , ...yn )d2 ...dn .

A la pr` actica, pot passar que no es pugui fer aquesta integral, aleshores es recorre als m` etodes de les cadenes de Markov i Monte Carlo (MCMC).

12

1. Introducci o a la infer` encia Bayesiana

Si sha escollit una distribuci o a priori de refer` encia plana, aleshores la distribuci o a posteriori es proporcional a la versemblan ca: (|y1 , ...yn ) (|y1 , ...yn ) =
n ( ) ( ) n ( )

n ( ) st n ( ).

()d n

La distribuci o a posteriori dep` en de les dades nom es a trav es de la versemblan ca i, per tant, respecta el principi de versemblan ca.

1.3

Estimaci o Bayesiana

Un cop sobt e la distribuci o a posteriori (|y ) ja es t e tota la informaci o sobre . (|y ) es un estad stic sucient i, per tant, es pot prescindir de la resta, sempre i quan el model assumit sigui correcte. Es pot dir que lestimador bayesi` a de es (|y ). A partir de la distribuci oa posteriori de es fa tota la infer` encia. Per` o, com es sistematitza (|y )? Com es contesten preguntes sobre a trav es de (|y ) si hi ha m es de 2 par` ametres? Si el que es vol es fer infer` encia sobre g () un bayesi` a l unic que ha de fer es un canvi de variable: (g ()|y ). En el fons, els estimadors no s on ni freq uentistes ni bayesians. Els estimadors s on funcions de les dades. El que es freq uentista o bayesi` a es la manera dinterpretar-los.

1.3.1

Estimaci o puntual

Per obtenir una estimaci o puntual sutilitza qualsevol mesura de tend` encia central com la mitep = E (|y )), la mediana ( medap = mediana (|y )) o la moda ( map = moda (|y )) jana ( de la distribuci o a posteriori de . Si la vari` ancia a posteriori es gran, aquestes mesures no aporten molta informaci o. map Sobserva que es lestimador que maximitza (|y ). Com que (|y ) = ()p(y |) , ()p(y |)d()

map es el valor que tamb e maximitza ()p(y |). La moda a posteriori i lestimador m` axim versemblant tenen propietats semblants. Si () es una constant, quan maximitzem la moda a posteriori tamb e estem maximitzant la versemblan ca. La mediana no es pot calcular per a par` ametres multivariants, perqu` e nom es s on ordenables 1 els valors en R .

1.3. Estimaci o Bayesiana

13

1.3.2

Estimaci o per interval

Es deneix la regi o de credibilitat p per (Cp (y )) com a qualsevol subconjunt de lespai de par` ametres tal que: P ( Cp (y )|y1 ...yn ) =
Cp ( y )

(|y )d = p.

Cp (y ) pot ser una uni o de subconjunts. Les regions de credibilitat hdp (highest posterior density) s on les regions de m` axima densitat de probabilitat i, per tant, s on les de volum m nim. Qualsevol punt fora de Cp (y ) t e una densitat de probabilitat inferior. Les regions de credibilitat hpd generalitzen molt b e els espais de par` ametres Rp , p 2, per` o no s on invariants davant de parametritzacions. Poden ser regions inconnexes i s on dif cils de calcular, tant si sobt e la distribuci o a posteriori de forma anal tica com per simulaci o. El punt fort daquestes regions es que s on els intervals m es petits i el punt d` ebil es la dicultat de c` alcul.

Figura 1.1: Regi o de credibilitat hdp. En aquest cas, Cp (y ) = [0.41, 10]

14

1. Introducci o a la infer` encia Bayesiana

En el cas que sigui real, tamb e es pot obtenir una estimaci o per interval calculant regions 1p p i 1 de (|y ): p-cre bles centrades a partir dels percentils 1 2 2
1p

Cp (y ) = [q(2|y) , q(|y2) ] S on f` acils destimar a partir de mostres grans simulades de (|y ). L unic que sha de fer es simular una mostra gran (1 , 2 , ..., n ), ordenar-la i agafar el percentil
1 1p 1p 2
1p

1 1p

( q(2|y) ) i 1

1p 2

( q(|y2) ). Per` o aquest interval no es extrapolable en el cas que Rp , p 2, es a dir, nom es es pot calcular per un par` ametre. S on invariants davant de reparametritzacions mon` otones i no poden ser intervals inconnexes.

Figura 1.2: Regi o p-cre ble centrada. En aquest cas, Cp (y ) = [1.00, 11.81]

1.4. Proves dhip` otesi

15

1.4

Proves dhip` otesi

Les proves dhip` otesi bayesianes es plantegen de la seg uent manera: H1 : p(y |) {p1 (y |); 1 } M1 H2 : p(y |) {p2 (y |); 2 } M2 on p1 i p2 poden ser diferents distribucions i 1 i 2 poden ser de diferent dimensi o. Fer una prova dhip` otesi bayesiana vol dir triar entre 2 models. Impl citament se suposa que el model inicial es M = M1 M2 = {p1 (y |); 1 } {p2 (y |); 2 } i la pregunta que es fa es si la y ve de M1 o de M2 . Es divideix el model inicial M en 2 submodels, M1 i M2 . Depenent com es fa aquesta divisi o sobt e aquests 3 tipus de prova dhip` otesi: simple versus simple H1 : = 1 H2 : = 2 simple versus composta H1 : = 1 H2 : = 1 composta versus composta H1 : (a, b) H2 : / (a, b) Noteu que la prova dhip` otesi composta versus composta es impossible de realitzar per un freq uentista.
1 . Per A lhora dacceptar una hip` otesi o una altra, sescull la hip` otesi Hi tal que P (Hi |y ) > 2 calcular P (Hi |y ) sutilitza el teorema de Bayes:

P (H1 |y ) = P (H2 |y ) = en el cas simple i

P (y |H1 )P (H1 ) (1 )p(y |1 ) = P (y |H1 )P (H1 ) + P (y |H2 )P (H2 ) (1 )p(y |1 ) + (2 )p(y |2 ) P (y |H2 )P (H2 ) (2 )p(y |2 ) = P (y |H1 )P (H1 ) + P (y |H2 )P (H2 ) (1 )p(y |1 ) + (2 )p(y |2 )

P (H1 ) P (H1 |y ) =
1

p(y |1 )1 (1 )d1 p(y |2 )2 (2 )d2


2

P (H1 )
1

p(y |1 )1 (1 )d1 + P (H2 )

P (H1 )E1 [p1 (y |1 )] P (H1 )E1 [p1 (y |1 )] + P (H2 )E2 [p2 (y |2 )] P (H2 ) p(y |2 )2 (2 )d2
2

P (H2 |y ) =

P (H1 )
1

p(y |1 )1 (1 )d1 + P (H2 )


2

p(y |2 )2 (2 )d2

16

1. Introducci o a la infer` encia Bayesiana P (H2 )E2 [p2 (y |2 )] P (H1 )E1 [p1 (y |1 )] + P (H2 )E2 [p2 (y |2 )]

= en el cas compost.

Figura 1.3: Prova dhip` otesi on H1 : (0, 4) i H2 : / (0, 4) Sha descollir una distribuci o a priori (1 (1 ), P (H1 ), 2 (2 ),P (H2 )). Una possibilitat es esco1 llir la distribuci o a priori neutre P (H1 ) = P (H2 ) = 2 . En les proves dhip` otesi es l unic moment de la infer` encia bayesiana on les distribucions a priori no poden ser impr` opies (recordeu que les distribucions a priori planes ho s on). Aleshores es fa el seg uent c` alcul: P (H1 ) p(y |1 ) P (H1 ) P (H1 |y ) = = P (H2 |y ) P (H2 ) p(y |2 ) 1 P (H1 ) Anomenem Factor de Bayes a F B =
p(y |1 ) p(y |2 ) y (1 ) y (2 )

. que nom es dep` en de


P (H1 ) P (H2 )

y (1 ) y (2 )

E1 [p1 (y |1 )] , E2 [p2 (y |2 )]

les dades i del model estad stic. El Factor de Bayes es el que converteix la Aleshores tenim P osteriori Odds P riori Odds F actor de Bayes.

en

P (H1 |y ) . P (H2 |y )

Si no es pot calcular la distribuci o a posteriori per` o es pot simular, aleshores per estimar la P (Hi |y ) = P ( i |y ) l unic que sha de fer es comptar quantes simulades caben a i ,

1.4. Proves dhip` otesi sempre i quan les i siguin disjuntes: P (Hi |y ) = P ( i |y ) = s que estan a i . total de simulacions de

17

El valor que surt del c` alcul dels odds a posteriori es important. Per exemple, si el valor dels odds a posteriori val 2 vol dir que la hip` otesi 1 es el doble de probable que la hip` otesi 2. La metodologia bayesiana permet dues generalitzacions molt b` esties sense complicar-se la vida. Com ja sha vist es pot comparar 2 models qualssevol encara que no estiguin aniuats. La formulaci o bayesiana es m es general i m es f` acil de calcular. Fins i tot permet comparar m es de dues hip` otesis: H1 : p(y |) {p1 (y |); 1 } M1 H2 : p(y |) {p2 (y |); 2 } M2 ... Hk : p(y |) {pk (y |); k } Mk Es necessiten les distribucions a priori i (i ) i P (Hi ) tenint en compte que
i

P (Hi ) = 1.

En el cas que totes les hip` otesis tinguin la mateixa distribuci o pi , l unic que sha de fer es calcular la distribuci o a posteriori (|y ) i escollir la Hi tal que tingui l` area m es gran, com indica la gura 1.4. En cas contrari, es a dir, que les distribucions pi siguin diferents per a cada hip` otesi, no es pot utilitzar una distribuci o a posteriori per a totes les hip` otesis. Aleshores sobt e un Factor de Bayes per a cada parell dhip` otesis. Es calculen tots els Factors de Bayes i es busca el m es gran. P (Hi |y ) = Pi (y )P (Hi ) k j =1 Pj (y )P (Hj ) P (Hj |y ) P (Hi |y )

F Bji =

18

1. Introducci o a la infer` encia Bayesiana

Figura 1.4: Prova dhip` otesi general amb la mateixa distribuci o per totes les hip` otesis on H1 : (, 5), H2 : (5, 0), H3 : (0, 4) i H4 : (4, +).

1.5

Distribuci o predictiva a priori i a posteriori

Un dels gran problemes de la infer` encia estad stica es contestar preguntes sobre valors futurs de y , es a dir, fer predicci o. Per resoldre aquest problema el bayesi` a deneix la distribuci o predictiva a priori (P ( y )) i la distribuci o predictiva a posteriori (P ( y |y )), on y simbolitza una observaci o futura. La distribuci o predictiva a priori (P ( y )) es la distribuci o sobre les y s que resulta de promitjar la distribuci o del model estad stic fent servir la distribuci o a priori com a factor de ponderaci o: P ( y) =

p(y |) ()d = E() [p(y |)].

que no es m es que la distribuci o marginal de y i es la que millor representa o resumeix el model M = {P (y |); }. Abans de recollir les dades tenim: M = {p(y |); } ().

1.6. Previsi o

19

Si abans de recollir les dades, es demana quina es la densitat de probabilitat que millor resumeix el que se sap sobre y o les prediccions a priori, el bayesi` a pot donar la distribuci o predictiva a priori, que es la densitat que millor representa la y a priori. Si el que es demana es la predicci o a posteriori hem de rec orrer a la distribuci o predictiva a posteriori. Un cop observades les dades, l unic que canvia es que la distribuci o a priori passa a distribuci o a posteriori i, per tant, el model de probabilitat que millor representa les y s ser` a la distribuci o predictiva a posteriori (P ( y |y )), denida de la seg uent manera: P ( y |y ) =

p(y |) (|y )d = E(|y) [p(y |)].

1.6

Previsi o

Hi ha 2 tipus dinfer` encia: infer` encia sobre i infer` encia sobre y . Per fer infer` encia sobre sutilitza la distribuci o a priori () o la distribuci o a posteriori (|y ). I per fer infer` encia sobre y sutilitza la distribuci o predictiva a priori P ( y ) o la predictiva a posteriori P ( y |y ). El millor estimador de y es P ( y |y ). Per predir futurs valors de y ( y ) el que cal fer es gracar la predictiva a posteriori (P ( y |y )). Si es vol un estimador puntual de y es pot fer servir qualsevol mesura de tend` encia central de la distribuci o predictiva a posteriori com per exemple lesperan ca (E [ y |y ]). Si es vol una mesura del grau dincertesa amb el que es coneix y es pot donar regions de credibilitat basades en P ( y |y ). Si es vol fer proves dhip` otesi de lestil H1 : y [a, b] H2 : y / [a, b] sha de calcular la probabilitat de la hip` otesi 1, P (H1 ) = P ( y [a, b]|y ), i la probabilitat de la hip` otesi 2, P (H2 ) = P ( y / [a, b]|y ), per saber quina es la m es cre ble.

1.7

Infer` encia a partir de la simulaci o de (|y ) o de P ( y |y )

El bayesi` a nom es ha descollir () i calcular (|y ) = ()p(y |) ()p(y |). ()p(y |)d

Trobar (|y ) a vegades es trivial si reconeixes que ()p(y |) t e una forma dun model concret.

20

1. Introducci o a la infer` encia Bayesiana

A la pr` actica, moltes vegades es fa dif cil calcular el denominador de forma anal tica. Si es petit, el denominador es pot calcular de forma num` erica. Per` o quan el c` alcul del denominador es complica, en comptes de calcular (|y ) de forma tancada es pot aproximar a partir de simular mostres tant grans com es vulgui. Per a la simulaci o de les mostres sutilitzen t` ecniques basades en m` etodes de les cadenes de Markov i Monte Carlo (MCMC). Qu` e farem amb la mostra 1 , 2 , ...n de (|y )? |y ) a trav 1. Es pot estimar ( es de diagrames de punts o lhistograma de la mostra 1 , 2 , ...n . es pot fer servir 2. Si es vol estimar puntualment
n

i |y ] = E [ amb n tant gran com es vulgui. 3. Si es vol una regi o de credibilitat p,


1p 2 [P(2 |y ) , P (|y ) ],

i=1

1 1p

l unic que sha de fer es ordenar la mostra simulada (1) , (2) , ...(n) i estimar a partir dels percentils mostrals: [(n 1p ) , (n(1 1p )) ].
2 2

i |y ) com 4. Si es vol fer un test dhip` otesi es calcula P (H i |y ) = P ( i |y ) P (H j i n

5. Si es vol un mostra de (g ()|y ) l unic que sha de fer es calcular g (1 ), g (2 ), ..., g (n ) 6. Si es vol fer prediccions, el que cal es simular la predictiva a posteriori seguint aquests 2 passos: (a) Simular i (|y ). (b) Simular y i P ( y |i ) i obtenir la mostra de la predictiva a posteriori (y 1, y 2 , ..., y n) P ( y |y ). A partir de la mostra y o, estimar y , buscar 1, y 2 , ..., y n es pot dibuixar la seva distribuci regions de credibilitat per y , fer test dhip` otesi, etc, de la mateixa manera que sha explicat amb la mostra 1 , 2 , ...n . Lestad stic bayesi` a, l unic que ha de fer es decidir com presenta (1 , 2 , ..., n ) (|y ) o b e (y y |y ). 1, y 2 , ..., y n ) P (

1.8. Paquets estad stics utilitzats

21

1.8
1.8.1

Paquets estad stics utilitzats


WinBUGS

El programa WinBUGS est` a desenvolupat per a problemes dinfer` encia estad stica bayesiana utilitzant el m` etode de Monte Carlo fent servir cadenes de Markov, MCMC. Una dicultat recurrent a la infer` encia bayesiana ha sigut la gran complexitat computacional que presenta en molts casos el c` alcul de les distribucions a posteriori. En els u ltims anys sestan utilitzant els m` etodes MCMC, que, mitjan cant la simulaci o de Monte Carlo de les cadenes de Markov, permeten salvar aquestes dicultats. El programa WinBUGS, de lliure acc es i dissenyat pels brit` anics Spiegelhalter, Thomas i Best el 1989, implementa aquestes t` ecniques, i possibilita el seu u s a un ampli n umero dusuaris de lestad stica bayesiana aplicada. Algorismes per generar cadenes de Markov amb distribuci o estacion` aria de (|y ) nhi ha molts. El WinBUGS utilitza el Gibbs Sampling (BUGS: Bayesian inference Using Gibbs Sampling). Els algorismes de MCMC necessiten un punt de partida per comen ca a simular, els anomenats valors inicials. Lalgorisme no garanteix que les simulacions siguin incorrelacionades. Per aix` o les primeres simulacions, que anomenarem simulacions descalfament, no sutilitzen i sutilitzen nom es unes quantes simulacions equiespaiades. Aquest programari es troba a la web http://www.mrc-bsu.cam.ac.uk/bugs/. Noteu que WinBUGS treballa amb la precisi o i no amb la vari` ancia.

1.8.2

Tamb e sha utilitzat per aquest treball el paquet estad stic de lliure acc es R. Des de R sexecuta el model implementat en WinBUGS, utilitzant la llibreria R2WinBugs (primer sha dinstallar de zip local les llibreries coda i R2WinBugs ). Totes les representacions gr` aques daquest treball han estat implementades amb R. Aquest programari es troba a la web http://www.r-project.org/.

Cap tol 2 Model de regressi o lineal normal Bayesi` a


En aquest cap tol sestudia com es fa la regressi o lineal normal bayesiana. Sestudiar` a escollint dos tipus de distribucions a priori: la conjugada i la de refer` encia. Despr es sestudia en cada cas com es comporta la distribuci o a posteriori, a partir de la qual es fa la infer` encia obtenint les estimacions dinter` es.

2.1

Model de regressi o lineal normal

El model lineal sescriu de la forma seg uent: y = X + y es un vector columna de dimensi o n que cont e la variable resposta de les n observacions que es prendran de les dades, X es una matriu de dimensi o n p que cont e el valor de les p variables explicatives per cada una de les n observacions, es un vector columna de dimensi o p que cont e els par` ametres i es el vector columna de dimensi o n que cont e els errors aleatoris. Sassumeix que es una variable aleat` oria de mitjana 0 i vari` ancia 2 . En aquest cap tol es treballar` a suposant que hi ha homoscedasticitat, es a dir, vari` ancia constant (V ar[y |, X ] = 2 ). Si es distribueix segons una normal, aleshores el model es descriu com un model lineal normal. Aix` o signica que la distribuci o de y , condicionada pels par` ametres i 2 , es una distribuci o normal multivariant: y |, 2 N ormal(X, 2 I ) on I es la matriu identitat de dimensi o n. 23

24

2. Model de regressi o lineal normal Bayesi` a

2.2
2.2.1

Regressi o lineal normal Bayesiana amb la distribuci o a priori conjugada


La distribuci o a priori conjugada

Aix doncs, si es vol escollir una distribuci o a priori que sigui conjugada de la Normal, caldr` a 2 assumir que la distribuci o conjunta a priori del par` ametres i es la Normal-Inversa-Gamma, , 2 N IG(a, b, m, V ), els par` ametres de la qual es determinaran en funci o dels coneixements previs a la recollida de dades que tinguem sobre i 2 . es una Normal i la distribuci o a priori de 2 La distribuci o a priori de , condicionada per 2 , es una Inversa Gamma: | 2 N ormal(m, 2 V ) b a b 2 IG( , ) 2 . 2 2 a

es una t Daquestes dues distribucions es dedueix que la distribuci o marginal a priori de dStudent: a 1 V 2 ( m) t studenta b b t studenta (m, V ). a

A partir daquestes distribucions a priori es pot obtenir lesperan ca i la vari` ancia dels par` ametres en estudi. En el cas de les s la seva esperan ca i la seva vari` ancia s on les seg uents: E [ ] = m b V. a2

V ar[ ] =

I en el cas de la 2 , la seva esperan ca i la seva vari` ancia s on: E [ 2 ] = b a2 on a > 2

V ar[ 2 ] =

2b2 (a 2)2 (a 4)

on a > 4.

2.2. Regressi o lineal normal Bayesiana amb la distribuci o a priori conjugada

25

2.2.2

La distribuci o a posteriori conjugada

es una Normal-Inversa-Gamma Tenint en compte que la distribuci o conjunta a priori de i 2 amb par` ametres a, b, m i V , combinant-la amb la funci o de versemblan ca sobt e que la es una Normal-Inversa-Gamma amb par` ametres a , distribuci o conjunta a posteriori de i 2 b , m i V , 2 |y N IG(a , b , m , V ) on a = a + n
2 b = b + (n p)SR + (m M V ) (V + (X X )1 )1 (m M V )

m = (X X + V 1 )1 (X y + V 1 m) = (I A)m + A M V = E [ | 2 , y ] V = (X X + V 1 )1 = V ar[ | 2 , y ] A = (X X + V 1 )1 X X M V = (X X )1 X y. Aleshores, un cop conegudes les dades, la , condicionada per 2 , segueix una Normal i la 2 segueix una Inversa Gamma: | 2 , y N ormal(m , 2 V ) 2 |y IG( b a b , ) 2 . 2 2 a

Daquestes dues distribucions es dedueix la distribuci o marginal a posteriori de : a 1 V 2 ( m )|y t studenta b b |y t studenta (m , V ) a

Daquest manera, a partir de les distribucions a posteriori es pot obtenir lesperan ca i la vari` ancia dels par` ametres en estudi per tal de trobar estimacions daquests. En el cas de les s, la seva esperan ca a posteriori es: E [ |y ] = m = (I A)m + A M V on A = (X X + V 1 )1 X X , i la seva vari` ancia a posteriori es: V ar[ |y ] = b V . a 2

26

2. Model de regressi o lineal normal Bayesi` a

Com es pot observar lesperan ca a posteriori de es un promig entre lesperan ca a priori i lestimaci o del par` ametre obtinguda amb les dades. I en el cas de la 2 , la seva esperan ca i la seva vari` ancia s on: E [ 2 |y ] = b a 2 on a > 2

V ar[ 2 |y ] =

2b2 (a 2)2 (a 4)

on a > 4.

A la pr` actica, a lhora dobtenir la distribuci o a posteriori no es recorre a aquestes f ormules, sin o que sobt e a partir de simulacions calculades amb el WinBUGS.

2.3
2.3.1

Regressi o lineal normal Bayesiana amb la distribuci o a priori de refer` encia


La distribuci o a priori de refer` encia

Quan no es t e cap informaci o a priori sobre els par` ametres, sutilitza la distribuci o priori de refer` encia. Per obtenir-la es fa u s de la fam lia conjugada on la vari` ancia a priori tendeixi a innit. Com que en el cas que sest` a estudiant se suposa que les dades provenen duna normal, sutilitza com a distribuci o conjunta a priori de refer` encia de i 2 la Normal-Inversa-Gamma, tenint en compte que V tendeix a innit i, per tant, V 1 tendeix a 0. Aleshores: f (, 2 ) ( 2 )
(a+p+2) 2

e 2 2 .

En aquesta expressi o, es distribueix com una uniforme impr` opia i 2 prov e duna Inversa Gamma amb par` ametres b i a + p. La distribuci o a priori impr` opia convencional de 2 es f ( 2 ) 2 , recomanada per par` ametres positius, que sobt e en aquest cas prenent els valors a = p i b = 0. Aleshores, f (, 2 ) 2 f ( ) 1.

2.4. Selecci o del model

27

2.3.2

La distribuci o a posteriori de refer` encia

Un cop observades les dades, considerant la distribuci o a priori de refer` encia, la distribuci o 2 conjunta a posteriori de i es una Normal-Inversa-Gamma amb par` ametres a , b , m i V , 2 |y N IG(a , b , m , V )

Si escollim una distribuci o a priori de refer` encia, V 1 tendeix a 0, la a tendeix a p i la m i la b tendeixen a 0, els par` ametres a , b , m i V s on: a = n p
2 b = (n p)SR

m = M V = (X X )1 X y V = (X X )1 . o la distribuci o a posteriori esdev e impr` opia. Ara es necessari que X X 1 sigui no-singular, sin Quan hom no t e informaci o a priori sobre o aquesta t e poc pes, les dades aportaran la informaci o sobre . La distribuci o marginal a posteriori de , coneixent 2 , es en aquest cas: | 2 , y N ormal( M V , 2 (X X )1 ). La distribuci o a posteriori de , coneixent 2 i amb una distribuci o a priori de refer` encia, es a normalment distribu t amb mitjana an` aloga a la infer` encia cl` assica, on lestimador M V est` 2 1 i vari` ancia (X X ) . axim versemblant del par` ametre: Lesperan ca a posteriori de coincideix amb lestimador m` E [ | 2 , y ] = m = M V . A la pr` actica, a lhora dobtenir la distribuci o a posteriori no es recorre a aquestes f ormules, sin o que sobt e a partir de simulacions calculades amb el WinBUGS.

2.4

Selecci o del model

A lhora de seleccionar el model, sutilitzaran dos m` etodes diferents. Primer buscarem el model pas a pas, partint del model complet i observarem la distribuci o a posteriori de les s. Si alguna delles es pot considerar que la probabilitat a posteriori que estigui a prop de 0, es a dir, la regi o de credibilitat del 95% inclogui el 0, traurem la variable corresponent del model. En el cas que tinguem m es duna i amb alta probabilitat destar a prop de 0, traurem la i m es centrada al 0. Per saber quina es calcularem el min( (i > 0|y ), (i < 0|y )) per cada i i traurem la que doni l` area m es gran.

28

2. Model de regressi o lineal normal Bayesi` a

Laltre m` etode que sutilitzar` a per escollir el model consisteix en comparar mesures de bondat dajust de tots els possibles models. Les mesures de bondat dajust que utilitzarem s on les seg uents: Sumes dels errors al quadrat (SQE ):
n p

SQE (0 , 1 , ..., p ) =
i=1

(yi (0 +
j =1

j xji ))2

Com es de suposar, com m es petit sigui la suma dels errors al quadrat millor sajusta el model a les dades. El principal problema daquesta mesura de bondat dajust es que com m es variables tingui el model, m es petit es el valor de SQE . Sha de tenir en compte que sota la perspectiva Bayesiana, SQE es una variable aleat` oria ja que es funci o dels par` ametres. Criteri de la informaci o de la devian ca (Deviance Information Criterion - DIC ): DIC = pD + D D() = 2log (p(y |)) + C = E [D()] D ) D ( pD = D Tamb e interessa tenir un valor baix del DIC. El DIC, al contrari que el SQE , penalitza per la complexitat del model i, per tant, fer-lo servir comporta un cert comprom s entre tenir un model que ajusta b e les dades i un model senzill. El valor que d ona el R i el WinBUGS del DIC es lesperan ca a posteriori daquest.

2.5

Validaci o del model

Donat un model estad stic M = {P , } i unes dades Y = y es vol saber si el model estad stic M cont e el model de probabilitat Q que ha generat les dades, per aix` o cal validar el model estad stic. En el context del model lineal, validar el model vol dir validar les hip` otesi de linealitat, homoscedasticitat, normalitat i independ` encia dels residus. Tamb e estudiarem la capacitat predictiva del model. Per validar el model ens basarem en les seg uents estrat` egies: a) Es treballar` a amb els residus bayesians. Si el model obtingut es un bon model, caldr` a esperar que els seus errors siguin molt propers a zero i no segueixin cap patr o. A partir del model lineal denit a lapartat 2.1, tenim que el soroll del model es distribueix de la seg uent manera: i = yi E [yi | ] = yi (0 + 1 X1 i + ... + p1 Xp1 i )| N ormal(0, 2 )

2.5. Validaci o del model Aleshores denim la distribuci o a posteriori dels errors com: i |y = yi (0 + 1 X1 i + ... + p1 Xp1 i )|y

29

Per tal de veure com es comporten els errors a posteriori, gracarem aquesta distribuci o a posteriori dels errors i |y per cada observaci o. Juntament amb aquesta distribuci o dibuixarem linterval [0 1.96 E [ |y ]] per tal de comprovar si la probabilitat que estigui a prop de 0 es alta. Tamb e gracarem el valor esperat de la variable resposta en funci o del valor esperat de lerror a posteriori, juntament amb linteval [0 1.96 E [ |y ]]. Daquesta manera tindrem una millor visi o dels residus bayesians. Per a la detecci o doutliers calcularem : P (|i | > 2 |y )

Un cop calculada aquesta probabilitat, les graquem per tal de veure a simple vista quines observacions s on les que tenen m es probabilitat de ser outlier. molt important assegurar-nos que les variables que ajusten el model aportin tota la b) Es informaci o que tenen i que les variables que no shi han introdu t no deixin informaci o per explicar fora del model. Aix doncs, per cada variable explicativa, estigui o no al model, graquem el valor esperat de lerror a posteriori de lobservaci o en funci o dels valors daquestes. Quan observem els gr` acs de les variables que ajusten el model, si sobserva alguna relaci o, aleshores el gr` ac ens indica que encara queda informaci o per explicar daquesta variable que no est` a reexada al model ajustat. Aleshores, sha de transformar aquesta variable de forma adequada i introduir-la en el model per no deixar informaci o fora daquest. Si la variable en q uesti o no est` a al model, el que cal es comprovar que realment els residus s on soroll. Si no es aix , indica que aquesta variable encara t e informaci o per aportar al model i caldr` a ajustar el model tenint en compte aquesta variable. c) Des de la perspectiva Bayesiana, podem simular una nova observaci o o r` eplica de les dades observades a partir dels valors simulats dels par` ametres del model Bayesi` a fent servir la distribuci o predictiva a posteriori. A partir daqu , ens plantegem si aquestes r` epliques han estat generades pel mateix proc es generador que ha generat les dades i, per tant, si podem considerar que les dades s on una r` eplica m es. Per poder respondre les preguntes plantejades, primer shan de crear les noves observacions o r` epliques. Per crear una r` eplica, per cada individu se simula un valor duna normal on els par` ametres daquesta s on valors simulats dels par` ametres a posteriori obtinguts a partir de simulaci o pel model Bayesi` a ajustat. Es a dir, per escollir lesperan ca de la

30

2. Model de regressi o lineal normal Bayesi` a normal per simular la r` eplica, sutilitza un valor aleatori de lesperan ca a posteriori de la variable resposta de la observaci o en q uesti o, calculada a partir de la simulaci o. Per escollir la vari` ancia de la normal per simular la r` eplica, sutilitza un valor aleatori de la vari` ancia a posteriori de la variable resposta, calculada a partir de la simulaci o. Un cop ja tenim unes r` epliques de les dades, graquem en un diagrama bivariant la variable resposta en funci o de la variable explicativa de les dades observades. Tamb e graquem per cada r` eplica la variable resposta en funci o de la variable explicativa per poder-les comparar amb les dades observades. A la gura 2.1 presentem un exemple de tot aix` o on podem observar que les r` epliques han estat generades pel mateix proc es generador que ha generat les dades ja que segueixen el mateix patr o.

Figura 2.1: Gr` afic 1: n uvol de punts de la variable resposta versus la variable explicativa. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta versus la variable explicativa.

2.5. Validaci o del model

31

d) Tamb e es important saber si el model ajustat es bo a lhora de predir valors futurs. Per aix` o, es comparen les dades y1 , y2 , ...yn amb la distribuci o predictiva a posteriori P ( y |y ). Una versi o m es elegant, consisteix en comparar cada observaci o yi amb les simulacions de la predictiva a posteriori fent servir totes les dades menys la i-` essima (P ( y |y(i) ) on y(i) = (y1 , y2 ..., yi1 , yi+1 , ..., yn )). Daix` o sanomena validaci o creuada de la predictiva a posteriori. Pot tenir un alt cost computacional perqu` e sha dimplementar un model per cada i. La distribuci o predictiva a posteriori fent servir totes les dades menys la i-` essima (P ( y |y(i) )) es calcula de la seg uent manera. Primer simplementa el model Bayesi` a ajustat sense tenir en compte la dada i. Es calcula la distribuci o predictiva a posteriori com una normal on lesperan ca es el valor esperat per la dada i del model ajustat sense aquesta dada i la vari` ancia es la vari` ancia a posteriori del model ajustat sense la dada i. Un cop gracada la distribuci o predictiva a posteriori fent servir totes les dades menys la i-` essima juntament amb lobservaci o i, ens xarem amb lal cada que pren la dada en la distribuci o predictiva a posteriori P ( y |y(i) ) (veure exemple a la gura 2.2). Els punts pels quals P ( y |y(i) ) sigui molt petit s on punts an` omals.

32

2. Model de regressi o lineal normal Bayesi` a

Figura 2.2: Al gr` ac de dalt, exemple de validaci o creuada de la predictiva a posteriori on lal cada que pren la dada en la distribuci o predictiva a posteriori P ( y |y(i) ) es alta, es a dir, que la predictiva a posteriori prediu b e la dada i. Al gr` ac de baix, un exemple de validaci o creuada de la predictiva a posteriori on lal cada que pren la dada en la distribuci o predictiva a posteriori P ( y |y(i) ) es baixa, es a dir, aquesta dada es un punt an` omal.

Cap tol 3 Les illes Gal` apagos


3.1 Les dades

Lobjectiu daquest cap tol es el de crear un model lineal amb un conjunt de dades referents a les illes Gal` apagos (Oce` a Pac c). Es tracta dexplicar la diversitat biol` ogica duna illa a partir dunes determinades variables. Les dades de que es disposa, mostrades a la taula 3.1, s on referents a les 29 illes Gal` apagos amb les seg uents variables: Esp : Nombre desp` ecies (variable resposta discreta) ` Area : Area en km2 (variable explicativa cont nua) Elev : Elevaci o em metres (variable explicativa cont nua) DNear : Dist` ancia a lilla m es propera en km (variable explicativa cont nua) DSCruz : Dist` ancia a lilla de Santa Cruz en km (variable explicativa cont nua) ` AAdj : Area de lilla m es propera en km2 (variable explicativa cont nua) Les dades shan tret de Weisberg (1985). Un estudi previ ens suggereix treballar amb el logaritme tant de la variable resposta com de totes les variables explicatives, amb el que ajustarem els models amb totes les variables transformades. A la variable Dist` ancia a lilla de Santa Cruz hi ha una observaci o, referent a lilla de Santa Cruz, amb valor 0. Per poder prendre logaritmes sumarem una unitat al valor daquesta variable abans daplicar el logaritme en totes les observacions.

33

34

3. Les illes Gal` apagos

Observaci o Esp Area Elev DNear DSCruz 1 58 25,09 200 0,6 0,6 2 31 1,24 109 0,6 26,3 3 3 0,21 114 2,8 58,7 4 25 0,10 46 1,9 47,4 5 2 0,05 25 1,9 1,9 6 18 0,34 100 8,0 8,0 7 10 2,33 168 34,1 290,2 8 8 0,03 25 0,4 0,4 9 2 0,18 112 2,6 50,2 10 97 58,27 198 1,1 88,3 11 93 634,49 1494 4,3 95,3 12 58 0,57 49 1,1 93,1 13 5 0,78 227 4,6 62,2 14 40 17,35 76 47,4 92,2 15 347 4669,32 1707 0,7 28,1 16 51 129,49 343 29,1 85,9 17 2 0,01 25 3,3 45,9 18 104 59,56 777 29,1 119,6 19 108 17,95 458 10,7 10,7 20 12 0,23 100 0,5 0,6 21 70 4,89 367 4,4 24,4 22 280 551,62 716 45,2 66,6 23 237 572,33 906 0,2 19,8 24 444 903,82 864 0,6 0,0 25 62 24,08 259 16,5 16,5 26 285 170,92 640 2,6 49,2 27 44 1,84 100 0,6 9,6 28 16 1,24 186 6,8 50,9 29 21 2,85 253 34,1 254,7 Taula 3.1: Dades de les illes Gal` apagos.

AAdj 1,84 572,33 0,78 0,18 903,82 1,84 2,85 17,95 0,10 0,57 4669,32 58,27 0,21 129,49 634,49 59,56 0,10 129,49 0,03 25,09 572,33 0,57 4,89 0,52 0,52 0,10 25,09 17,95 2,33

3.2

An` alisi descriptiva de les dades

Abans descollir el model, tant des del punt de vista freq uentista com bayesi` a, realitzarem una an` alisi descriptiva per a con` eixer millor les dades. Duna banda, realitzarem una an` alisi univariant per veure com s on les variables que tenim i, per laltra, una bivariant per determinar si hi ha correlacions entre les diferents variables.

3.2.1

An` alisi univariant

Analitzant la variable resposta, que correspon al nombre desp` ecies que t e lilla, veiem que lilla que t e menys esp` ecies en t e 2 i la que en t e m es en t e 444 esp` ecies. Podem veure tamb e que la

3.2. An` alisi descriptiva de les dades

35

majoria dilles t e entre 2 i 110 esp` ecies, per` o hi ha 5 illes que en tenen moltes m es (entre 237 i 444 esp` ecies). Fent el plot de la variable explicativa que calcula l` area de lilla, observem de seguida que hi ha una illa molt m es gran que la resta (m es de 4.000 Km2 ). De la resta dilles, la gran majoria es mouen en uns valors dentre 0.01 i 170.92 Km2 , excepte 4 illes que tenen una ` area dentre 2 551.62 i 903.82 Km . Hi ha dues illes amb una elevaci o molt m es gran que les altres (1494 i 1707 metres). La majoria tenen una elevaci o dentre 25 i 458 metres, tot i que hi ha 5 illes amb elevaci o entre 640 i 906 metres. La majoria dilles estan a menys de 5 Km de lilla m es propera, tot i que hi ha 10 illes que disten m es. Lilla m es distant est` a a 47.4 Km de lilla m es propera. La majoria dilles estan a menys de 120 Km de lilla de Santa Cruz, per` o hi ha 2 illes que disten m es daquesta illa (entre ` 254.7 i 290.2 Km). La variable Area de lilla del costatt e un comportament similar al de la ` variable Area.

Figura 3.1: Histograma de totes les variables per observar com es distribueixen.

36

3. Les illes Gal` apagos

A la taula 3.2 mostrem un resum amb els estad stics m es importants de les variables quantitatives esmentades i la gura 3.1 presenta mitjan cant histogrames la seva distribuci o: Variable Esp Area Eleva DNear DSCruz AAdj Min 2.00 0.01 25.00 0.20 0.00 0.03 Q1 12.00 0.34 100.00 0.70 10.70 0.52 Mediana 44.00 2.85 198.00 2.80 47.40 2.85 Mitjana Q3 Max Desv.Tipus 116.07 877.97 430.89 14.51 68.69 878.39

87.34 97.00 444.00 270.70 59.56 4669.00 367.00 458.00 1707.00 10.20 10.70 47.40 58.53 85.90 290.20 270.10 59.56 4669.00

Taula 3.2: Descriptius de les variables de les dades de les illes Gal` apagos.

3.2.2

An` alisi bivariant

Per determinar quina relaci o hi ha entre les variables sha creat un matrixplot a partir del logaritme de totes les variables. A la vista de la gura 3.2 podem dir que les variables que estan m es correlacionades amb la variable resposta (nombre desp` ecies de lilla) s on les variables Area (` area de lilla) i Eleva (elevaci o de lilla), i per tant, es desperar que siguin variables importants en el model lineal m ultiple a lhora dexplicar la diversitat biol` ogica. Observem tamb e que existeix correlaci o entre les variables Area (` area de lilla) i Eleva (elevaci o de lilla), que ens indica que en cas que totes dues entressin al model, ens estarien explicant quasi el mateix i, per tant, el seu efecte sobre la resposta es confondria. La taula 3.3 mostra les correlacions entre el logaritme de totes les variables: log(Eleva) log(Area) log(Eleva) log(DN ear) log(DSCruz + 1) log(AAdj ) 1.0000 0.8837 0.7607 -0.0375 -0.0054 0.1059 0.8837 1.0000 0.9102 0.1039 0.1306 0.1494 0.7607 0.9102 1.0000 0.1453 0.1871 0.0793 -0.0375 0.1039 0.1453 1.0000 0.6060 -0.0867 -0.0054 0.1306 0.1871 0.6060 1.0000 -0.0081 0.1059 0.1494 0.0793 -0.0867 -0.0081 1.0000

log(Eleva) log(Area) log(Eleva) log(DN ear) log(DSCruz + 1) log(AAdj )

Taula 3.3: Matriu de correlacions del logaritme de totes les variables.

3.2. An` alisi descriptiva de les dades

37

Figura 3.2: Matrixplot del logaritme de totes les variables.

38

3. Les illes Gal` apagos

3.3
3.3.1

Model freq uentista


Selecci o del model

Shan introdu t en un primer model totes les variables en versi o logar tmica i a partir daqu sha emprat el proc es de selecci o i tria del millor model step wise, on a cada pas treu, si sescau, una variable del model segons el criteri AIC. El model resultant, seleccionat com el millor, ha estat el que es reexa a la taula 3.4:

Coefficients (Intercept) lndades$Area lndades$DNear Adjusted R-squared: 0.7823 AIC=-14.49

Estimate 2.97911 0.41048 -0.12874

Std Error 0.18265 0.04056 0.08733

t value 16.310 10.121 -1.474

Pr(>|t|) 3.57e-15 1.65e-10 0.152 *** ***

Taula 3.4: Model amb les variables log(Area) i log(DN ear), resultant del proc es de selecci o step wise.

El coecient de la variable logDNear no es signicatiu, ja que el seu p valor es 0.152. Mirem, doncs, com quedaria el model sense aquesta variable a la taula 3.5:

Coefficients (Intercept) lndades$Area Adjusted R-squared: 0.7728

Estimate 2.83384 0.40427

Std Error 0.15709 0.04121

t value 18.040 9.811

Pr(>|t|) < 2e-16 *** 2.13e-10 ***

Taula 3.5: Model amb les variables log(Area).

Tot i que el R2 -ajustat millora al model amb dues variables, ens quedarem amb el model amb una variable ja que logDNear no es signicativa i es millor tenir models m es senzills.

3.3.2

Validaci o del model amb la variable log (Area)

Per a validar el model cal mirar que es compleixin les hip` otesis de linealitat, normalitat, vari` ancia constant i independ` encia dels residus. Per fer aix` o, utilitzem la gura 3.3. En els gr` acs residus versus valor previst i arrel dels residus estandarditzats versus valor previst podem observar com els residus es distribueixen al voltant del 0 i aquests no segueixen cap patr o. A m es a m es, en el segon gr` ac veiem que no sobserven dades at piques. La representaci o dels residus en paper probabil stic normal indica que els residus tenen un comportament normal. I

3.3. Model freq uentista en el residus versus leverage podem observar que no hi ha valors inuents.

39

En vista daquests gr` acs, podem dir que no sobserva cap infracci o dels sup` osits del model abans esmentats i que, per tant, el valor previst pel log (Esp) ser` a log ( esp) = 2.83384 + 0.40427log (area) a dir, la diversitat biol` Es ogica duna illa dep` en positivament de l` area daquesta. Com m es gran sigui lilla m es esp` ecies t e aquesta.

Figura 3.3: Validaci o del model freq uentista amb la variable log (Area). Gr` afic 1: residus versus valor previst: valida les hip` otesi de linealitat i homoscedasticitat i indica que no queda m es informaci o als residus ja que no segueixen cap patr o. Gr` afic 2: arrel dels residus estandarditzats versus valor previst: localitza les dades an` omales. Gr` afic 3: representaci o dels residus en paper probabil stic normal: valida el comportament normal dels residus. Gr` afic 4: residus versus leverage: an` alisi dels valors inuents. Aquest gr` ac mostra els contorns digual dist` ancia de Cook.

40

3. Les illes Gal` apagos

3.4
3.4.1

Model bayesi` a
Denici o del model

Posar informaci o a priori en un model lineal es molt complicat perqu` e la informaci o necess` aria fa refer` encia als coecients (o betes, ), aix com la matriu de vari` ancies i covari` ancies del vector de par` ametres. Aquests coecients en principi poden prendre qualsevol valor real i ens indiquen la import` ancia de cada variable i com afecten a la resposta. Aix coecients propers a zero no afectaran a la resposta, i coecients elevats en valor absolut incrementaran la resposta o la decrementaran segons el signe daquests. En aquest cas, sha escollit el model a partir de les distribucions a priori de refer` encia. Sha seleccionat una distribuci o a priori per cada par` ametre, en comptes de triar una distribuci oa priori conjunta. Les distribucions a priori de refer` encia es deniran com una distribuci o plana per les s i per la vari` ancia com una Inversa-Gamma on els par` ametres tendeixen a 0 i, per tant, la seva vari` ancia a priori es molt gran: f (i ) 1, i = 0, 1, 2, 3, 4, 5. 2 IG(0.001, 0.001)

3.4.2

Selecci o del model

Un cop denides les distribucions a priori dels par` ametres del model, procedim a seleccionar el model que millor sajusti a les nostres dades. Per fer-ho, utilitzarem els dos m` etodes explicats a lapartat 2.4. Comencem seleccionant el model pas a pas, partint del model complet: log(Esp) = 0 +1 log(Area)+2 log(Eleva)+3 log(DN ear)+4 log(DSCruz +1)+5 log(AAdj )+ y |, 2 N ormal(X, 2 I ) A la gura 3.4 podem observar les distribucions a posteriori dels par` ametres del model complet per observar com es comporten i veure quines s tenen la probabilitat a posteriori altes destar a prop de 0. Aquestes distribucions han estat obtingudes a partir duna mostra simulada de la distribuci o a posteriori dels par` ametres i sobtenen aquestes densitats suavitzades de les distribucions marginals. Com es pot observar, les distribucions a posteriori de 2 , 3 , 4 i 5 del model complet tenen una alta probabilitat destar al voltant de 0. Les probabilitats min{ (i > 0|y ), (i < 0|y )} calculades per cada i , escrites sota el gr` ac de les distribucions a posteriori corresponents, s on prou altes. De totes elles, la que est` a m es centrada al 0 es la 4 , amb una probabilitat del 32.4% que la 4 sigui m es gran a 0. Per tant, traiem del model la variable log(DSCruz + 1). Veiem, doncs, les distribucions a posteriori dels par` ametres del model amb 4 variables a la gura 3.5. En aquest model log(Esp) = 0 + 1 log(Area) + 2 log(Eleva) + 3 log(DN ear) + 5 log(AAdj ) +

3.4. Model bayesi` a

41

seguim tenint una alta probabilitat que les distribucions a posteriori de 3 , 4 i 5 estiguin al voltant de 0. Aquest cop traiem del model la variable log(Aadj ) ja que t e la probabilitat m es alta destar centrada al 0. A la gura 3.6 podem observar les distribucions a posteriori del model amb 3 variables log(Esp) = 0 + 1 log(Area) + 2 log(Eleva) + 3 log(DN ear) + Veiem que 2 i 3 segueixen estan amb probabilitat alta al voltant del 0. La m es centrada al 0 es la 2 i, per tant, traiem del model la variable log(Eleva). A la gura 3.7, corresponent al model amb 2 variables log(Esp) = 0 + 1 log(Area) + 3 log(DN ear) + veiem que 2 segueix tenint una alta probabilitat destar al voltant del 0. Per tant, traiem la variable log(DN ear) del model. A la vista de la gura 3.8 de les distribucions a posteriori dels par` ametres del model amb la variable log(Area) log(Esp) = 0 + 1 log(Area) + , observem que la probabilitat a posteriori que 1 estigui a prop de 0 es molt petita. Lesperan ca a posteriori de log (Esp) es: E [log(Esp)|y ] = E [0 |y ] + E [1 |y ] log(Area) on E [0 |y ] = 2.84 i E [1 |y ] = 0.402. Tamb e veiem que la desviaci o del model no es molt gran: amb una probabilitat alta la desviaci o est` a entre 0.6 i 1.

42

3. Les illes Gal` apagos

Figura 3.4: Distribucions a posteriori suavitzades dels par` ametres del model complet. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

3.4. Model bayesi` a

43

Figura 3.5: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables log(Area), log(Eleva), log(DN ear) i log(AAdj ). La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

44

3. Les illes Gal` apagos

Figura 3.6: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables log(Area), log(Eleva) i log(DN ear). La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

3.4. Model bayesi` a

45

Figura 3.7: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables log(Area) i log(DN ear). La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

46

3. Les illes Gal` apagos

Figura 3.8: Distribucions a posteriori suavitzades dels par` ametres del model que inclou la variable log(Area). La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i . Si busquem el model a partir de les mesures de bondat dajust, primer hem dajustar tots els models possibles. En aquest cas, com que tenim 5 variables, podem ajustar 31 models, els quals els hem numerat tal i com reexa a la taula 3.6. Per cada model guardem les mesures de bondat dajust, que representem a la gura 3.9. A partir daquesta gura, observem que els models 7, 8 (models amb 2 variables), 16, 17, 19, 20, 21 (models amb 3 variables), 26, 27, 28, 29 (models amb 4 variables) i 31 (model complet) s on els que tenen el DIC i el SQE m es baixos. Observant les distribucions a posteriori dels par` ametres daquests models, veiem que l unic dels models anomenats que t e la probabilitat a posteriori molt petita que totes les i s estiguin a prop de 0 es el model 1, amb una u nica variable corresponent al logaritme de l` area de lilla. Per tant, hem seleccionat el mateix model amb els dos m` etodes. Mostrem a la gura 3.10 la distribuci o bivariant a posteriori de 0 i 1 per observar la seva correlaci o, aix com la seva distribuci o marginal a posteriori. Podem observar que 0 i 1 tenen una correlaci o negativa, tot i que no molt alta.

3.4. Model bayesi` a

47

Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

log(Area) X

log(Eleva) X

log(DN ear)

log(DSCruz + 1)

log(AAdj )

X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

Taula 3.6: Numeraci o dels 31 possibles models que es poden ajustar amb les dades de les illes Gal` apagos.

48 3. Les illes Gal` apagos

Figura 3.9: Gr` ac de les mesures de bondat dajust SQE i DIC dels 31 possibles models de les dades de les illes Gal` apagos.

3.4. Model bayesi` a

49

Figura 3.10: Plot de la distribuci o bivariant a posteriori de 0 i 1 del model escollit, amb la variable explicativa log(Area). Histogrames de la distribuci o marginal a posteriori de 0 i 1 .

50

3. Les illes Gal` apagos

3.4.3

Validaci o del model amb la variable log (Area)

Un cop seleccionat el model sha de validar. Validar inclou comprovar si es compleixen les hip` otesis de linealitat, normalitat, independ` encia i homoscedasticitat i si la capacitat predictiva del model es prou bona. Comencem la validaci o del model estad stic observant si els residus es distribueixen al voltant de 0 i no segueixen cap patr o. Per comprovar que aix` o es compleix, dibuixem la distribuci oa posteriori de lerror per cada illa: i |y = yi (0 + 1 X1 i + ... + p1 Xp1 i )|y, i juntament amb aquesta distribuci o dibuixarem linterval [0 1.96 E [ |y ]] per tal de comprovar si la probabilitat que estigui a prop del 0 es alta. A continuaci o, trobem el valor esperat de la variable resposta en funci o de lesperan ca de lerror a posteriori, juntament amb linteval [0 1.96 E [ |y ]]. Tamb e graquem la probabilitat que un punt sigui outliers (P (|i | > 2 |y )). Com podem veure a la gura 3.11, al primer i al segon gr` ac, els error a posteriori es distribueixen al voltant de 0 i, tot i que dispersos, pr` acticament no hi ha valors molts diferents ni segueixen cap patr o. Tamb e podem observar que les probabilitats de tenir un punt outlier s on molt baixes, excepte per les observacions que es reexen a la taula 3.7. Observaci o 4 9 12 Probabilitat doutlier 0.2540 0.4360 0.4225

Taula 3.7: Observacions amb alta probabilitat a ser outlier i la probabilitat de ser-ho.

A continuaci o comparem lesperan ca dels errors a posteriori versus les variables explicatives per veure que les variables que ajusten el model aportin tota la informaci o que tenen i que les variables que no shi han introdu t no deixin informaci o per explicar fora del model. A la gura 3.12 podem veure tamb e que els errors s on realment soroll. Aix , podem concloure que, en aquest aspecte, tenim un bon model. Des de la perspectiva Bayesiana, podem simular una nova observaci o o r` eplica de les dades observades a partir del model Bayesi` a. A partir daqu , ens q uestionem: podem considerar que les dades s on una r` eplica m es? Per tal de contestar aquesta pregunta, creem 11 r` epliques del model que graquem juntament amb les dades. Per crear una r` eplica, per cada individu se simula un valor duna normal on els par` ametres daquesta s on simulats de la respectiva distribuci o a posteriori. Es a dir, per escollir lesperan ca de la normal per simular la r` eplica, sutilitza un valor aleatori de lesperan ca a posteriori de la variable resposta de lobservaci o en q uesti o, obtinguda a partir de la simulaci o. Per escollir la vari` ancia de la normal per simular la r` eplica, sutilitza un valor aleatori de la vari` ancia a posteriori de la variable resposta de lobservaci o en q uesti o, obtinguda a partir de la simulaci o.

3.4. Model bayesi` a

51

Ara que ja hem simulat 11 r` epliques, graquem en un diagrama bivariant el logaritme de la variable resposta Esp, log(Esp), en funci o del logaritme de la variable explicativa Area, log(Area), de les dades observades. Tamb e graquem per cada r` eplica el logaritme de la variable resposta Esp, log(Esp), en funci o del logaritme de la variable explicativa Area, log(Area), per poder-les comparar amb les dades observades. A la vista de la gura 3.13 podem armar que les dades es poden considerar una r` eplica m es. A m es a m es destudiar el comportament dels errors a posteriori del model i comparar les dades observades amb r` epliques simulades, tamb e interessa saber si el model seleccionat es bo a lhora de predir valors futurs. Per aix` o compararem les dades observades amb la distribuci o predictiva a posteriori. Tal i com sha explicat a lapartat 2.5, per veure que el model sigui bon predictor farem la validaci o creuada de la predictiva a posteriori. Per a cada observaci o i, dibuixem en el mateix gr` ac, la distribuci o predictiva a posteriori calculada sense tenir en compte la observaci o en q uesti o (P ( y |y(i) ) on y(i) = (y1 , y2 , ..., yi1 , yi+1 , ..., yn )) i lobservaci o yi , xant-nos amb lal cada que pren la dada en la distribuci o predictiva a posteriori. Si lal cada es petita, aix` o signica que no prediu b e la observaci o. A la vista de la gura 3.14 pot veures que el model prediu b e a nivell global. No obstant, el model no prediu tant b e les observacions 9 i 12, que, com ja hem vist abans, tenen una probabilitat alta de ser un outlier, del 43.6% i del 42.25% respectivament. Aquest gr` ac t e linconvenient que shan de fer n gr` acs, tants com observacions tenim. En aquest cas n pren un valor petit (n = 29), per` o si tingu essim un nombre molt gran dobservacions el gr` ac es complicaria. Per aix` o ens plantegem altres tipus de gr` acs en els que es reecteixi la mateixa informaci o. Un dells podria ser el que reexa la gura 3.15 on el punt representa lobservaci o yi i la l nea es la regi o de credibilitat del 95% de la distribuci o predictiva a posteriori sense tenir en compte lobservaci o i (P ( y |y(i) )). Quan m es descentrat est` a el punt en linterval, signica que pitjor prediu el model. Un cop seleccionat i validat el model Bayesi` a, podem escriure lesperan ca a posteriori de lequaci o del model com E [log(Esp)|y ] = E [0 |y ] + E [1 |y ] log(Area) on E [0 |y ] = 2.84 i E [1 |y ] = 0.402, es pot armar que el nombre desp` ecies duna illa dep` en de l` area daquesta. Com m es gran sigui lilla m es esp` ecies tindr` a.

52

3. Les illes Gal` apagos

Figura 3.11: Gr` afic 1: regi o de credibilitat del 95% de la distribuci o a posteriori dels errors per a cada illa; les l nies horitzontals discont nues representa linterval [0 1.96 E [ |y ]]. Gr` afic 2: esperan ca a posteriori dels errors versus els valors esperats de la variable resposta; les l nies horitzontals discont nues representa linterval [0 1.96 E [ |y ]]. Gr` afic 3: probabilitat que una illa sigui outlier, calculada a partir de la f ormula P (|i | > 2 |y ).

3.4. Model bayesi` a

53

Figura 3.12: N uvol de punts del logaritme de totes les variables explicatives versus lesperan ca dels errors per comprovar que els errors realment s on soroll i no segueixen cap patr o.

54

3. Les illes Gal` apagos

Figura 3.13: Gr` afic 1: n uvol de punts del logaritme de la variable resposta Esp, log(Esp), versus el logaritme de la variable explicativa Area, log(Area). Gr` afics del 2 al 12: n uvols de punts de les r` epliques del logaritme de la variable resposta Esp, log(Esp), versus el logaritme de la variable explicativa Area, log(Area).

3.4. Model bayesi` a

55

Figura 3.14: Validaci o creuada de la predictiva a posteriori. Gr` afic i: distribuci o predictiva a posteriori calculada sense tenir en compte la observaci o i (P ( y |y(i) )); el punt representa el valor real de lilla i (yi ); la l nia i el valor representen la densitat de la predictiva a posteriori P ( y |y(i) ) que prendria lilla i (si es petit, signica que el model no prediu b e lobservaci o).

56

3. Les illes Gal` apagos

Figura 3.15: Validaci o creuada de la predictiva a posteriori. El punt representa lobservaci o yi i la l nea es la regi o de credibilitat del 95% de la distribuci o predictiva a posteriori sense tenir en compte lobservaci o i (P ( y |y(i) )). Quan m es descentrat est` a el punt en linterval, signica que pitjor prediu el model.

3.5. Interpretaci o del model Bayesi` a

57

3.5

Interpretaci o del model Bayesi` a

En el plantejament freq uentista, hem ajustat el model referent a la diversitat biol` ogica de les Illes Gal` apagos com log (esp) = 0 + 1 log (area) + 0 = 2.83384 i 1 = 0.40427. on hem estimat que Ajustem el model Bayesi` a referent a la diversitat biol` ogica de les Illes Gal` apagos com log(Esp) = 0 + 1 log(Area) + on E [0 |y ] = 2.84 i E [1 |y ] = 0.402 i les distribucions a posteriori suavitzades de 0 i 1 es mostren a la gura 3.8. Tant des de la perspectiva freq uentista com des de la Bayesiana, es pot armar que el nombre desp` ecies duna illa dep` en de l` area daquesta. Com m es gran sigui lilla m es esp` ecies tindr` a. Partint de la perspectiva Bayesiana, podem fer predicci o de manera f` acil, tant si ens interessa la predicci o sobre les dades com sobre els par` ametres. Per exemple, anem a calcular quantes esp` ecies diferents tindria una illa nova de 0.30 Km2 . Com que treballem amb la versi o logar tmica de les variable, hem aplicat el logaritme a la nova variable explicativa: log (Area) = log (0.30) = 1.203973. A la gura 3.16 podem veure la simulaci o de la distribuci o predictiva a posteriori per predir el nombre desp` ecies que tindria una illa de 0.30 Km2 . A partir de la simulaci o de la distribuci o predictiva a posteriori per predir el nombre desp` ecies 2 que tindria una illa de 0.30 Km podem fer infer` encia sobre aquesta nova observaci o. Per fer una estimaci o puntual del nombre desp` ecies daquesta nova illa calculem lesperan ca de la distribu ci o predictiva a posteriori mitjan cant simulacions: E [log (y )|y ] = 2.337474. Per saber lesti maci o puntual en lescala original de les dades, per cada simulaci o log (y )1 , log (y )2 , ..., log (y )Iter log (y )Iter log (y )1 log (y )2 i posteriorment en fem la mitjana: y = 14.11. , ..., e ,e calculem e Per fer una estimaci o per interval, creem la regi o p-cre ble centrada amb p = 0.95. Ordenem la mostra simulada de la distribuci o predictiva a posteriori log (y )(1) , log (y )(2) , ..., log (y )(Iter) i estimem a partir dels percentils mostrals: [log (y )(Iter 1p ) , log (y )(Iter(1 1p )) ]. En el cas que ens 2 2 ocupa, hem fet Iter = 2000 simulacions. Per tant, per crear la regi o de credibilitat del 95% agafarem els percentils mostrals [log (y )(50) , log (y )(1950) ] = [0.79, 3.85]. I en lescala original de les dades obtenim la seg uent regi o de credibilitat: [elog(y)(50) , elog(y)(1950) ] = [2.19, 46.95]. Per tant, podem concloure la predicci o duna nova illa de 0.30 Km2 dient que tindr` a 14 esp` ecies diferents, i que amb una probabilitat del 95% el nombre desp` ecies est` a entre 2.19 i 46.95.

58

3. Les illes Gal` apagos

Figura 3.16: Simulaci o de la distribuci o predictiva a posteriori per predir el nombre desp` ecies 2 que tindria una illa de 0.30 Km .

Cap tol 4 El pes del nad o


4.1 Les dades

Es vol modelar el pes dun nad o acabat de n eixer, en funci o dunes certes caracter stiques de la mare. Disposem de 189 observacions, mostrades a la taula 4.1, amb les variables seg uents: nadopes : Pes del nad o acabat de n eixer en grams (variable resposta cont nua) edat : Edat de la mare en anys (variable explicativa cont nua) marepes : Pes de la mare a l ultima menstruaci o en lliures (variable explicativa cont nua) fuma : Indica si la mare fuma o no durant lembar` as (variable explicativa binaria) ht : Indica si la mare t e hipertensi o (variable explicativa binaria) iu : Indica si la mare t e irritabilitat uterina (variable explicativa binaria) Les dades s on de Hosmer i Lemeshow (1989). Observaci o nadopes 1 2523 2 2551 3 2557 4 2594 5 2600 6 2622 7 2637 8 2637 9 2663 10 2665 11 2722 12 2733 13 2751 14 2750 15 2769 edat marepes fuma ht iu 19 182 0 0 1 33 155 0 0 0 20 105 1 0 0 21 108 1 0 1 18 107 1 0 1 21 124 0 0 0 22 118 0 0 0 17 103 0 0 0 29 123 1 0 0 26 113 1 0 0 19 95 0 0 0 19 150 0 0 0 22 95 0 1 0 30 107 0 0 1 18 100 1 0 0

59

60

4. El pes del nad o

Observaci o nadopes 16 2769 17 2778 18 2782 19 2807 20 2821 21 2835 22 2835 23 2836 24 2863 25 2877 26 2877 27 2906 28 2920 29 2920 30 2920 31 2920 32 2948 33 2948 34 2977 35 2977 36 2977 37 2977 38 2922 39 3005 40 3033 41 3042 42 3062 43 3062 44 3062 45 3062 46 3062 47 3080 48 3090 49 3090 50 3090 51 3100 52 3104 53 3132 54 3147 55 3175 56 3175 57 3203 58 3203 59 3203 60 3225 61 3225 62 3232 63 3232

edat 18 15 25 20 28 32 31 36 28 25 28 17 29 26 17 17 24 35 25 25 29 19 27 31 33 21 19 23 21 18 18 32 19 24 22 22 23 22 30 19 16 21 30 20 17 17 23 24

marepes fuma ht iu 100 1 0 0 98 0 0 0 118 1 0 0 120 0 0 1 120 1 0 0 121 0 0 0 100 0 0 1 202 0 0 0 120 0 0 0 120 0 0 1 167 0 0 0 122 1 0 0 150 0 0 0 168 1 0 0 113 0 0 0 113 0 0 0 90 1 0 0 121 1 0 0 155 0 0 0 125 0 0 0 140 1 0 0 138 1 0 0 124 1 0 0 215 1 0 0 109 1 0 0 185 1 0 0 189 0 0 0 130 0 0 0 160 0 0 0 90 1 0 1 90 1 0 1 132 0 0 0 132 0 0 0 115 0 0 0 85 1 0 0 120 0 1 0 128 0 0 0 130 1 0 0 95 1 0 0 115 0 0 0 110 0 0 0 110 1 0 1 153 0 0 0 103 0 0 0 119 0 0 0 119 0 0 0 119 0 0 0 110 0 0 0

4.1. Les dades

61

Observaci o nadopes 64 3234 65 3260 66 3274 67 3274 68 3303 69 3317 70 3317 71 3317 72 3321 73 3331 74 3374 75 3374 76 3402 77 3416 78 3430 79 3444 80 3459 81 3460 82 3473 83 3544 84 3487 85 3544 86 3572 87 3572 88 3586 89 3600 90 3614 91 3614 92 3629 93 3629 94 3637 95 3643 96 3651 97 3651 98 3651 99 3651 100 3699 101 3728 102 3756 103 3770 104 3770 105 3770 106 3790 107 3799 108 3827 109 3856 110 3860 111 3860

edat 28 26 20 24 28 20 22 22 31 23 16 16 18 25 32 20 23 22 32 30 20 23 17 19 23 36 22 24 21 19 25 16 29 29 19 19 30 24 19 24 23 20 25 30 22 18 16 32

marepes fuma ht iu 140 0 0 0 133 1 0 0 169 0 0 1 115 0 0 0 250 1 0 0 141 0 0 1 158 0 0 0 112 1 0 0 150 1 0 0 115 1 0 0 112 0 0 0 135 1 0 0 229 0 0 0 140 0 0 0 134 1 0 0 121 1 0 0 190 0 0 0 131 0 0 0 170 0 0 0 110 0 0 0 127 0 0 0 123 0 0 0 120 1 0 0 105 0 0 0 130 0 0 0 175 0 0 0 125 0 0 0 133 0 0 0 134 0 0 0 235 1 1 0 95 1 0 1 135 1 0 0 135 0 0 0 154 0 0 0 147 1 0 0 147 1 0 0 137 0 0 0 110 0 0 0 184 1 1 0 110 0 0 0 110 0 0 0 120 0 0 0 241 0 1 0 112 0 0 0 169 0 0 0 120 1 0 0 170 0 0 0 186 0 0 0

62

4. El pes del nad o

Observaci o nadopes 112 3884 113 3884 114 3912 115 3940 116 3941 117 3941 118 3969 119 3983 120 3997 121 3997 122 4054 123 4054 124 4111 125 4153 126 4167 127 4174 128 4238 129 4593 130 4990 131 709 132 1021 133 1135 134 1330 135 1474 136 1588 137 1588 138 1701 139 1729 140 1790 141 1818 142 1885 143 1893 144 1899 145 1928 146 1928 147 1928 148 1936 149 1970 150 2055 151 2055 152 2082 153 2084 154 2084 155 2100 156 2125 157 2126 158 2187 159 2187

edat marepes fuma ht iu 18 120 0 0 0 29 130 1 0 0 33 117 0 0 1 20 170 1 0 0 28 134 0 0 0 14 135 0 0 0 28 130 0 0 0 25 120 0 0 0 16 95 0 0 0 20 158 0 0 0 26 160 0 0 0 21 115 0 0 0 22 129 0 0 0 25 130 0 0 0 31 120 0 0 0 35 170 0 0 0 19 120 1 0 0 24 116 0 0 0 45 123 0 0 0 28 120 1 0 1 29 130 0 0 1 34 187 1 1 0 25 105 0 1 0 25 85 0 0 1 27 150 0 0 0 23 97 0 0 1 24 128 0 0 0 24 132 0 1 0 21 165 1 1 0 32 105 1 0 0 19 91 1 0 1 25 115 0 0 0 16 130 0 0 0 25 92 1 0 0 20 150 1 0 0 21 200 0 0 1 24 155 1 0 0 21 103 0 0 0 20 125 0 0 1 25 89 0 0 0 19 102 0 0 0 19 112 1 0 1 26 117 1 0 0 24 138 0 0 0 17 130 1 0 1 20 120 1 0 0 22 130 1 0 1 27 130 0 0 1

4.1. Les dades

63

Observaci o nadopes 160 2211 161 2225 162 2240 163 2240 164 2282 165 2296 166 2296 167 2301 168 2325 169 2353 170 2353 171 2367 172 2381 173 2381 174 2381 175 2410 176 2410 177 2410 178 2414 179 2424 180 2438 181 2442 182 2450 183 2466 184 2466 185 2466 186 2495 187 2495 188 2495 189 2495

edat 20 17 25 20 18 18 20 21 26 31 15 23 20 24 15 23 30 22 17 23 17 26 20 26 14 28 14 23 17 21

marepes fuma ht iu 80 1 0 1 110 1 0 0 105 0 0 0 109 0 0 0 148 0 0 0 110 1 0 0 121 1 0 1 100 0 0 0 96 0 0 0 102 1 0 0 110 0 0 0 187 1 0 0 122 1 0 0 105 1 0 0 115 0 0 1 120 0 0 0 142 1 0 0 130 1 0 0 120 1 0 0 110 1 0 0 120 0 0 0 154 0 1 0 105 0 0 0 190 1 0 0 101 1 0 0 95 1 0 0 100 0 0 0 94 1 0 0 142 0 1 0 130 1 1 0

Taula 4.1: Dades dels pesos dels nadons.

64

4. El pes del nad o

4.2

An` alisi descriptiva de les dades

Abans descollir el model, tant el freq uentista com el bayesi` a, realitzarem una an` alisi descriptiva per a con` eixer millor les dades. Duna banda, realitzarem una an` alisi univariant per veure com s on les variables que tenim i, per laltra, una bivariant per determinar si hi ha correlacions entre les diferents variables.

4.2.1

An` alisi univariant

La variable resposta, que correspon al pes dels nadons al n eixer, t e un comportament bastant normal. Es mou entre els valors 709 i 4990. La mitjana del pes del nad o es de 2945 grams i la seva desviaci o est` andard es de 729.21. Les edats de les mares estan compreses entre 14 i 45 anys. En mitjana, les mares tenen 23 anys amb una desviaci o de 5 anys. El pes de la mare a l ultima menstruaci o oscilla entre 80 i 250 lliures, amb una mitjana de 129.8 lliures i una desviaci o de 30.58. A la taula 4.2 mostrem un resum amb els estad stics m es importants de les variables quantitatives esmentades:

Variable nadopes edat marepes

Min

Q1

Mediana 2977 23.00 121.0

Mitjana

Q3

Max

Desv.Tipus 729.2143 5.2987 30.57938

709 2414 14.00 19.00 80.0 110.0

2945 3487 4990 23.24 26.00 45.00 129.8 140.0 250.0

Taula 4.2: Descriptius de les variables quantitatives de les dades dels pesos dels nadons.

Respecte a les variables bin` aries podem dir que la proporci o de mares que fumen durant lembar` as es del 39.15% (74 dones de 189). Pel que fa a la proporci o de mares amb hipertensi o es del 6.35% (12 dones de 189) i amb irritabilitat uterina es del 14.81% (28 dones de 189). La gura 4.1 presenta mitjan cant histogrames la distribuci o de les variables cont nues.

4.2. An` alisi descriptiva de les dades

65

Figura 4.1: Histograma de les variables quantitatives per observar com es distribueixen.

4.2.2

An` alisi bivariant

A la vista del matrixplot de les variables cont nues presentat a la gura 4.2 es pot veure que no hi ha correlacions fortes entre aquestes variables, tot i que totes s on correlacions positives. La taula 4.3 mostra les correlacions entre les variables cont nues: nadopes edat marepes 1.0000 0.0903 0.1857 0.0903 1.0000 0.1801 0.1857 0.1801 1.0000

nadopes edat marepes

Taula 4.3: Matriu de correlacions de les variables quantitatives.

Pel que fa les variables bin` aries, mirem si aquestes s on independents dos a dos. Al estudiar la independ` encia de les variables f uma i ht observem que, amb un p valor del 0.854, no hi ha evid` encies que aquestes dues variables no siguin independents. La variable f uma tamb e es independent de iu amb un p valor de 0.393. I nalment, en lestudi de lindepend` encia de les variables ht i iu tamb e concloem que ho s on amb un p valor de 0.136. En resum, les 3 variables s on independents luna de laltre.

66

4. El pes del nad o

Figura 4.2: Matrixplot de les variables quantitatives.

4.3. Model freq uentista

67

4.3
4.3.1

Model freq uentista


Selecci o del model

Tornem a emprar el procediment de selecci o step wise per trobar el millor model possible, partint del model complet i traient a cada pas, si sescau, una variable. El model resultant ha estat el que reexa la taula 4.4. Coefficients (Intercept) dades$marepes dades$fuma dades$ht dades$iu Adjusted R-squared: 0.1561 AIC= 2464.62 Taula 4.4: Model amb les variables marepes, f uma, ht i iu, resultant del proc es de selecci o step wise. Estimate 2577.096 4.506 -242.113 -649.098 -549.878 Std Error 226.794 1.660 100.127 206.327 139.424 t value 11.363 2.714 -2.418 -3.146 -3.944 Pr(>|t|) < 2e-16 *** 0.007270 ** 0.016579 * 0.001931 ** 0.000114 ***

A m es de tenir el millor AIC, tamb e t e el millor R2 -ajustat i els coecients s on tots signicatius. Per tant, validem aquest model per veure si les hip` otesi del model lineal.

4.3.2

Validaci o del model amb les variables marepes, f uma, ht i iu

Per a validar el model cal mirar que es compleixin les hip` otesi de linealitat, normalitat, vari` ancia constant i independ` encia dels residus. Per fer aix` o utilitzem la gura 4.3. En els gr` acs residus versus valor previst i arrel dels residus estandarditzats versus valor previst podem observar com els residus es distribueixen al voltant del 0 i aquests no segueixen cap patr o. A m es a m es, en el segon gr` ac veiem que no sobserven dades at piques. En la representaci o dels residus en paper probabil stic normal indica que els residus tenen un comportament normal. I en el residus versus leverage podem observar que no hi ha valors inuents. En vista daquests gr` acs, podem dir que no sobserva cap infracci o dels sup` osits del model abans esmentats i que, per tant, el valor previst pel pes del nad o ser` a nadopes = 2577.096 + 4.506marepes 242.113f uma 649.098ht 549.878iu. a dir, el pes del nad Es o dep` en de manera positiva del pes de la mare i de manera negativa de si fuma, t e hipertensi o i/o irritabilitat uterina. Com m es pesi la mare m es pesar` a el nad o, per` o si la mare fuma, t e hipertensi o i/o irritabilitat uterina far` a que el pes del nad o baixi.

68

4. El pes del nad o

Figura 4.3: Validaci o del model freq uentista amb les variables marepes, f uma, ht i iu. Gr` afic 1: residus versus valor previst: valida les hip` otesi de linealitat i homoscedasticitat i indica que no queda m es informaci o als residus ja que no segueixen cap patr o. Gr` afic 2: arrel dels residus estandaritzats versus valor previst: localitza les dades an` omales. Gr` afic 3: representaci o dels residus en paper probabil stic normal: valida el comportament normal dels residus. Gr` afic 4: residus versus leverage: an` alisi dels valors inuents. Aquest gr` ac mostra els contorns digual dist` ancia de Cook.

4.4. Model bayesi` a

69

4.4
4.4.1

Model bayesi` a
Denici o del model

Com ja sha comentat al cap tol anterior, posar informaci o a priori en un model lineal es molt complicat. Per aix` o, tornem a usar distribucions a priori de refer` encia pels par` ametres. Les distribucions a priori de refer` encia es deniran com una distribuci o plana per les s i per la vari` ancia una Inversa-Gamma amb vari` ancia molt gran: f (i ) 1, i = 0, 1, 2, 3, 4, 5. 2 IG(0.001, 0.001)

4.4.2

Selecci o del model

Un cop denides les distribucions a priori dels par` ametres del model, procedim a seleccionar el model que millor sajusti a les nostres dades. Per fer-ho, utilitzarem els dos m` etodes explicats a lapartat 2.4. Comencem la selecci o del model buscant-lo pas a pas, partint del model complet i traient, si sescau, una variable a cada pas, on denim el model complet de la seg uent manera nadopes = 0 + 1 edat + 2 marepes + 3 f uma + 4 ht + 5 iu + y |, 2 N ormal(X, 2 I ) A la gura 4.4 podem observar les distribucions a posteriori dels par` ametres del model complet per veure com es comporten i comprovar quines s tenen la probabilitat a posteriori altes destar a prop de 0. Aquestes distribucions han estat obtingudes a partir duna mostra simulada de la distribuci o a posteriori dels par` ametres i sobtenen aquestes densitats suavitzades de les distribucions marginals. Observem de seguida que la 1 t e una probabilitat alta a posteriori destar centrada al 0, on la seva probabilitat min{ (i > 0|y ), (i < 0|y )}, escrita sota la distribuci o a posteriori de 1 , es del 34%. Per tant, traiem la variable edat del model. Veiem les distribucions a posteriori del model amb 4 variables a la gura 4.5. En aquest model nadopes = 0 + 2 marepes + 3 f uma + 4 ht + 5 iu + , podem observar que la probabilitat a posteriori que 2 , 3 , 4 i 5 estigui al voltant del 0 es molt petita. Per tant, seleccionem aquest model per la posterior validaci o. Lesperan ca a posteriori del pes del nad o es: E [nadopes|y ] = E [0 |y ] + E [2 |y ]marepes + E [3 |y ]f uma + E [4 |y ]ht + E [5 |y ]iu on E [0 |y ] = 2573.87, E [2 |y ] = 4.52, E [3 |y ] = 243.39, E [4 |y ] = 654.94 i E [5 |y ] = 544.86. La distribuci o a posteriori de es distribueix al voltant de 671.50.

70

4. El pes del nad o

Figura 4.4: Distribucions a posteriori suavitzades dels par` ametres del model complet. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

4.4. Model bayesi` a

71

Figura 4.5: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables marepes, f uma, ht i iu. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

72

4. El pes del nad o

Si busquem el model a partir de les mesures de bondat dajust, primer hem dajustar tots els models possibles. En aquest cas, com que tenim 5 variables, podem ajustar 31 models, els quals els hem numerat tal i com reexa a la taula 4.5: Model edat 1 X 2 3 4 5 6 X 7 X 8 X 9 X 10 11 12 13 14 15 16 X 17 X 18 X 19 X 20 X 21 X 22 23 24 25 26 X 27 X 28 X 29 X 30 31 X marepes X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X f uma ht iu

Taula 4.5: Numeraci o dels 31 possibles models que es poden ajustar amb les dades del pesos dels nadons.

Per cada model guardem les mesures de bondat dajust, que representem a la gura 4.6. A la vista de la gura, observem que els models que tenen el SQE i el DIC m es baix s on els models 30 i 31, que corresponen als models amb 4 i 5 variables respectivament, calculats pel m` etode de selecci o pas a pas. Com ja hem dit abans, el model amb 5 variables t e un par` ametre amb alta probabilitat destar al voltant del 0 i, per tant, no el podem acceptar com a bo. El model amb 4 variables t e tots els par` ametres signicatius i es el model amb millor SQE i DIC. Per tant, hem seleccionat el mateix model amb els dos m` etodes.

4.4. Model bayesi` a

73

Mostrem a la gura 4.7 la distribuci o bivariant a posteriori de totes les parelles de s del model amb les variables marepes, f uma, ht i iu per veure la relaci o entre i s del model seleccionat. La 0 i la 2 tenen una forta relaci o de tal manera que com m es gran es una m es petita es laltra. La resta de s tenen baixa correlaci o.

74 4. El pes del nad o

Figura 4.6: Gr` ac de les mesures de bondat dajust SQE i DIC dels 31 possibles models de les dades dels pesos del nadons.

4.4. Model bayesi` a

75

Figura 4.7: Plot de la distribuci o bivariant a posteriori de totes les parelles de s del model escollit, model que inclou les variables marepes, f uma, ht i iu. Histogrames de la distribuci o marginal a posteriori de 2 , 3 , 4 i 5 .

76

4. El pes del nad o

4.4.3

Validaci o del model amb les variables marepes, f uma, ht i iu

Un cop seleccionat el model sha de validar. Validar inclou comprovar si es compleixen les hip` otesis de linealitat, normalitat, independ` encia i homoscedasticitat i si la capacitat predictiva del model es prou bona. Comencem la validaci o del model estad stic observant si els residus es distribueixen al voltant de 0 i no segueixen cap patr o. Per comprovar que aix` o es compleix, dibuixem la distribuci oa posteriori de lerror per cada illa: i |y = yi (0 + 1 X1 i + ... + p1 Xp1 i )|y, i juntament amb aquesta distribuci o dibuixarem linterval [0 1.96 E [ |y ]] per tal de comprovar si la probabilitat que estigui a prop del 0 es alta. A continuaci o, trobem el valor esperat de la variable resposta en funci o de lesperan ca de lerror a posteriori, juntament amb linteval [0 1.96 E [ |y ]]. Tamb e graquem la probabilitat que un punt sigui outliers (P (|i | > 2 |y )). Com podem veure a la gura 4.8, al primer i al segon gr` ac, els errors a posteriori s on molt propers a zero i dispersos. Tot i que hi ha alguns valors que est` a fora la regi o [0 1.96 E [ |y ]], aquests estan tant a prop dels l mits daquesta regi o que els donem per v` alids. Tamb e podem observar que les probabilitats de tenir un punt outlier s on molt baixes, excepte per les observacions que es reexen a la taula 4.6. Observaci o 94 102 114 128 129 130 131 132 133 134 136 138 143 144 Probabilitat doutlier 0.7510 0.3845 0.6180 0.6875 0.9650 1.0000 0.9715 0.9645 0.6370 0.1355 0.9990 0.9210 0.1090 0.2960

Taula 4.6: Observacions amb alta probabilitat a ser outlier i la probabilitat de ser-ho.

A la gura 4.9, on comparem els errors versus les variables explicatives per veure que les variables que ajusten el model aportin tota la informaci o que tenen i que les variables que no shi han introdu t no deixin informaci o per explicar fora del model, podem veure tamb e que els errors s on realment soroll. Aix , podem concloure que, en aquest aspecte, tenim un bon model.

4.4. Model bayesi` a

77

Observem ara si les dades s on una r` eplica m es, creant 11 r` epliques de les dades a partir del model Bayesi` a i gracant-ho juntament amb les dades. Per cada observaci o se simula un valor duna normal on els par` ametres daquesta corresponen a valors simulats de la distribuci o a posteriori, agafant com a esperan ca un valor aleatori de lesperan ca a posteriori de la variable resposta de lobservaci o i com a vari` ancia un valor aleatori de la vari` ancia a posteriori de la variable resposta de lobservaci o. Ara que ja hem simulat 11 r` epliques, graquem en un diagrama bivariant la variable resposta nadopes en funci o de la variable explicativa marepes de les dades observades. Tamb e graquem per cada r` eplica la variable resposta nadopes en funci o de la variable explicativa marepes per poder-les comparar amb les dades observades. A la vista de la gura 4.10 podem armar que les dades es poden considerar una r` eplica m es. Fem el mateix gr` ac per totes les variables explicatives que expliquen el pes del nad o segons el model Bayesi` a que hem seleccionat. Aix doncs tenim les gures 4.11, 4.12 i 4.13, on podem armar que les dades es poden considerar una dada m es. Per saber si el model seleccionat es bo a lhora de predir valors futurs farem la validaci o creuada de la predictiva a posteriori. Per a cada observaci o i, dibuixem en el mateix gr` ac, la distribuci o predictiva a posteriori calculada sense tenir en compte la observaci o en q uesti o (P ( y |y(i) ) on y(i) = (y1 , y2 , ..., yi1 , yi+1 , ..., yn )) i lobservaci o yi , xant-nos si la dada dista o no de la respectiva distribuci o predictiva a posteriori. Si la dada dista de la distribuci o predictiva a posteriori signica que la predictiva a posteriori no prediu b e la observaci o. Com que en aquest cas tenim massa individus per fer 189 gr` acs, utilitzarem nom es el gr` ac de la gura 4.14. on el punt representa lobservaci o yi i la l nea es la regi o de credibilitat del 95% de la distribuci o predictiva a posteriori sense tenir en compte lobservaci o i (P ( y |y(i) )). Quan m es descentrat est` a el punt en linterval, signica que pitjor prediu el model. A la vista del gr` ac es pot veure que el model prediu b e a nivell global. No obstant, el model no prediu gens b e les observacions dels nadons que tenen un pes molt alt (observacions 128, 129 i 130) o molt baix (observacions 131, 132, i 133). Tampoc prediu b e les observacions 94, 102, 114, 136, 138, 143 i 144. Recordem que hem vist que aquestes observacions tenen una probabilitat molt alta de ser outlier, i com m es alta es la probabilitat duna observaci o a ser oulier m es dolenta es la previsi o daquesta. Un cop seleccionat i validat el model Bayesi` a, podem escriure lesperan ca a posteriori de lequaci o del model com E [nadopes|y ] = E [0 |y ] + E [2 |y ]marepes + E [3 |y ]f uma + E [4 |y ]ht + E [5 |y ]iu on E [0 |y ] = 2573.87, E [2 |y ] = 4.52, E [3 |y ] = 243.39, E [4 |y ] = 654.94 i E [5 |y ] = 544.86, es pot armar que com m es pesi la mare m es pesar` a el ll, per` o si la mare fuma, t e hipertensi o i/o irritabilitat uterina el nad o pesar` a menys

78

4. El pes del nad o

Figura 4.8: Gr` afic 1: regi o de credibilitat del 95% de la distribuci o a posteriori dels errors per a cada illa; les l nies horitzontals discont nues representa linterval [0 1.96 E [ |y ]]. Gr` afic 2: esperan ca a posteriori dels errors versus els valors esperats de la variable resposta; les l nies horitzontals discont nues representa linterval [0 1.96 E [ |y ]]. Gr` afic 3: probabilitat que una illa sigui outlier, calculada a partir de la f ormula P (|i | > 2 |y ).

4.4. Model bayesi` a

79

Figura 4.9: N uvol de punts de totes les variables explicatives versus lesperan ca dels errors per comprovar que els errors realment s on soroll i no segueixen cap patr o.

80

4. El pes del nad o

Figura 4.10: Gr` afic 1: n uvol de punts de la variable resposta nadopes versus la variable explicativa marepes, inclosa en el model seleccionat. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta nadopes versus la variable explicativa marepes.

4.4. Model bayesi` a

81

Figura 4.11: Gr` afic 1: n uvol de punts de la variable resposta nadopes versus la variable explicativa f uma, inclosa en el model seleccionat. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta nadopes versus la variable explicativa f uma.

82

4. El pes del nad o

Figura 4.12: Gr` afic 1: n uvol de punts de la variable resposta nadopes versus la variable explicativa ht, inclosa en el model seleccionat. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta nadopes versus la variable explicativa ht.

4.4. Model bayesi` a

83

Figura 4.13: Gr` afic 1: n uvol de punts de la variable resposta nadopes versus la variable explicativa iu, inclosa en el model seleccionat. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta nadopes versus la variable explicativa iu.

84

4. El pes del nad o

Figura 4.14: Validaci o creuada de la predictiva a posteriori. El punt representa lobservaci o yi i la l nea es la regi o de credibilitat del 95% de la distribuci o predictiva a posteriori sense tenir en compte lobservaci o i (P ( y |y(i) )). Quan m es descentrat est` a el punt en linterval, signica que pitjor prediu el model. Observaci o: el fet que el diagrama de punts de les observacions de la variable resposta tingui aquesta forma es degut simplement a lordenaci o de la variable segons el valor daquesta.

4.5. Interpretaci o del model Bayesi` a

85

4.5

Interpretaci o del model Bayesi` a

En el plantejament freq uentista, hem ajustat el model referent al pes dels nadons com nadopes = 0 + 2 marepes + 3 f uma + 4 ht + 5 iu + 0 = 2577.09, 2 = 4.51, 3 = 242.11, 4 = 649.09 i 5 = 549.88. on hem estimat que Ajustem el model Bayesi` a referent al pes dels nadons com nadopes = 0 + 2 marepes + 3 f uma + 4 ht + 5 iu + , on E [0 |y ] = 2573.87, E [2 |y ] = 4.52, E [3 |y ] = 243.39, E [4 |y ] = 654.94 i E [5 |y ] = 544.86 i les distribucions a posteriori suavitzades de 0 , 2 , 3 , 4 i 5 es mostren a la gura 4.5. Tant des de la perspectiva freq uentista com des de la Bayesiana, es pot armar que el pes de la mare inueix positivament al pes del nad o i el fet que la mare fumi, tingui hipertensi o i/o irritabilitat uterina inueix negativament en el pes daquest. Partint de la perspectiva Bayesiana, podem fer predicci o de manera f` acil, tant si ens interessa la predicci o sobre les dades com sobre els par` ametres. Per exemple, anem a calcular el pes dun nad o la mare del qual pesi 110 lliures, que no fumi ni tingui hipertensi o ni irritabilitat uterina (marepes = 110, f uma = 0, ht = 0 i iu = 0). A la gura 4.15 podem veure la simulaci o de la distribuci o predictiva a posteriori per predir el pes que tindria el nad o duna dona de les caracter stiques anomenades anteriorment. A partir de la simulaci o de la distribuci o predictiva a posteriori per predir el pes del nad o podem fer infer` encia sobre aquesta nova observaci o. Per fer una estimaci o puntual del pes del nad o calculem lesperan ca de la distribuci o predictiva a posteriori mitjan cant simulacions: E [ y |y ] = y = 3084.313. Per fer una estimaci o per interval, creem la regi o p-cre ble centrada amb p = 0.95. Ordenem la mostra simulada de la distribuci o predictiva a posteriori y (1) , y (2) , ..., y (Iter) i estimem a partir (Iter(1 1p )) ]. En el cas que ens ocupa, hem fet Iter = 2000 dels percentils mostrals: [ y(Iter 1p ) , y 2 2 simulacions. Per tant, per crear la regi o de credibilitat del 95% agafarem els percentils mostrals [ y(50) , y (1950) ] = [1775, 4410]. Per tant, podem concloure la predicci o dun nad o la mare del qual pesa 110 lliures (50 kg) i ni fuma ni t e hipertensi o ni irritabilitat uterina, dient que pesar` a 3084 grams, i que amb una probabilitat del 95% el pes del nad o est` a entre 1775 i 4410 grams.

86 4. El pes del nad o Figura 4.15: Simulaci o de la distribuci o predictiva a posteriori per predir el pes que tindria un nad o la mare del qual tingu es les seg uents caracter stiques: marepes = 110, f uma = 0, ht = 0 i iu = 0.

Cap tol 5 La volta ciclista a Espanya


5.1 Les dades

En aquest cap tol modelarem la durada duna etapa de la volta ciclista a Espanya a partir dels quil` ometres de letapa, dels metres de desnivell entre sortida i arribada, dels metres de desnivell pujats, i de dues variables que indiquen si letapa segueix a una etapa de muntanya o si segueix a una contrarellotge. Tenim el valor de les seg uents variables en 105 etapes, mostrades a la taula 5.1: temps : Duraci o duna etapa en minuts (variable resposta cont nua) qms : Longitud de letapa en quil` ometres (variable explicativa cont nua) mdifer : Desnivell entre la sortida i larribada en metres (variable explicativa cont nua) mpujats : Desnivell acumulat duna etapa en metres; aquesta variable es sempre positiva (variable explicativa cont nua) dmont : Indica si letapa anterior ha estat de muntanya (variable explicativa binaria) dcont : Indica si letapa anterior ha sigut una contrarellotge (variable explicativa binaria)

Observaci o 1 2 3 4 5 6 7 8 9

temps 232,450 295,600 203,667 232,867 278,650 340,767 248,900 356,950 304,867

qms 162,0 210,0 167,2 166,5 208,4 196,5 171,1 220,7 203,5

mdifer 0 960 -280 -640 -30 -10 -30 20 70

mpujats dmont dcont 470 0 0 1230 0 0 360 0 0 300 0 0 460 0 0 360 0 0 900 0 0 560 0 0 410 0 0

87

88

5. La volta ciclista a Espanya

Observaci o 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

temps 293,900 270,317 241,800 288,233 348,200 334,633 251,900 341,400 298,150 314,050 233,450 342,750 372,567 302,650 281,067 420,450 365,017 171,617 261,433 258,200 412,333 241,117 300,517 239,833 313,400 334,750 245,767 355,433 254,967 274,883 353,450 396,550 264,167 258,150 368,050 235,150 318,983 342,833 344,650 324,483 263,700 344,483 222,333 232,033 312,883 266,917 320,783 259,350 345,833

qms mdifer mpujats dmont dcont 188,0 -260 1100 0 1 191,7 -130 1820 1 0 159,0 930 1920 1 0 202,6 110 1710 0 0 220,0 1830 2830 0 0 220,9 430 1030 0 0 165,7 1130 2320 1 0 219,5 -910 350 0 0 217,1 510 2430 1 0 209,5 -40 3130 1 0 157,6 0 300 0 1 186,6 160 640 0 1 223,5 -520 1450 0 0 206,0 570 1350 0 0 179,8 90 1370 0 0 264,0 480 1410 0 0 219,8 310 3125 0 1 122,5 -40 1500 1 0 162,5 -90 190 1 0 187,0 -10 770 0 0 238,5 2310 3140 0 0 181,0 -440 740 1 0 207,0 -70 1210 0 0 154,0 0 2457 0 0 197,3 1530 2902 0 0 179,2 380 3684 0 0 157,8 90 2700 1 0 227,7 -260 1345 1 0 171,2 100 410 0 1 178,4 130 330 0 1 239,3 -390 610 0 0 235,6 -220 530 0 0 166,9 550 970 0 0 151,7 1850 2590 0 0 260,0 -790 470 1 0 166,0 -30 450 0 1 205,0 1930 3060 0 0 195,3 1100 3600 1 0 226,7 -930 460 1 0 201,6 240 780 0 0 174,0 1450 2030 0 0 209,3 -630 1500 1 0 147,7 1090 1620 0 0 150,4 550 1850 1 0 189,0 80 3200 0 0 165,7 -390 780 0 1 215,1 -20 900 0 1 171,4 100 1930 0 0 231,7 -170 660 0 0

5.1. Les dades

89

Observaci o 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105

temps 368,483 247,333 389,467 372,333 359,133 369,467 358,867 286,750 349,250 301,367 325,317 261,167 239,683 438,967 222,467 372,333 364,100 322,633 302,467 439,700 292,600 315,817 230,683 288,050 265,500 351,833 241,600 246,300 287,850 388,033 296,000 260,950 193,933 333,217 407,067 309,817 282,117 194,833 395,733 191,733 317,617 340,083 326,933 246,000 191,700 361,450 285,083

qms mdifer mpujats dmont dcont 219,8 310 3095 0 0 184,0 -390 720 0 1 225,1 200 360 0 0 224,2 -680 440 0 0 206,8 350 1060 0 0 221,7 1750 3640 0 0 220,7 -930 230 1 0 197,2 1570 1910 0 1 226,2 -630 1570 1 0 173,4 1630 3240 0 0 179,5 1080 2800 1 0 170,4 -50 1540 1 0 153,0 590 2300 0 0 247,8 -190 1480 1 0 135,5 50 510 0 1 205,0 70 370 0 1 229,0 340 960 0 0 187,5 -680 350 0 0 202,8 0 540 0 0 240,6 1700 3362 0 1 144,0 750 4216 1 0 196,0 100 2648 1 0 162,9 -310 490 1 0 200,1 450 1370 0 0 178,3 -910 1470 0 0 213,4 1080 2550 0 0 163,0 540 1500 1 0 162,0 535 1670 1 0 200,6 -30 240 0 0 218,9 370 3105 0 0 188,3 210 2760 0 1 175,0 -410 560 1 0 134,5 220 390 0 1 233,2 -180 620 0 1 240,6 560 910 0 0 236,5 -680 410 0 0 185,7 0 1600 0 0 140,2 -105 680 0 1 229,5 1020 2360 0 0 111,0 1190 2280 1 0 219,0 -940 250 1 0 219,5 -630 1560 0 1 186,6 1080 2100 0 0 152,0 540 2000 1 0 137,3 -130 270 1 0 212,7 0 3580 0 1 169,6 -230 300 1 0

Taula 5.1: Dades dels pesos de la volta ciclista a Espanya.

90

5. La volta ciclista a Espanya

5.2

An` alisi descriptiva de les dades

Abans descollir el model, tant el freq uentista com el bayesi` a, realitzarem una an` alisi descriptiva per a con` eixer millor les dades. Duna banda realitzarem una an` alisi univariant per veure com s on les variables que tenim i, per laltra, una bivariant per determinar si hi ha correlacions entre les diferents variables.

5.2.1

An` alisi univariant

a dir, cada etapa dura La durada duna etapa de la volta oscilla entre 171.6 i 439.7 minuts. Es entre 2 hores i 51 minuts i 7 hores i 19 minuts. De mitjana, letapa dura 5 hores i 2 minuts (302.6 minuts) amb una desviaci o de quasi 1 hora. Pel que fa als quil` ometres que t e una etapa, oscillen entre 111 i 264 Km, amb una mitjana de 193 Km per etapa i una desviaci o de 31.64 Km. La variable mdifer el desnivell entre la sortida i larribada es mou entre -940 metres i 705 metres. De mitjana t e 227.9 metres de desnivell entre la sortida i larribada amb una desviaci o est` andard de 705 metres. La variable mpujats es mou entre 190 metres i 4216 metres. De mitjana t e 1477 metres de desnivell acumulat amb una desviaci o est` andard de 1055.80 metres. Hi ha moltes m es etapes amb desnivell acumulat petits que no pas etapes amb desnivell acumulat grans. A la taula 5.2 mostrem un resum amb els estad stics m es importants de les variables quantitatives esmentades:

Variable temps qms mdifer mpujats

Min 171.6 111.0 -940.0 190

Q1 258.1 167.2 -180.0 510

Mediana 301.4 196.0 70.0 1350

Mitjana

Q3

Max

Desv.Tipus 59.17043 31.64731 705.625 1055.795

302.6 345.8 439.7 193.0 219.5 264.0 227.9 540.0 2310.0 1477 2300 4216

Taula 5.2: Descriptius de les variables quantitatives de les dades de la volta ciclista a Espanya.

La gura 5.1 presenta mitjan cant histogrames la distribuci o de les variables cont nues. Respecte a les variables bin` aries podem dir que la proporci o detapes que segueixen a una etapa de muntanya es del 29.52% (31 etapes de 105) i que segueixin a una contrarellotge es del 19.05% (20 etapes de 105).

5.2. An` alisi descriptiva de les dades

91

Figura 5.1: Histograma de les variables quantitatives per observar com es distribueixen.

5.2.2

An` alisi bivariant

A la vista del matrixplot de les variables cont nues presentat a la gura 5.2 es pot veure que la variable qms t e una forta correlaci o amb la variable resposta temps. Tamb e veiem que les variables mdifer i mpujats tenen molta correlaci o. La taula 5.3 mostra les correlacions entre variables cont nues. Pel que fa a les variables bin` aries, hi ha evid` encies per rebutjar que les 2 variables s on indee que no hi ha cap etapa que pendents luna de laltre, amb un p valor del 0.001. Noteu tamb segueixi a una etapa que sigui de muntanya i contrarellotge alhora.

92

5. La volta ciclista a Espanya

Figura 5.2: Matrixplot de les variables quantitatives.

temps qms mdifer mpujats

temps 1.0000 0.8939 0.0689 0.2006

qms mdifer mpujats 0.8939 0.0689 0.2006 1.0000 -0.1007 -0.0054 -0.1007 1.0000 0.6380 -0.0054 0.6380 1.0000

Taula 5.3: Matriu de correlacions de les variables quantitatives.

5.3. Model freq uentista

93

5.3
5.3.1

Model freq uentista


Selecci o del model

Tornem a emprar el proc es de selecci o step wise per trobar el millor model freq uentista possible, partint del model complet i traient una variable, si sescau, a cada pas. El model resultant ha estat el que reexa la taula 5.4.

Coefficients (Intercept) dades$qms dades$mpujats Adjusted R-squared: 0.8381 AIC= 668.67

Estimate -37.392695 1.673312 0.011516

Std Error 14.807776 0.073771 0.002211

t value -2.525 22.682 5.208

Pr(>|t|) 0.0131 * < 2e-16 *** 9.96e-07 ***

Taula 5.4: Model amb les variables qms i mpujats, resultant del proc es de selecci o step wise.

A m es de tenir el millor AIC, tamb e t e el millor R2 -ajustat i els coecients s on signicatius. Per tant, validem aquest model per veure si compleix les hip` otesi del model lineal.

5.3.2

Validaci o del model amb les variables qms i mpujats

Per a validar el model cal mirar que es compleixin les hip` otesi de linealitat, normalitat, vari` ancia constant i independ` encia dels residus. A partir dels gr` acs de la gura 5.3. En els gr` acs residus versus valor previst i arrel dels residus estandarditzats versus valor previst podem observar com els residus es distribueixen al voltant del 0 i aquests no segueixen cap patr o. A m es a m es, en el segon gr` ac veiem que no sobserven dades at piques. La representaci o dels residus en paper probabil stic normal indica que els residus tenen un comportament normal. I en el residus versus leverage podem observar que hi ha un valor inuent, per` o aquest t e un factor danclatge no molt gran. En vista daquests gr` acs, podem dir que no sobserva cap infracci o dels sup` osits del model abans esmentats i que, per tant, el valor previst per la variable temps es = 37.39 + 1.67qms + 0.01mpujats. temps a dir, la durada duna etapa dep` Es en dels quil` ometres i del desnivell acumulat daquesta.

94

5. La volta ciclista a Espanya

Figura 5.3: Validaci o del model freq uentista amb les variables marepes, f uma, ht i iu. Gr` afic 1: residus versus valor previst: valida les hip` otesi de linealitat i homoscedasticitat i indica que no queda m es informaci o als residus ja que no segueixen cap patr o. Gr` afic 2: arrel dels residus estandaritzats versus valor previst: localitza les dades an` omales. Gr` afic 3: representaci o dels residus en paper probabil stic normal: valida el comportament normal dels residus. Gr` afic 4: residus versus leverage: an` alisi dels valors inuents. Aquest gr` ac mostra els contorns digual dist` ancia de Cook.

5.4. Model bayesi` a

95

5.4
5.4.1

Model bayesi` a
Denici o del model

Per seleccionar el model bayesi` a tornarem a usar distribucions a priori de refer` encia pels par` ametres del model. Les distribucions a priori de refer` encia les denim com una distribuci o plana per les s i per la vari` ancia una Inversa-Gamma amb vari` ancia molt gran: f (i ) 1, i = 0, 1, 2, 3, 4, 5. 2 IG(0.001, 0.001)

5.4.2

Selecci o del model

Un cop denides les distribucions a priori dels par` ametres del model, procedim a seleccionar el model que millor sajusti a les nostres dades. Per fer-ho, utilitzarem els dos m` etodes explicats a lapartat 2.4. Comencem la selecci o del model buscant-lo pas a pas, partint del model complet i traient a cada pas, si sescau, la variable corresponent a la i m es centrada al 0, on denim el model complet de la seg uent manera temps = 0 + 1 qms + 2 mdif er + 3 mpujats + 4 dmont + 5 dcont + y |, 2 N ormal(X, 2 I ) A la gura 5.4 podem observar les distribucions a posteriori dels par` ametres del model complet per veure com es comporten i comprovar quines s tenen la probabilitat a posteriori altes destar a prop de 0. Aquestes distribucions han estat obtingudes a partir duna mostra simulada de la distribuci o a posteriori dels par` ametres i sobtenen aquestes densitats suavitzades de les distribucions marginals. A la vista del gr` ac, podem observar que les 2 , 4 i 5 , corresponents a les variables mdifer, dmont i dcont respectivament, no s on signicatives amb una alta probabilitat a posteriori que aquestes s estiguin al voltant de 0. Delles, la que t e una probabilitat m es alta destar centrada al 0 es la 4 i, per tant, traiem del model la variable bin` aria dmont. Veiem ara les distribucions a posteriori suavitzades del model amb 4 variables temps = 0 + 1 qms + 2 mdif er + 3 mpujats + 5 dcont + a la gura 5.5. La 2 i la 5 segueixen tenint una probabilitat a posteriori alta destar al voltant del 0. Delles, la 5 es la que t e la probabilitat m es alta destar centrada al 0. Per tant, traiem del model la variable dcont. A la gura 5.6 de les distribucions a posteriori suavitzades del model amb 3 variables temps = 0 + 1 qms + 2 mdif er + 3 mpujats + ,

96

5. La volta ciclista a Espanya

sobserva que la 2 segueix tenint una alta probabilitat destar al voltant de 0. Per tant, traiem la variable mdifer del model. A la vista de les distribucions a posteriori suavitzades dels par` ametres del model amb les variables qms i mpujats temps = 0 + 1 qms + 3 mpujats + , observem a la gura 5.7 que totes les s tenen una probabilitat molt baixa destar al voltant del 0. Lesperan ca a posteriori del temps duna etapa es es: E [temps|y ] = E [0 |y ] + E [1 |y ]qms + E [3 |y ]mpujats on E [0 |y ] = 37.38, E [1 |y ] = 1.67 i E [3 |y ] = 0.01. La distribuci o a posteriori de es distribueix al voltant de 24.03.

5.4. Model bayesi` a

97

Figura 5.4: Distribucions a posteriori suavitzades dels par` ametres del model complet. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i

98

5. La volta ciclista a Espanya

Figura 5.5: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables qms, mdifer, mpujats i dcont. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

5.4. Model bayesi` a

99

Figura 5.6: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables qms, mdifer i mpujats. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i .

100

5. La volta ciclista a Espanya

Figura 5.7: Distribucions a posteriori suavitzades dels par` ametres del model que inclou les variables qms i mpujats. La l nea vermella senyala el 0 i les blaves senyalen la regi o de credibilitat del 95% de les i . Si busquem el model a partir de les mesures de bondat dajust, primer hem dajustar tots els models possibles. En aquest cas, com que tenim 5 variables, podem ajustar 31 models, els quals els hem numerat tal i com reexa a la taula 5.5: Per cada model guardem les mesures de bondat dajust, que representem a la gura 5.8. A la vista daquesta, observem que els models que tenen el SQE i el DIC m es baix s on els models 7 (model amb 2 variables), 16, 19, 20 (models amb 3 variables), 26, 27, 29 (models amb 4 variables)i 31 (model complet). De tots aquests models, l unic que t e totes les s amb una probabilitat a posteriori baixa destar al voltant del 0 i el DIC m es baix es el model 7, corresponent al model amb les 2 variables qms i mpujats. Observeu que amb la selecci o del model via mesures de bondat dajust hem trobat el mateix model que seleccionant-lo pas a pas. Mostrem a la gura 5.9 la la distribuci o bivariant a posteriori de totes les parelles de s del model amb les variables qms i mpujats per veure la relaci o entre i s del model seleccionat. La 0 i la 1 tenen una forta relaci o de tal manera que com m es gran es una m es petita es laltra. La resta de s tenen baixa correlaci o.

5.4. Model bayesi` a

101

Model qms 1 X 2 3 4 5 6 X 7 X 8 X 9 X 10 11 12 13 14 15 16 X 17 X 18 X 19 X 20 X 21 X 22 23 24 25 26 X 27 X 28 X 29 X 30 31 X

mdif er X

mpujats

dmont

dcont

X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

Taula 5.5: Numeraci o dels 31 possibles models que es poden ajustar amb les dades de la volta ciclista a Espanya.

102 5. La volta ciclista a Espanya

Figura 5.8: Gr` ac de les mesures de bondat dajust SQE i DIC dels 31 possibles models de les dades de la volta ciclista a Espanya.

5.4. Model bayesi` a

103

Figura 5.9: Plot de la distribuci o bivariant a posteriori de les 0 , 1 i 3 del model escollit, model que inclou les variables qms i mpujats. Histogrames de la distribuci o marginal a posteriori de 0 , 1 i 3 .

104

5. La volta ciclista a Espanya

5.4.3

Validaci o del model amb les variables qms i mpujats

Un cop seleccionat el model sha de validar. Validar inclou comprovar si es compleixen les hip` otesis de linealitat, normalitat, independ` encia i homoscedasticitat i si la capacitat predictiva del model es prou bona. Comencem la validaci o del model estad stic observant si els residus es distribueixen al voltant de 0 i no segueixen cap patr o. Per comprovar que aix` o es compleix, dibuixem la distribuci oa posteriori de lerror per cada illa: i |y = yi (0 + 1 X1 i + ... + p1 Xp1 i )|y, i juntament amb aquesta distribuci o dibuixarem linterval [0 1.96 E [ |y ]] per tal de comprovar si la probabilitat que estigui a prop del 0 es alta. A continuaci o, trobem el valor esperat de la variable resposta en funci o de lesperan ca de lerror a posteriori, juntament amb linterval [0 1.96 E [ |y ]]. Tamb e graquem la probabilitat que un punt sigui outliers (P (|i | > 2 |y )). Com podem veure a la gura 5.10, al primer i al segon gr` ac, els errors a posteriori es distribueixen al voltant del 0 i s on dispersos. Tot i que hi ha alguns valors que est` a fora la regi o [0 1.96 E [ |y ]], aquests estan tant a prop dels l mits daquesta regi o que els donem per v` alids. Tamb e podem observar que les probabilitats de tenir un punt outlier s on molt baixes, excepte per les observacions que es reexen a la taula 5.6. Observaci o 3 6 18 21 61 72 74 76 79 94 Probabilitat doutlier 0.2085 0.3665 0.9460 0.9965 0.4470 0.3495 0.9975 0.1580 0.2040 0.8520

Taula 5.6: Observacions amb alta probabilitat a ser outlier i la probabilitat de ser-ho.

A continuaci o comparem lesperan ca dels errors a posteriori versus les variables explicatives per veure que les variables que ajusten el model aportin tota la informaci o que tenen i que les variables que no shi han introdu t no deixin informaci o per explicar fora del model. A la gura 5.11 podem veure tamb e que els errors s on realment soroll. Aix , podem concloure que, en aquest aspecte, tenim un bon model. Observem ara si les dades s on una r` eplica m es, creant 11 r` epliques de les dades a partir del model Bayesi` a i gracant-ho juntament amb les dades. Per cada observaci o se simula un valor duna normal on els par` ametres daquesta corresponen a valors simulats de la distribuci o a

5.4. Model bayesi` a

105

posteriori, agafant com a esperan ca un valor aleatori de lesperan ca a posteriori de la variable resposta de lobservaci o i com a vari` ancia un valor aleatori de la vari` ancia a posteriori de la variable resposta de lobservaci o. Ara que ja hem simulat 11 r` epliques, graquem en un diagrama bivariant la variable resposta temps en funci o de la variable explicativa qms de les dades observades. Tamb e graquem per cada r` eplica la variable resposta temps en funci o de la variable explicativa qms per poder-les comparar amb les dades observades. A la vista de la gura 5.12 podem armar que les dades es poden considerar una r` eplica m es. Fem el mateix gr` ac per la variables explicatives mpujats, que tamb e explica el temps duna etapa segons el model Bayesi` a que hem seleccionat. Aix doncs tenim la gura 5.13, on podem armar que les dades es poden considerar una dada m es. Per saber si el model seleccionat es bo a lhora de predir valors futurs farem la validaci o creuada de la predictiva a posteriori. Per a cada observaci o i, dibuixem en el mateix gr` ac, la distribuci o predictiva a posteriori calculada sense tenir en compte la observaci o en q uesti o (P ( y |y(i) ) on y(i) = (y1 , y2 , ..., yi1 , yi+1 , ..., yn )) i lobservaci o yi , xant-nos si la dada dista o no de la respectiva distribuci o predictiva a posteriori. Si la dada dista de la distribuci o predictiva a posteriori signica que la predictiva a posteriori no prediu b e la observaci o. Com que en aquest cas tenim massa individus per fer 189 gr` acs, utilitzarem nom es el gr` ac de la gura 5.14. on el punt representa lobservaci o yi i la l nea es la regi o de credibilitat del 95% de la distribuci o predictiva a posteriori sense tenir en compte lobservaci o i (P ( y |y(i) )). Quan m es descentrat est` a el punt en linterval, signica que pitjor prediu el model. A la vista del gr` ac, es pot veure que el model prediu b e a nivell global. No obstant, el model no prediu gens b e les etapes 6, 18, 21, 61, 74 i 94. Recordem que hem observat que aquestes etapes tenen una probabilitat molt alta de ser outlier, i com m es alta es la probabilitat duna observaci o a ser outlier m es dolenta es la previsi o daquesta.

106

5. La volta ciclista a Espanya

Figura 5.10: Gr` afic 1: regi o de credibilitat del 95% de la distribuci o a posteriori dels errors per a cada illa; les l nies horitzontals discont nues representa linterval [0 1.96 E [ |y ]]. Gr` afic 2: esperan ca a posteriori dels errors versus els valors esperats de la variable resposta; les l nies horitzontals discont nues representa linterval [0 1.96 E [ |y ]]. Gr` afic 3: probabilitat que una illa sigui outlier, calculada a partir de la f ormula P (|i | > 2 |y ).

5.4. Model bayesi` a

107

Figura 5.11: N uvol de punts de totes les variables explicatives versus lesperan ca dels errors per comprovar que els errors realment s on soroll i no segueixen cap patr o.

108

5. La volta ciclista a Espanya

Figura 5.12: Gr` afic 1: n uvol de punts de la variable resposta temps versus la variable explicativa qms, inclosa en el model seleccionat. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta temps versus la variable explicativa qms.

5.4. Model bayesi` a

109

Figura 5.13: Gr` afic 1: n uvol de punts de la variable resposta temps versus la variable explicativa mpujats, inclosa en el model seleccionat. Gr` afics del 2 al 12: n uvols de punts de les r` epliques de la variable resposta temps versus la variable explicativa mpujats.

110

5. La volta ciclista a Espanya

Figura 5.14: Validaci o creuada de la predictiva a posteriori. El punt representa lobservaci o yi i la l nea es la regi o de credibilitat del 95% de la distribuci o predictiva a posteriori sense tenir en compte lobservaci o i (P ( y |y(i) )). Quan m es descentrat est` a el punt en linterval, signica que pitjor prediu el model. Observaci o: el fet que el diagrama de punts de les observacions de la variable resposta tingui aquesta forma es degut simplement a lordenaci o de la variable segons el valor daquesta.

5.5. Interpretaci o del model Bayesi` a

111

5.5

Interpretaci o del model Bayesi` a

En el plantejament freq uentista, hem ajustat el model referent al temps duna etapa de la volta ciclista a Espanya com temps = 0 + 1 qms + 3 mpujats + 0 = 37.39, 1 = 1.67 i 3 = 0.01. on hem estimat que Ajustem el model Bayesi` a referent al temps duna etapa de la volta ciclista a Espanya com temps = 0 + 1 qms + 3 mpujats + , on E [0 |y ] = 37.38, E [1 |y ] = 1.67 i E [3 |y ] = 0.01 i les distribucions a posteriori suavitzades de 0 , 1 i 3 es mostren a la gura 5.7. Tant des de la perspectiva freq uentista com des de la Bayesiana, es pot armar que tant els quil` ometres de letapa com el desnivell acumulat inueix positivament en el temps que dura aquesta. Partint de la perspectiva Bayesiana, podem fer predicci o de manera f` acil, tant si ens interessa la predicci o sobre les dades com sobre els par` ametres. Per exemple, anem a calcular el temps que duraria un etapa de 200 Km i un desnivell acumulat de 500 metres (qms = 200 i mpujats = 500). A la gura 5.15 podem veure la simulaci o de la distribuci o predictiva a posteriori per predir el temps que duraria aquesta nova etapa. A partir de la simulaci o de la distribuci o predictiva a posteriori per predir el temps de letapa podem fer infer` encia sobre aquesta nova observaci o. Per fer una estimaci o puntual del temps de letapa calculem lesperan ca de la distribuci o predictiva a posteriori mitjan cant simulacions: E [ y |y ] = y = 302.9817. Per fer una estimaci o per interval, creem la regi o p-cre ble centrada amb p = 0.95. Ordenem la mostra simulada de la distribuci o predictiva a posteriori y (1) , y (2) , ..., y (Iter) i estimem a partir (Iter(1 1p )) ]. En el cas que ens ocupa, hem fet Iter = 2000 dels percentils mostrals: [ y(Iter 1p ) , y 2 2 simulacions. Per tant, per crear la regi o de credibilitat del 95% agafarem els percentils mostrals [ y(50) , y (1950) ] = [255.7, 349.8]. Per tant, podem concloure la predicci o del temps que durar` a una etapa de 200 Km amb un desnivell acumulat de 500 metres, dient que durar` a 303 minuts, i que amb una probabilitat del 95% letapa durar` a entre 255.7 i 349.8 minuts.

112 5. La volta ciclista a Espanya Figura 5.15: Simulaci o de la distribuci o predictiva a posteriori per predir el temps duna etapa amb les seg uents caracter stiques: qms = 200 i mpujats = 500.

Cap tol 6 Conclusions


Com hem pogut observar ens els cap tols 3, 4 i 5, un dels principals problemes de lestad stica bayesiana rau a lhora didenticar la distribuci o a priori m es adequada per lestudi. Sovint aquesta tasca es tant dif cil que recorrem a les distribucions de refer` encia, on hem pogut comprovar que sobtenen resultats similars a lestad stica cl` assica. Com a contrapartida, lestad stica bayesiana es conceptualment m es senzilla. Tot es redueix a c` alcul de probabilitats, on les regles del joc s on molt clares. Tot passa per: Escriure la distribuci o conjunta del que observem (y ) i del que no observem () f (y ; ) = ()P (y |) Condicionar respecte el que sobserva i integrar el que no observes o no interessa. (|y ) = ()P (y |) P (y )

A lhora de fer estimacions puntuals hi ha molts estimadors per triar. Un Bayesi` a sap quin escollir per fer infer` encia ja que per ell comparar lerror quadr` atic mig de dos estimadors es trivial i no ha de recorre a les funcions de risc. La interpretaci o de les regions de credibilitat des de la perspectiva Bayesiana es m es senzilla dentendre: la regi o de credibilitat p per , Cp (y ), es la probabilitat que estigui dins de linterval Cp (y ). Quan parlem de les proves dhip` otesi, des de la perspectiva Bayesiana podem avarcar problemes m es realistes de manera ben resolta. No nom es podem fer proves dhip` otesi simple versus simple i simple versus composta, sin o que tamb e podem resoldre problemes m es realistes al poder-nos plantejar proves del tipus composta versus composta. A m es a m es, es poden comparar dues o m es hip` otesi sense haver dassumir que provenen de la mateixa distribuci o. Des de la perspectiva Bayesiana, es pot calcular f` acilment la probabilitat que una hip` otesi sigui certa. Gr` acies a tots aquests avantatges a lhora de resoldre proves dhip` otesi, lestad stica Bayesiana ens permet comparar models amb diferent nombre de par` ametres.

113

114

6. Conclusions

Tamb e hem pogut observar que el model Bayesi` a es molt u til a lhora de fer prediccions i aquestes s on molt f` acils dimplementar i interpretar. No tant sols es pot fer predicci o sobre els par` ametres, sin o que des de la perspectiva Bayesiana tamb e es pot fer predicci o sobre les dades. El Bayesi` a est` a disposat a fer armacions sobre probabilitat de qualsevol cosa i no nom es de fen` omens repetitius. Per exemple, des de la perspectiva Bayesiana, es f` acil calcular la probabilitat que una illa sigui outlier o la probabilitat que un nad o pesi m es que un altre... Tamb e hem pogut observar que des de la perspectiva Bayesiana es poden simular noves observacions o r` epliques de les dades observades a partir dels valors simulats dels par` ametres del model Bayesi` a. senzill tant La infer` encia Bayesiana es exacte, trivial de justicar i molt m es f` acil de fer servir. Es en la basant de la implementaci o com de la interpretaci o. La infer` encia bayesiana b` asicament ha de fer dues coses: Triar () Calcular, simular o aproximar (|y )

Bibliograa
[ 1 ] J. O. Berger. Statistical decision theory and Bayesian analysis. Springer, 1985. [ 2 ] J. M. Bernardo and A. F. M. Smith. Bayesian theory. Wiley, 1994. [ 3 ] D.A. Berry. Statistics: A Bayesian Prespective. Wadsworth, 1996. [ 4 ] P. Congdon. Applied Bayesian Modelling. Wiley, 2003. [ 5 ] P. Congdon. Bayesian Models for Categorical Data. Wiley, 2005. [ 6 ] M. Font. Modelitzaci o bayesiana de la distribuci o de vocabulari. Projecte Final de Carrera, Universitat Polit` ecnica de Catalunya, Departament dEstad stica i Investigaci o Operativa, Febrer 2008. [ 7 ] A. Gelman, J.B.Carlin, H.S. Stern and D.B. Rubin. Bayesian data analysis. Chapman & Hall, 1995. [ 8 ] J. Gir on, J. Ginebra and A. Riba. Bayesian analysi of a multinomial sequence and homogeneity of literary style. The American Statistician, 59(1):19-30, 2005. [ 9 ] G. G omez y P. Delicado. Curso de Infernecia y Decisi on. Universitat Polit` ecnica de Catalunya, Departament dEstad stica i Investigaci o Operativa, Enero 2004. [ 10 ] D. W. Hosmer and S. Lemeshow. Applied logistic regression. Wiley, 1989 [ 11 ] P. M. Lee. Bayesian statistics: an introduction. Arnold, 1989. [ 12 ] L. Montero. Models Lineals Generalitzats. Universitat Polit` ecnica de Catalunya, Departament dEstad stica i Investigaci o Operativa, Setembre 2006. [ 13 ] A. OHagan. Arnold, 1994. Kendalls advanced theory of statistics, Vol.2B. Bayesian inferernce.

[ 14 ] A. Riba and J. Ginebra. Change-point estimation in a multinomial sequence and homogeneity of literary style. Journal of Applied Statistics, 32(1):61-74, 2005. [ 15 ] E. Roure. An` alisi de dades mitjan cant m` etodes bayesians. Projecte Final de Carrera, Universitat Polit` ecnica de Catalunya, Departament dEstad stica i Investigaci o Operativa, Maig 2005. [ 16 ] S. Sinharaya and H.S. Sternb. Posterior predictive model checking in hierarchical models. Journal of Statistical Planning and Inference, 111:209-221, 2003. [ 17 ] L. Wasserman. All of statistics a concise course in statistical inference. Springer, 2004. 115

116

6. Conclusions

[ 18 ] P. de Zea Bermudez. Estat stica Bayesiana. Universidade de Lisboa, Departamento de Estad stica e Investiga c ao Operacional, Janeiro 2007. [ 19 ] The BUGS Project - Bayesian inference Using Gibbs Sampling. http://www.mrcbsu.cam.ac.uk/bugs/ [ 20 ] The R Project for Statistical Computing. http://www.r-project.org/ [ 21 ] R Graph Galery. http://addictedtor.free.fr/graphiques/

Ap` endix A Codi en R


En aquest annex es mostra tot el codi que sha utilitzat amb el programa R.

A.1

Funci o model

Funci o en R per obtenir les simulacions de la distribuci o a posteriori dels par` ametres del model. library(R2WinBUGS) ####################################################### # # # Funci o per calcular models a partir de p par` ameters # # # ####################################################### model <- function(p,var,d){ N <- dim(d)[1] # grandaria mostra if (p==1){ dades <- list(N=N, p=p, y = d[,1], x1 = d[,var[1]+1]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0)) parametres <- c("beta0", "beta1", "sigma","E","Raj","mu", "SQE") } if (p==2){ dades <- list(N=N, p=p, y = d[,1], x1 = d[,var[1]+1], x2 = d[,var[2]+1]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2=0)) parametres <- c("beta0", "beta1", "beta2", "sigma","E","Raj","mu", "SQE") } if (p==3){ dades <- list(N=N, p=p, y = d[,1], x1 = d[,var[1]+1], x2 = d[,var[2]+1], x3 = d[,var[3]+1]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2=0, beta3= 0)) parametres <- c("beta0", "beta1", "beta2", "beta3", "sigma","E","Raj","mu", "SQE") 117

118 }

A. Codi en R

if (p==4){ dades <- list(N=N, p=p, y = d[,1], x1 = d[,var[1]+1], x2 = d[,var[2]+1], x3 = d[,var[3]+1], x4 = d[,var[4]+1]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2=0, beta3= 0, beta4=0)) parametres <- c("beta0", "beta1", "beta2", "beta3", "beta4", "sigma","E","Raj", "mu", "SQE") } if (p==5){ dades <- list(N=N, p=p, y = d[,1], x1 = d[,var[1]+1], x2 = d[,var[2]+1], x3 = d[,var[3]+1], x4 = d[,var[4]+1], x5 = d[,var[5]+1]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2=0, beta3= 0, beta4=0, beta5=0)) parametres <- c("beta0", "beta1", "beta2", "beta3", "beta4", "beta5", "sigma", "E","Raj","mu", "SQE") } Iter <- 2000 Burn <- 1000 Thin <- 5 Chain <- 1 n.sim<-(Iter*Thin+Burn) d.sim <- bugs(dades, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL",p,".txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim, debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") # n.chains e s el n um de cadenes # bugs.directori ens diu on tenim el WinBUGS # n.inter e s el n um dinteracions que vull fer # debug=true deixa el WinBUGS obert # working.directori e s el directori on guarda els resultats # El WinBUGS sobre i treu uns grafics de les simulacions que ha fet. # Perqu` e el R segueixi treballant sha de tancar el WinBUGS. attach.bugs(d.sim) if (p==1){ pv1<-min(sum(beta1>0),sum(beta1<0))/Iter # Distribucions marginals a posteriori # par(mfrow=c(2,2),cex.lab=1.3,cex.main=1.6,mar=c(5,4,2,1)) plot(density(beta0, adjust = 1.5), main = expression(paste(pi,"(",beta[0],"|y)")), xlab= "", ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta0+1.96*d.sim$sd$beta0,col=4);

A.1. Funci o model

119

abline(v= d.sim$mean$beta0-1.96*d.sim$sd$beta0,col=4) plot(density(beta1, adjust = 1.5), main = expression(paste(pi,"(",beta[1],"|y)")), xlab= pv1, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta1+1.96*d.sim$sd$beta1,col=4); abline(v= d.sim$mean$beta1-1.96*d.sim$sd$beta1,col=4) plot(density(sigma, adjust = 1.5), main = expression(paste(pi,"(",sigma,"|y)")), xlab= "", ylab="Densitat"); abline(v=0) } if (p==2){ pv1<-min(sum(beta1>0),sum(beta1<0))/Iter pv2<-min(sum(beta2>0),sum(beta2<0))/Iter # Distribucions marginals a posteriori # par(mfrow=c(2,2),cex.lab=1.3,cex.main=1.6,mar=c(5,4,2,1)) plot(density(beta0, adjust = 1.5), main = expression(paste(pi,"(",beta[0],"|y)")), xlab= "", ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta0+1.96*d.sim$sd$beta0,col=4); abline(v= d.sim$mean$beta0-1.96*d.sim$sd$beta0,col=4) plot(density(beta1, adjust = 1.5), main = expression(paste(pi,"(",beta[1],"|y)")), xlab= pv1, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta1+1.96*d.sim$sd$beta1,col=4); abline(v= d.sim$mean$beta1-1.96*d.sim$sd$beta1,col=4) plot(density(beta2, adjust = 1.5), main = expression(paste(pi,"(",beta[2],"|y)")), xlab= pv2, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta2+1.96*d.sim$sd$beta2,col=4); abline(v= d.sim$mean$beta2-1.96*d.sim$sd$beta2,col=4) plot(density(sigma, adjust = 1.5), main = expression(paste(pi,"(",sigma,"|y)")), xlab= "", ylab="Densitat"); abline(v=0) } if (p==3){ pv1<-min(sum(beta1>0),sum(beta1<0))/Iter pv2<-min(sum(beta2>0),sum(beta2<0))/Iter pv3<-min(sum(beta3>0),sum(beta3<0))/Iter # Distribucions marginals a posteriori # par(mfrow=c(3,2),cex.lab=1.5,cex.main=1.8,mar=c(5,4,2,1)) plot(density(beta0, adjust = 1.5), main = expression(paste(pi,"(",beta[0],"|y)")), xlab= "", ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta0+1.96*d.sim$sd$beta0,col=4); abline(v= d.sim$mean$beta0-1.96*d.sim$sd$beta0,col=4) plot(density(beta1, adjust = 1.5), main = expression(paste(pi,"(",beta[1],"|y)")), xlab= pv1, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta1+1.96*d.sim$sd$beta1,col=4); abline(v= d.sim$mean$beta1-1.96*d.sim$sd$beta1,col=4) plot(density(beta2, adjust = 1.5), main = expression(paste(pi,"(",beta[2],"|y)")), xlab= pv2, ylab="Densitat"); abline(v=0,col=2);

120

A. Codi en R

abline(v= d.sim$mean$beta2+1.96*d.sim$sd$beta2,col=4); abline(v= d.sim$mean$beta2-1.96*d.sim$sd$beta2,col=4) plot(density(beta3, adjust = 1.5), main = expression(paste(pi,"(",beta[3],"|y)")), xlab= pv3, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta3+1.96*d.sim$sd$beta3,col=4); abline(v= d.sim$mean$beta3-1.96*d.sim$sd$beta3,col=4) plot(density(sigma, adjust = 1.5), main = expression(paste(pi,"(",sigma,"|y)")), xlab= "", ylab="Densitat"); abline(v=0) } if (p==4){ pv1<-min(sum(beta1>0),sum(beta1<0))/Iter pv2<-min(sum(beta2>0),sum(beta2<0))/Iter pv3<-min(sum(beta3>0),sum(beta3<0))/Iter pv4<-min(sum(beta4>0),sum(beta4<0))/Iter # Distribucions marginals a posteriori # par(mfrow=c(3,2),cex.lab=1.5,cex.main=1.8,mar=c(5,4,2,1)) plot(density(beta0, adjust = 1.5), main = expression(paste(pi,"(",beta[0],"|y)")), xlab= "", ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta0+1.96*d.sim$sd$beta0,col=4); abline(v= d.sim$mean$beta0-1.96*d.sim$sd$beta0,col=4) plot(density(beta1, adjust = 1.5), main = expression(paste(pi,"(",beta[1],"|y)")), xlab= pv1, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta1+1.96*d.sim$sd$beta1,col=4); abline(v= d.sim$mean$beta1-1.96*d.sim$sd$beta1,col=4) plot(density(beta2, adjust = 1.5), main = expression(paste(pi,"(",beta[2],"|y)")), xlab= pv2, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta2+1.96*d.sim$sd$beta2,col=4); abline(v= d.sim$mean$beta2-1.96*d.sim$sd$beta2,col=4) plot(density(beta3, adjust = 1.5), main = expression(paste(pi,"(",beta[3],"|y)")), xlab= pv3, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta3+1.96*d.sim$sd$beta3,col=4); abline(v= d.sim$mean$beta3-1.96*d.sim$sd$beta3,col=4) plot(density(beta4, adjust = 1.5), main = expression(paste(pi,"(",beta[4],"|y)")), xlab= pv4, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta4+1.96*d.sim$sd$beta4,col=4); abline(v= d.sim$mean$beta4-1.96*d.sim$sd$beta4,col=4) plot(density(sigma, adjust = 1.5), main = expression(paste(pi,"(",sigma,"|y)")), xlab= "", ylab="Densitat"); abline(v=0) } if (p==5){ pv1<-min(sum(beta1>0),sum(beta1<0))/Iter pv2<-min(sum(beta2>0),sum(beta2<0))/Iter pv3<-min(sum(beta3>0),sum(beta3<0))/Iter pv4<-min(sum(beta4>0),sum(beta4<0))/Iter

A.1. Funci o model pv5<-min(sum(beta5>0),sum(beta5<0))/Iter

121

# Distribucions marginals a posteriori # par(mfrow=c(3,3),cex.lab=1.5,cex.main=1.8,mar=c(5,4,2,1)) plot(density(beta0, adjust = 1.5), main = expression(paste(pi,"(",beta[0],"|y)")), xlab= "", ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta0+1.96*d.sim$sd$beta0,col=4); abline(v= d.sim$mean$beta0-1.96*d.sim$sd$beta0,col=4) plot(density(beta1, adjust = 1.5), main = expression(paste(pi,"(",beta[1],"|y)")), xlab= pv1, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta1+1.96*d.sim$sd$beta1,col=4); abline(v= d.sim$mean$beta1-1.96*d.sim$sd$beta1,col=4) plot(density(beta2, adjust = 1.5), main = expression(paste(pi,"(",beta[2],"|y)")), xlab= pv2, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta2+1.96*d.sim$sd$beta2,col=4); abline(v= d.sim$mean$beta2-1.96*d.sim$sd$beta2,col=4) plot(density(beta3, adjust = 1.5), main = expression(paste(pi,"(",beta[3],"|y)")), xlab= pv3, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta3+1.96*d.sim$sd$beta3,col=4); abline(v= d.sim$mean$beta3-1.96*d.sim$sd$beta3,col=4) plot(density(beta4, adjust = 1.5), main = expression(paste(pi,"(",beta[4],"|y)")), xlab= pv4, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta4+1.96*d.sim$sd$beta4,col=4); abline(v= d.sim$mean$beta4-1.96*d.sim$sd$beta4,col=4) plot(density(beta5, adjust = 1.5), main = expression(paste(pi,"(",beta[5],"|y)")), xlab= pv5, ylab="Densitat"); abline(v=0,col=2); abline(v= d.sim$mean$beta5+1.96*d.sim$sd$beta5,col=4); abline(v= d.sim$mean$beta5-1.96*d.sim$sd$beta5,col=4) plot(density(sigma, adjust = 1.5), main = expression(paste(pi,"(",sigma,"|y)")), xlab= "", ylab="Densitat"); abline(v=0) } return(d.sim) }

122

A. Codi en R

A.2

Les illes Gal` apagos

Codi en R utilitzat per analitzar les dades referents a la diversitat biol` ogica de les illes Gal` apagos.

#################### # # # Llegir les dades # # # #################### path<-"C:\\Users\\annabrichs\\Bayesia\\Projecte\\Galapagos\\GALAPAGB.txt" dad <- read.table(path,header=TRUE, dec=",") N <- dim(dad)[1] # grandaria mostra dades <- list(N=N, p=5, Esp = dad$No.Esp., Area = dad$Area, Eleva = dad$Eleva., DNear= dad$D.Near, DSCruz= dad$D.StCruz, AAdj= dad$A.Adj.) d<- data.frame(dades$Esp,dades$Area,dades$Eleva,dades$DNear,dades$DSCruz,dades$AAdj) lndades <- list(N=N, p=5, Esp = log(dad$No.Esp.), Area = log(dad$Area), Eleva = log(dad$Eleva.), DNear = log(dad$D.Near), DSCruz= log(dad$D.StCruz+1), AAdj= log(dad$A.Adj.)) ld<- data.frame(lndades$Esp,lndades$Area,lndades$Eleva,lndades$DNear, lndades$DSCruz,lndades$AAdj)

################################################################################ ###################### # # ` # MODEL BAYESIA # # # ###################### ###################### # # O DEL MODEL # # SELECCI # # ###################### ## Executar la funci o "model" ################################################## ## Busquem el model comen cant pel model complet i ## traient 1 variable cada vegada, si sescau ################################## model5a = model(5,c(1,2,3,4,5),ld) # Traiem la variable 4 (Dist` ancia a lilla de Santa Cruz) model4a = model(4,c(1,2,3,5),ld)

A.2. Les illes Gal` apagos # Traiem la variable 5 (` Area de lilla m es propera) model3a = model(3,c(1,2,3),ld) # Traiem la variable 2(Elevaci o) model2a = model(2,c(1,3),ld) # Traiem la variable 3 (Dist` ancia a lilla m es propera) model1a = model(1,c(1),ld) # Ens quedem amb el model amb una sola variable (` Area de lilla en km2)

123

## Busquem els 31 possibles models ########################################### SQEtot <- matrix(nrow=Iter, ncol=31) DICtot <- vector(length=31) model1.1 = model(1,c(1),ld) # model amb totes les betes DICtot[1] <- model1.1$DIC SQEtot[,1] <- SQE model1.2 = model(1,c(2),ld) # model amb totes les betes DICtot[2] <- model1.2$DIC SQEtot[,2] <- SQE model1.3 = model(1,c(3),ld) DICtot[3] <- model1.3$DIC SQEtot[,3] <- SQE model1.4 = model(1,c(4),ld) DICtot[4] <- model1.4$DIC SQEtot[,4] <- SQE model1.5 = model(1,c(5),ld) DICtot[5] <- model1.5$DIC SQEtot[,5] <- SQE # Model 1 significatives

# Model 2 significatives

# Model 3

# Model 4

# Model 5

model2.1 = model(2,c(1,2),ld) DICtot[6] <- model2.1$DIC SQEtot[,6] <- SQE model2.2 = model(2,c(1,3),ld) DICtot[7] <- model2.2$DIC SQEtot[,7] <- SQE model2.3 = model(2,c(1,4),ld) DICtot[8] <- model2.3$DIC SQEtot[,8] <- SQE model2.4 = model(2,c(1,5),ld) DICtot[9] <- model2.4$DIC SQEtot[,9] <- SQE model2.5 = model(2,c(2,3),ld)

# Model 6

# Model 7

# Model 8

# Model 9

# Model 10

124 DICtot[10] <- model2.5$DIC SQEtot[,10] <- SQE model2.6 = model(2,c(2,4),ld) # Model 11 DICtot[11] <- model2.6$DIC SQEtot[,11] <- SQE model2.7 = model(2,c(2,5),ld) # Model 12 DICtot[12] <- model2.7$DIC SQEtot[,12] <- SQE model2.8 = model(2,c(3,4),ld) # Model 13 DICtot[13] <- model2.8$DIC SQEtot[,13] <- SQE model2.9 = model(2,c(3,5),ld) # Model 14 DICtot[14] <- model2.9$DIC SQEtot[,14] <- SQE model2.10 = model(2,c(4,5),ld) # Model 15 DICtot[15] <- model2.10$DIC SQEtot[,15] <- SQE model3.1 = model(3,c(1,2,3),ld) # Model 16 DICtot[16] <- model3.1$DIC SQEtot[,16] <- SQE model3.2 = model(3,c(1,2,4),ld) # Model 17 DICtot[17] <- model3.2$DIC SQEtot[,17] <- SQE model3.3 = model(3,c(1,2,5),ld) # Model 18 DICtot[18] <- model3.3$DIC SQEtot[,18] <- SQE model3.4 = model(3,c(1,3,4),ld) # Model 19 DICtot[19] <- model3.4$DIC SQEtot[,19] <- SQE model3.5 = model(3,c(1,3,5),ld) # Model 20 DICtot[20] <- model3.5$DIC SQEtot[,20] <- SQE model3.6 = model(3,c(1,4,5),ld) # Model 21 DICtot[21] <- model3.6$DIC SQEtot[,21] <- SQE model3.7 = model(3,c(2,3,4),ld) # Model 22 DICtot[22] <- model3.7$DIC SQEtot[,22] <- SQE model3.8 = model(3,c(2,3,5),ld) # Model 23 DICtot[23] <- model3.8$DIC SQEtot[,23] <- SQE model3.9 = model(3,c(2,4,5),ld) # Model 24 DICtot[24] <- model3.9$DIC SQEtot[,24] <- SQE model3.10 = model(3,c(3,4,5),ld) # Model 25 DICtot[25] <- model3.10$DIC SQEtot[,25] <- SQE

A. Codi en R

A.2. Les illes Gal` apagos

125

model4.1 = model(4,c(1,2,3,4),ld) DICtot[26] <- model4.1$DIC SQEtot[,26] <- SQE model4.2 = model(4,c(1,2,3,5),ld) DICtot[27] <- model4.2$DIC SQEtot[,27] <- SQE model4.3 = model(4,c(1,2,4,5),ld) DICtot[28] <- model4.3$DIC SQEtot[,28] <- SQE model4.4 = model(4,c(1,3,4,5),ld) DICtot[29] <- model4.4$DIC SQEtot[,29] <- SQE model4.5 = model(4,c(2,3,4,5),ld) DICtot[30] <- model4.5$DIC SQEtot[,30] <- SQE

# Model 26

# Model 27

# Model 28

# Model 29

# Model 30

model5.1 = model(5,c(1,2,3,4,5),ld) # Model 31 DICtot[31] <- model5.1$DIC SQEtot[,31] <- SQE

par(mfrow=c(2,1),mar=c(4,4,2,1),cex.main=1.4) boxplot(SQEtot[,1],SQEtot[,2],SQEtot[,3],SQEtot[,4],SQEtot[,5],SQEtot[,6], SQEtot[,7],SQEtot[,8],SQEtot[,9],SQEtot[,10],SQEtot[,11],SQEtot[,12], SQEtot[,13],SQEtot[,14],SQEtot[,15],SQEtot[,16],SQEtot[,17],SQEtot[,18], SQEtot[,19],SQEtot[,20],SQEtot[,21],SQEtot[,22],SQEtot[,23],SQEtot[,24], SQEtot[,25],SQEtot[,26],SQEtot[,27],SQEtot[,28],SQEtot[,29],SQEtot[,30], SQEtot[,31], main="SQE", log="y",names=c(1,2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31));abline(h=0,col=2); plot(1:31, DICtot, main="DIC", xlab="", ylab=""); abline(h=c(70,80,90,100,110),lty=3,col="grey50");

## Gr` afic distribuci o a posteriori de les betes ################################ ######### ## p=1 ## ######### model1.1 = model(1,c(1),ld) # Model 1 def.par <- par(no.readonly = TRUE) nf <- layout(matrix(c(2,0,1,3),2,2,byrow=TRUE), c(3,1), c(1,3), TRUE) beta0post <- hist(beta0, breaks=seq(2.2,3.5,0.1), plot=FALSE) beta1post <- hist(beta1, breaks=seq(0.2,0.6,0.03), plot=FALSE)

126

A. Codi en R

par(mar=c(5,5,1,1),cex.lab=1.6) plot(beta0, beta1, ylab=expression(paste(beta[1])),xlab=expression(paste(beta[0])), pch=20) par(mar=c(0,5,1,1)) barplot(beta0post$counts,axes=FALSE, main="", space=0) par(mar=c(5,0,1,1)) barplot(beta1post$counts,axes=FALSE, main ="", space=0, horiz=TRUE) par(def.par)

####################### # # # VALIDACIO DEL MODEL # # # ####################### ## Executar el model escollit ################################################## ## Distribuci o dels errors EspE<- apply(E, 2, mean) par(mfrow=c(3,1),mar=c(4.5,4.5,2,1),cex.lab=1.4) h <- dim(E)[1] yl <- max(y1 <- -min(E), y2 <- max(E)) plot(1:N, EspE, type="p", ylim=c(-yl, yl),pch=19, xlab="Observaci o", ylab=expression(paste(epsilon,"|y"))) for ( i in 1:N) { A <- sort(E[,i]) a1 <- A[(0.05*h)] a2 <- A[(0.95*h)] lines(c(i,i), c(a1,a2)) } abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) ## Errors versus valors previstos ############################################## EspY.post <- apply(mu, 2, mean) plot(EspY.post, EspE, ylim=c(-yl,yl),pch=19, xlab="Valor esperat", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) ##################################################

A.2. Les illes Gal` apagos

127

## Probabilitat doutlier prob.outlier <- rep(0, N)

####################################################

for(i in 1:N) { prob.outlier[i] <- sum(abs(E[,i])>(1.96*sigma))/(Iter*Chain) } cbind(1:N, prob.outlier) plot(1:N, prob.outlier,xlab="Observaci o",ylab="Probabilitat doutlier",ylim=c(0,1))

## Errors versus variables explicatives ######################################## par(mfrow=c(3,2),cex.lab=1.5, mar=c(5,5,2,2)) plot(lndades$Area, EspE, ylim=c(-yl,yl),pch=19, xlab="log(Area)", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) plot(lndades$Eleva, EspE, ylim=c(-yl,yl),pch=19, xlab="log(Eleva)", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) plot(lndades$DNear, EspE, ylim=c(-yl,yl),pch=19, xlab="log(DNear)", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) plot(lndades$DSCruz, EspE, ylim=c(-yl,yl),pch=19, xlab="log(DSCruz+1)", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) plot(lndades$AAdj, EspE, ylim=c(-yl,yl),pch=19, xlab="log(AAdj)", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3)

128

A. Codi en R

## avaluaci o del nivell predeictiu de caracter stiques "adhoc" ################# par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4) plot(lndades$Area, lndades$Esp, ylab="log(Esp)", xlab="log(Area)", main="dades observades", pch=19) repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) } plot(lndades$Area, y.rep, ylab="log(Esp)", xlab="log(Area)", main=paste("r` eplica ",j), pch=19) } for (j in 1:11) {repliques(j)}

## Validaci o Creuada predictiva a posteriori ################################### par(mfrow=c(5,6),mar=c(3,3,1,0.5),cex.main=1.1) for (i in 1:N) { logdades <- list(N=N-1, y = lndades$Esp[-i], x1 = lndades$Area[-i], x1.nou = lndades$Area[i]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0)) parametres <- c("beta0", "beta1", "sigma", "SQE", "E", "mu", "y.pred") d.sim <- bugs(logdades, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL1prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) pre.post <- rep(0, N) aux <- density(y.pred) pre.post[i] <- (aux$y[findInterval(lndades$Esp[i],aux$x)]+ aux$y[findInterval(lndades$Esp[i],aux$x)+1])/2 plot(aux, main=i, xlab="", ylab="") points(lndades$Esp[i],0, pch=19)

A.2. Les illes Gal` apagos if ((i==4)|(i==8)|(i==12)|(i==19)|(i==21)|(i==26)|(i==27)) text(lndades$Esp[i],pre.post[i],paste(round(pre.post[i],2)),pos=3) else text(lndades$Esp[i],pre.post[i],paste(round(pre.post[i],2)),pos=4) lines(c(lndades$Esp[i],lndades$Esp[i]),c(0,pre.post[i]), lty=4) lines(c(min(aux$y),lndades$Esp[i]),c(pre.post[i],pre.post[i]), lty=4) } # Laltre gr` afic de la validaci o creuada predictiva a posteriori par(mfrow=c(1,1))

129

plot(1:N, lndades$Esp, ylim=c(-1, 9), type="p",pch=19, xlab="Observaci o", ylab="y") for (i in 1:N) { logdades <- list(N=N-1, y = lndades$Esp[-i], x1 = lndades$Area[-i], x1.nou = lndades$Area[i]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0)) parametres <- c("beta0", "beta1", "sigma", "SQE", "E", "mu", "y.pred") d.sim <- bugs(logdades, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL1prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) pre.post <- rep(0, N) aux <- density(y.pred) pre.post[i] <- (aux$y[findInterval(lndades$Esp[i],aux$x)]+ aux$y[findInterval(lndades$Esp[i],aux$x)+1])/2 h <- length(y.pred) A <- sort(y.pred) a1 <- A[(0.05*h)] a2 <- A[(0.95*h)] lines(c(i,i), c(a1,a2)) }

############# # # # PREDICCIO # # # ############# par(mfrow=c(1,1),mar=c(5,6,3,5)) xnou=log(0.30)

130

A. Codi en R

ldades <- list(N=N, y = lndades$Esp, x1 = lndades$Area, x1.nou =xnou ) inicials <- list(list(tau=0.1, beta0= 0, beta1=0)) parametres <- c("beta0", "beta1", "sigma", "SQE", "E", "mu", "y.pred") d.sim <- bugs(ldades, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL1prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) aux <- density(y.pred) plot(aux, main="Distribuci o predictiva a posteriori per predir el nombre desp` ecies duna illa de 0.30 Km^2", ylab=expression(paste(P[pi],"(",tilde(y),"|y)")), xlab="y") # Estimaci o puntual mean(y.pred) exp((mean(y.pred))) # Estimaci o per interval p=0.95 B <- sort(y.pred) B[50] B[1950] exp(B[50]) exp(B[1950])

A.3. El pes del nad o

131

A.3

El pes del nad o

Codi en R utilitzat per analitzar les dades referents al pes dels nadons. #################### # # # Llegir les dades # # # #################### path<-"C:\\Users\\annabrichs\\Bayesia\\Projecte\\Pes nadons\\pesnadons.txt" dad <- read.table(path,header=TRUE, dec=",") N <- dim(dad)[1] # grandaria mostra dades <- list(N=N, p=5, nadopes = dad$bwt, edat = dad$age, marepes = dad$lwt, fuma= dad$smoke, ht= dad$ht, iu= dad$ui) d<- data.frame(dad$bwt, dad$age, dad$lwt, dad$smoke, dad$ht, dad$ui)

################################################################## ###################### # # # MODEL BAYESI` A # # # ###################### ###################### # # # SELECCIO DEL MODEL # # # ###################### ## Executar la funci o "model" #################################### ## Busquem el model comen cant pel model complet i ## traient 1 variable cada vegada, si sescau #################### model5a = model(5,var=c(1,2,3,4,5),d) # Traiem la variable x1 (edat de la mare) model4a = model(4,c(2,3,4,5),d) # Ens quedem amb el model amb 4 variables (marepes, fuma, ht, iu) ## Busquem els 31 possibles models ############################### SQEtot <- matrix(nrow=Iter, ncol=31) DICtot <- vector(length=31)

132 model1.1 = model(1,c(1),d) DICtot[1] <- model1.1$DIC SQEtot[,1] <- SQE model1.2 = model(1,c(2),d) DICtot[2] <- model1.2$DIC SQEtot[,2] <- SQE model1.3 = model(1,c(3),d) DICtot[3] <- model1.3$DIC SQEtot[,3] <- SQE model1.4 = model(1,c(4),d) DICtot[4] <- model1.4$DIC SQEtot[,4] <- SQE model1.5 = model(1,c(5),d) DICtot[5] <- model1.5$DIC SQEtot[,5] <- SQE # Model 1

A. Codi en R

# Model 2

# Model 3

# Model 4

# Model 5

model2.1 = model(2,c(1,2),d) # Model 6 DICtot[6] <- model2.1$DIC SQEtot[,6] <- SQE model2.2 = model(2,c(1,3),d) # Model 7 DICtot[7] <- model2.2$DIC SQEtot[,7] <- SQE model2.3 = model(2,c(1,4),d) # Model 8 DICtot[8] <- model2.3$DIC SQEtot[,8] <- SQE model2.4 = model(2,c(1,5),d) # Model 9 DICtot[9] <- model2.4$DIC SQEtot[,9] <- SQE model2.5 = model(2,c(2,3),d) # Model 10 DICtot[10] <- model2.5$DIC SQEtot[,10] <- SQE model2.6 = model(2,c(2,4),d) # Model 11 DICtot[11] <- model2.6$DIC SQEtot[,11] <- SQE model2.7 = model(2,c(2,5),d) # Model 12 DICtot[12] <- model2.7$DIC SQEtot[,12] <- SQE model2.8 = model(2,c(3,4),d) # Model 13 DICtot[13] <- model2.8$DIC SQEtot[,13] <- SQE model2.9 = model(2,c(3,5),d) # Model 14 DICtot[14] <- model2.9$DIC SQEtot[,14] <- SQE model2.10 = model(2,c(4,5),d) # Model 15 DICtot[15] <- model2.10$DIC SQEtot[,15] <- SQE model3.1 = model(3,c(1,2,3),d) # Model 16

A.3. El pes del nad o DICtot[16] <- model3.1$DIC SQEtot[,16] <- SQE model3.2 = model(3,c(1,2,4),d) # Model 17 DICtot[17] <- model3.2$DIC SQEtot[,17] <- SQE model3.3 = model(3,c(1,2,5),d) # Model 18 DICtot[18] <- model3.3$DIC SQEtot[,18] <- SQE model3.4 = model(3,c(1,3,4),d) # Model 19 DICtot[19] <- model3.4$DIC SQEtot[,19] <- SQE model3.5 = model(3,c(1,3,5),d) # Model 20 DICtot[20] <- model3.5$DIC SQEtot[,20] <- SQE model3.6 = model(3,c(1,4,5),d) # Model 21 DICtot[21] <- model3.6$DIC SQEtot[,21] <- SQE model3.7 = model(3,c(2,3,4),d) # Model 22 DICtot[22] <- model3.7$DIC SQEtot[,22] <- SQE model3.8 = model(3,c(2,3,5),d) # Model 23 DICtot[23] <- model3.8$DIC SQEtot[,23] <- SQE model3.9 = model(3,c(2,4,5),d) # Model 24 DICtot[24] <- model3.9$DIC SQEtot[,24] <- SQE model3.10 = model(3,c(3,4,5),d) # Model 25 DICtot[25] <- model3.10$DIC SQEtot[,25] <- SQE model4.1 = model(4,c(1,2,3,4),d) DICtot[26] <- model4.1$DIC SQEtot[,26] <- SQE model4.2 = model(4,c(1,2,3,5),d) DICtot[27] <- model4.2$DIC SQEtot[,27] <- SQE model4.3 = model(4,c(1,2,4,5),d) DICtot[28] <- model4.3$DIC SQEtot[,28] <- SQE model4.4 = model(4,c(1,3,4,5),d) DICtot[29] <- model4.4$DIC SQEtot[,29] <- SQE model4.5 = model(4,c(2,3,4,5),d) DICtot[30] <- model4.5$DIC SQEtot[,30] <- SQE # Model 26

133

# Model 27

# Model 28

# Model 29

# Model 30

model5.1 = model(5,c(1,2,3,4,5),d) # Model 31 DICtot[31] <- model5.1$DIC

134 SQEtot[,31] <- SQE par(mfrow=c(2,1),mar=c(4,4,2,1),cex.main=1.4)

A. Codi en R

boxplot(SQEtot[,1],SQEtot[,2],SQEtot[,3],SQEtot[,4],SQEtot[,5],SQEtot[,6],SQEtot[,7], SQEtot[,8],SQEtot[,9],SQEtot[,10],SQEtot[,11],SQEtot[,12],SQEtot[,13],SQEtot[,14], SQEtot[,15],SQEtot[,16],SQEtot[,17],SQEtot[,18],SQEtot[,19],SQEtot[,20],SQEtot[,21], SQEtot[,22],SQEtot[,23],SQEtot[,24],SQEtot[,25],SQEtot[,26],SQEtot[,27],SQEtot[,28], SQEtot[,29],SQEtot[,30],SQEtot[,31], main="SQE",log="y",names=c(1,2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31)); abline(h=0,col=2); plot(1:31, DICtot, main="DIC", xlab="", ylab="");abline(h=c(3005,3010,3015,3020,3025, 3030),lty=3,col="grey50");

## Gr` afic betes posteriori ####################################### ## p=4 model4.5 = model(4,c(2,3,4,5),d) # Model 30 def.par <- par(no.readonly = TRUE) nf <- layout(matrix(c(11, 12, 13, 14, 0, 1, 2, 3, 4, 15, 0, 5, 6, 7, 16, 0, 0, 8, 9, 17, 0, 0, 0, 10, 18),5,5,byrow=TRUE)) beta0post <- hist(beta0, plot=FALSE) beta1post <- hist(beta1, plot=FALSE) beta2post <- hist(beta2, plot=FALSE) beta3post <- hist(beta3, plot=FALSE) beta4post <- hist(beta4, plot=FALSE)

par(mar=c(4,4,0,0),cex.lab=1.4) plot (beta1,beta0,ylab=expression(paste(beta[0])),xlab=expression(paste(beta[2])), pch=20) par(mar=c(4,4,0,0)) plot (beta2,beta0,ylab=" ", xlab=" ", pch=20) par(mar=c(4,4,0,0)) plot (beta3,beta0,ylab=" ", xlab=" ", pch=20) par(mar=c(4,4,0,0)) plot (beta4,beta0,ylab=" ", xlab=" ", pch=20) par(mar=c(4,4,0,0),cex.lab=1.4) plot (beta2,beta1,ylab=expression(paste(beta[2])),xlab=expression(paste(beta[3])), pch=20) par(mar=c(4,4,0,0)) plot (beta3,beta1,ylab=" ",xlab= " ", pch=20) par(mar=c(4,4,0,0)) plot (beta4,beta1,ylab=" ",xlab= " ", pch=20)

A.3. El pes del nad o

135

par(mar=c(4,4,0,0),cex.lab=1.4) plot (beta3,beta2,ylab=expression(paste(beta[3])),xlab= expression(paste(beta[4])), pch=20) par(mar=c(4,4,0,0)) plot (beta4,beta2,ylab=" ",xlab= " ", pch=20) par(mar=c(4.5,4,0,0),cex.lab=1.4) plot (beta4,beta3,ylab=expression(paste(beta[4])),xlab= expression(paste(beta[5])), pch=20) par(mar=c(0.5,4,0.5,0)) barplot(beta1post$counts,axes=FALSE, par(mar=c(0.5,4,0.5,0)) barplot(beta2post$counts,axes=FALSE, par(mar=c(0.5,4,0.5,0)) barplot(beta3post$counts,axes=FALSE, par(mar=c(0.5,4,0.5,0)) barplot(beta4post$counts,axes=FALSE, par(mar=c(4,0.5,0,0.5)) barplot(beta0post$counts,axes=FALSE, par(mar=c(4,0.5,0,0.5)) barplot(beta1post$counts,axes=FALSE, par(mar=c(4,0.5,0,0.5)) barplot(beta2post$counts,axes=FALSE, par(mar=c(4,0.5,0,0.5)) barplot(beta3post$counts,axes=FALSE, par(def.par)

main="", space=0) main="", space=0) main="", space=0) main="", space=0)

main ="", space=0, horiz=TRUE) main ="", space=0, horiz=TRUE) main ="", space=0, horiz=TRUE) main ="", space=0, horiz=TRUE)

####################### # # # VALIDACIO DEL MODEL # # # ####################### ## Executar el model escollit #################################### ## Distribuci o dels errors EspE<- apply(E, 2, mean) par(mfrow=c(3,1),mar=c(4.5,4.5,2,1),cex.lab=1.4) h <- dim(E)[1] yl <- max(y1 <- -min(E), y2 <- max(E)) ####################################

136

A. Codi en R

plot(1:N, EspE, type="p", ylim=c(-yl, yl),pch=19, xlab="Observaci o", ylab=expression(paste(epsilon,"|y"))) for ( i in 1:N) { A <- sort(E[,i]) a1 <- A[(0.05*h)] a2 <- A[(0.95*h)] lines(c(i,i), c(a1,a2)) } abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) ## Errors versus valors previstos ################################ EspY.post <- apply(mu, 2, mean) plot(EspY.post, EspE, ylim=c(-yl,yl),pch=19, xlab="Valor esperat", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) ## Probabilitat doutlier prob.outlier <- rep(0, N) for(i in 1:N) { prob.outlier[i] <- sum(abs(E[,i])>(1.96*sigma))/(Iter*Chain) } cbind(1:N, prob.outlier) plot(1:N, prob.outlier,xlab="Observaci o",ylab="Probabilitat doutlier",ylim=c(0,1)) ######################################

## Errors versus variables explicatives ########################## par(mfrow=c(3,2),cex.lab=1.5,cex.lab=1.4, mar=c(5,5,2,2)) plot(dades$edat, EspE, ylim=c(-yl,yl),pch=19, xlab="edat", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$marepes, EspE, ylim=c(-yl,yl),pch=19, xlab="marepes", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2)

A.3. El pes del nad o abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$fuma, EspE, ylim=c(-yl,yl),pch=19, xlab="fuma", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$ht, EspE, ylim=c(-yl,yl),pch=19, xlab="ht", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$iu, EspE, ylim=c(-yl,yl),pch=19, xlab="iu", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) ## avaluaci o del nivell predeictiu de caracter stiques "adhoc" ##

137

par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4, mar=c(5,4,2,1)) plot(dades$marepes, dades$nadopes, ylab="Pes del nad o", xlab="Pes de la mare", main="dades observades", pch=19) repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) } plot(dades$marepes, y.rep, ylab="Pes del nad o", xlab="Pes de la mare", main=paste("r` eplica ",j), pch=19) } for (j in 1:11) {repliques(j)} # par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4, mar=c(5,4,2,1)) plot(dades$fuma, dades$nadopes, ylab="Pes del nad o", xlab="Fuma", main="dades observades", pch=19)

138 repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) }

A. Codi en R

plot(dades$fuma, y.rep, ylab="Pes del nad o", xlab="Fuma", main=paste("r` eplica ",j), pch=19) } for (j in 1:11) {repliques(j)} # par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4, mar=c(5,4,2,1)) plot(dades$ht, dades$nadopes, ylab="Pes del nad o", xlab="Hipertensi o", main="dades observades", pch=19) repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) } plot(dades$ht, y.rep, ylab="Pes del nad o", xlab="Hipertensi o", main=paste("r` eplica ",j), pch=19) } for (j in 1:11) {repliques(j)} # par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4, mar=c(5,4,2,1)) plot(dades$iu, dades$nadopes, ylab="Pes del nad o", xlab="Irritabilitat uterina", main="dades observades", pch=19) repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) }

A.3. El pes del nad o plot(dades$iu, y.rep, ylab="Pes del nad o", xlab="Irritabilitat uterina", main=paste("r` eplica ",j), pch=19) } for (j in 1:11) {repliques(j)}

139

## Validaci o Creuada predictiva a posteriori ############### # Laltre gr` afic par(mfrow=c(1,1)) plot(1:N, dades$nadopes, type="p",pch=19, xlab="Observaci o", ylab="y") for (i in 1:N) { dads <- list(N=N-1, y = dades$nadopes[-i], x1 = dades$marepes[-i], x2 = dades$fuma[-i],x3 = dades$ht[-i],x4 = dades$iu[-i],x1.nou = dades$marepes[i], x2.nou = dades$fuma[i],x3.nou = dades$ht[i],x4.nou = dades$iu[i]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2= 0, beta3=0, beta4= 0)) parametres <- c("beta0", "beta1","beta3", "beta3","beta4", "sigma", "SQE", "E", "mu", "y.pred") d.sim <- bugs(dads, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL4prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) pre.post <- rep(0, N) aux <- density(y.pred) pre.post[i] <- (aux$y[findInterval(dades$nadopes[i],aux$x)]+ aux$y[findInterval(dades$nadopes[i],aux$x)+1])/2 h <- length(y.pred) A <- sort(y.pred) a1 <- A[(0.05*h)] a2 <- A[(0.95*h)] lines(c(i,i), c(a1,a2)) }

140 ############# # # # PREDICCIO # # # ############# par(mfrow=c(1,1),mar=c(5,6,3,5)) pes.nou=110 fuma.nou=0 ht.nou=0 iu.nou=0

A. Codi en R

dads <- list(N=N, y = dades$nadopes, x1 = dades$marepes,x2 = dades$fuma, x3 = dades$ht,x4 = dades$iu, x1.nou = pes.nou,x2.nou = fuma.nou,x3.nou = ht.nou, x4.nou = iu.nou) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2= 0, beta3=0, beta4= 0)) parametres <- c("beta0", "beta1","beta3", "beta3","beta4", "sigma", "SQE", "E", "mu", "y.pred") d.sim <- bugs(dads, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL4prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) aux <- density(y.pred) plot(aux, main="Distribuci o predictiva a posteriori per predir el pes dun nad o (caracter stiques: marepes=110, fuma=0, ht=0, iu=0)", ylab=expression(paste(P[pi],"(",tilde(y),"|y)")), xlab="y") # Estimaci o puntual mean(y.pred) # Estimaci o per interval p=0.95 B <- sort(y.pred) B[50] B[1950]

A.4. La volta ciclista

141

A.4

La volta ciclista

Codi en R utilitzat per analitzar les dades referents al temps que dura una etapa de la volta ciclista a Espanya. #################### # # # Llegir les dades # # # #################### path<-"C:\\Users\\annabrichs\\Bayesia\\Projecte\\Volta ciclista\\vueltab.txt" dad <- read.table(path,header=TRUE, dec=",") N <- dim(dad)[1] dades <- list(N=N, p=5, temps = dad$temps, qms = dad$Qms, mdifer = dad$mdifer, mpujats= dad$mpujats, dmont= dad$dmont, dcont= dad$dcont) d<- data.frame(dad$temps, dad$Qms, dad$mdifer, dad$mpujats, dad$dmont, dad$dcont) ################################################################## ###################### # # # MODEL BAYESI` A # # # ###################### ###################### # # # SELECCIO DEL MODEL # # # ###################### ## Executar la funci o "model" #################################### ## Busquem el model comen cant pel model complet i ## traient 1 variable cada vegada, si sescau #################### model5a = model(5,var=c(1,2,3,4,5),d) # Traiem la variable x4 (dmont) model4a = model(4,var=c(1,2,3,5),d) # Traiem la variable x5 (dcont) model3a = model(3,var=c(1,2,3),d) # Traiem la variable x2 (mdifer) model2a = model(2,var=c(1,3),d) # Ens quedem amb el model amb dues variables: x1 i x3 (qms i mpujats)

142

A. Codi en R

## Busquem els 31 possibles models ############################### SQEtot <- matrix(nrow=Iter, ncol=31) DICtot <- vector(length=31) model1.1 = model(1,c(1),d) # Model 1 # model amb totes les betes significatives DICtot[1] <- model1.1$DIC SQEtot[,1] <- SQE model1.2 = model(1,c(2),d) # Model 2 DICtot[2] <- model1.2$DIC SQEtot[,2] <- SQE model1.3 = model(1,c(3),d) # Model 3 # model amb totes les betes significatives DICtot[3] <- model1.3$DIC SQEtot[,3] <- SQE model1.4 = model(1,c(4),d) # Model 4 # model amb totes les betes significatives DICtot[4] <- model1.4$DIC SQEtot[,4] <- SQE model1.5 = model(1,c(5),d) # Model 5 DICtot[5] <- model1.5$DIC SQEtot[,5] <- SQE model2.1 = model(2,c(1,2),d) # Model 6 # model amb totes les betes significatives DICtot[6] <- model2.1$DIC SQEtot[,6] <- SQE model2.2 = model(2,c(1,3),d) # Model 7 # model amb totes les betes significatives DICtot[7] <- model2.2$DIC SQEtot[,7] <- SQE model2.3 = model(2,c(1,4),d) # Model 8 DICtot[8] <- model2.3$DIC SQEtot[,8] <- SQE model2.4 = model(2,c(1,5),d) # Model 9 DICtot[9] <- model2.4$DIC SQEtot[,9] <- SQE model2.5 = model(2,c(2,3),d) # Model 10 DICtot[10] <- model2.5$DIC SQEtot[,10] <- SQE model2.6 = model(2,c(2,4),d) # Model 11 DICtot[11] <- model2.6$DIC SQEtot[,11] <- SQE model2.7 = model(2,c(2,5),d) # Model 12 DICtot[12] <- model2.7$DIC SQEtot[,12] <- SQE

A.4. La volta ciclista model2.8 = model(2,c(3,4),d) # Model 13 # model amb totes les betes significatives DICtot[13] <- model2.8$DIC SQEtot[,13] <- SQE model2.9 = model(2,c(3,5),d) # Model 14 DICtot[14] <- model2.9$DIC SQEtot[,14] <- SQE model2.10 = model(2,c(4,5),d) # Model 15 DICtot[15] <- model2.10$DIC SQEtot[,15] <- SQE model3.1 = model(3,c(1,2,3),d) # Model 16 DICtot[16] <- model3.1$DIC SQEtot[,16] <- SQE model3.2 = model(3,c(1,2,4),d) # Model 17 DICtot[17] <- model3.2$DIC SQEtot[,17] <- SQE model3.3 = model(3,c(1,2,5),d) # Model 18 DICtot[18] <- model3.3$DIC SQEtot[,18] <- SQE model3.4 = model(3,c(1,3,4),d) # Model 19 DICtot[19] <- model3.4$DIC SQEtot[,19] <- SQE model3.5 = model(3,c(1,3,5),d) # Model 20 DICtot[20] <- model3.5$DIC SQEtot[,20] <- SQE model3.6 = model(3,c(1,4,5),d) # Model 21 DICtot[21] <- model3.6$DIC SQEtot[,21] <- SQE model3.7 = model(3,c(2,3,4),d) # Model 22 DICtot[22] <- model3.7$DIC SQEtot[,22] <- SQE model3.8 = model(3,c(2,3,5),d) # Model 23 DICtot[23] <- model3.8$DIC SQEtot[,23] <- SQE model3.9 = model(3,c(2,4,5),d) # Model 24 DICtot[24] <- model3.9$DIC SQEtot[,24] <- SQE model3.10 = model(3,c(3,4,5),d) # Model 25 DICtot[25] <- model3.10$DIC SQEtot[,25] <- SQE model4.1 = model(4,c(1,2,3,4),d) # Model 26 DICtot[26] <- model4.1$DIC SQEtot[,26] <- SQE model4.2 = model(4,c(1,2,3,5),d) # Model 27 DICtot[27] <- model4.2$DIC SQEtot[,27] <- SQE

143

144 model4.3 = model(4,c(1,2,4,5),d) # Model 28 DICtot[28] <- model4.3$DIC SQEtot[,28] <- SQE model4.4 = model(4,c(1,3,4,5),d) # Model 29 DICtot[29] <- model4.4$DIC SQEtot[,29] <- SQE model4.5 = model(4,c(2,3,4,5),d) # Model 30 DICtot[30] <- model4.5$DIC SQEtot[,30] <- SQE model5.1 = model(5,c(1,2,3,4,5),d) # Model 31 DICtot[31] <- model5.1$DIC SQEtot[,31] <- SQE

A. Codi en R

par(mfrow=c(2,1),mar=c(4,4,2,1),cex.main=1.4) boxplot(SQEtot[,1],SQEtot[,2],SQEtot[,3],SQEtot[,4],SQEtot[,5],SQEtot[,6],SQEtot[,7], SQEtot[,8],SQEtot[,9],SQEtot[,10],SQEtot[,11],SQEtot[,12],SQEtot[,13],SQEtot[,14], SQEtot[,15],SQEtot[,16],SQEtot[,17],SQEtot[,18],SQEtot[,19],SQEtot[,20],SQEtot[,21], SQEtot[,22],SQEtot[,23],SQEtot[,24],SQEtot[,25],SQEtot[,26],SQEtot[,27],SQEtot[,28], SQEtot[,29],SQEtot[,30],SQEtot[,31],main="SQE",log="y",names=c(1,2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31));abline(h=0,col=2); plot(1:31, DICtot, main="DIC", xlab="", ylab="");abline(h=c(1000,1050,1100,1150), lty=3,col="grey50"); ## Gr` afic betes posteriori ####################################### ## p=2 model2.2 = model(2,c(1,3),d) # Model 7 def.par <- par(no.readonly = TRUE) nf <- layout(matrix(c(4,5,0,1,2,6,0,3,7),3,3,byrow=TRUE)) beta0post <- hist(beta0, plot=FALSE) beta1post <- hist(beta1, plot=FALSE) beta2post <- hist(beta2, plot=FALSE) par(mar=c(4,4,0,0),cex.lab=1.4) plot (beta1,beta0,ylab=expression(paste(beta[0])), xlab=expression(paste(beta[1])), pch=20) par(mar=c(4,4,0,0)) plot (beta2,beta0,ylab=" ", xlab=" ", pch=20) par(mar=c(4.5,4,0,0),cex.lab=1.4) plot (beta2,beta1,ylab=expression(paste(beta[1])), xlab=expression(paste(beta[3])), pch=20)

A.4. La volta ciclista

145

par(mar=c(0.5,4,0.5,0)) barplot(beta1post$counts,axes=FALSE, main="", space=0) par(mar=c(0.5,4,0.5,0)) barplot(beta2post$counts,axes=FALSE, main="", space=0) par(mar=c(4,0.5,0,0.5)) barplot(beta0post$counts,axes=FALSE, main ="", space=0, horiz=TRUE) par(mar=c(4,0.5,0,0.5)) barplot(beta1post$counts,axes=FALSE, main ="", space=0, horiz=TRUE) par(def.par)

####################### # # # VALIDACIO DEL MODEL # # # ####################### ## Executar el model escollit #################################### ## Distribuci o dels errors EspE<- apply(E, 2, mean) par(mfrow=c(3,1),mar=c(4.5,4.5,2,1),cex.lab=1.4) h <- dim(E)[1] yl <- max(y1 <- -min(E), y2 <- max(E)) plot(1:N, EspE, type="p", ylim=c(-yl, yl),pch=19, xlab="Observaci o", ylab=expression(paste(epsilon,"|y"))) for ( i in 1:N) { A <- sort(E[,i]) a1 <- A[(0.05*h)] a2 <- A[(0.95*h)] lines(c(i,i), c(a1,a2)) } abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) ## Errors versus valors previstos ################################ EspY.post <- apply(mu, 2, mean) plot(EspY.post, EspE, ylim=c(-yl,yl),pch=19, xlab="Valor esperat", ####################################

146 ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-1.96*mean(sigma),lty=3) abline(h=1.96*mean(sigma),lty=3) ## Probabilitat doutlier prob.outlier <- rep(0, N) for(i in 1:N) { prob.outlier[i] <- sum(abs(E[,i])>(1.96*sigma))/(Iter*Chain) } cbind(1:N, prob.outlier) ######################################

A. Codi en R

plot(1:N, prob.outlier,xlab="Observaci o",ylab="Probabilitat doutlier",ylim=c(0,1))

## Errors versus variables explicatives ########################## par(mfrow=c(3,2),cex.lab=1.5,cex.lab=1.4, mar=c(5,5,2,2)) plot(dades$qms, EspE, ylim=c(-yl,yl),pch=19, xlab="qms", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$mdifer, EspE, ylim=c(-yl,yl),pch=19, xlab="mdifer", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$mpujats, EspE, ylim=c(-yl,yl),pch=19, xlab="mpujats", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$dmont, EspE, ylim=c(-yl,yl),pch=19, xlab="dmont", ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3) plot(dades$dcont, EspE, ylim=c(-yl,yl),pch=19, xlab="dcont",

A.4. La volta ciclista ylab=expression(paste("E[",epsilon,"|y]"))) abline(h=0, lty=2) abline(h=-2*mean(sigma),lty=3) abline(h=2*mean(sigma),lty=3)

147

## avaluaci o del nivell predeictiu de caracter stiques "adhoc" ### par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4, mar=c(5,4,2,1)) plot(dades$qms, dades$temps, ylab="Temps de letapa", xlab="Quil` ometres de letapa", main="dades observades", pch=19) repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) } plot(dades$qms, y.rep, ylab="Temps de letapa", xlab="Quil` ometres de letapa", main=paste("r` eplica ",j), pch=19) } for (j in 1:11) {repliques(j)} # par(mfrow=c(3,4),cex.main=1.5,cex.lab=1.4, mar=c(5,4,2,1)) plot(dades$mpujat, dades$temps, ylab="Temps de letapa", xlab="Desnivell acumulat", main="dades observades", ylim=c(150,450), pch=19) repliques <- function(j){ y.rep <- rep(0, N) for (i in 1:N) { rep <- trunc(runif(1,1,Iter*Chain)) y.rep[i] <- rnorm(1, mu[rep,i], sigma[rep]) } plot(dades$mpujats, y.rep, ylab="Temps de letapa", xlab="Desnivell acumulat", main=paste("r` eplica ",j), ylim=c(150,450), pch=19) } for (j in 1:11) {repliques(j)}

148

A. Codi en R

## Validaci o Creuada predictiva a posteriori ##################### # Laltre gr` afic par(mfrow=c(1,1)) plot(1:N, dades$temps, ylim=c(100, 500), type="p",pch=19, xlab="Observaci o", ylab="y") for (i in 1:N) { dads <- list(N=N-1, y = dades$temps[-i], x1 = dades$qms[-i], x2 = dades$mpujats[-i], x1.nou = dades$qms[i],x2.nou = dades$mpujats[i]) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2= 0)) parametres <- c("beta0", "beta1","beta2", "sigma", "SQE", "E", "mu", "y.pred") d.sim <- bugs(dads, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL2prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) pre.post <- rep(0, N) aux <- density(y.pred) pre.post[i] <- (aux$y[findInterval(dades$temps[i],aux$x)]+ aux$y[findInterval(dades$temps[i],aux$x)+1])/2 h <- length(y.pred) A <- sort(y.pred) a1 <- A[(0.05*h)] a2 <- A[(0.95*h)] lines(c(i,i), c(a1,a2)) }

############# # # # PREDICCI O # # # ############# par(mfrow=c(1,1),mar=c(5,6,3,5)) qms.nou=200 mpujats.nou=500 dads <- list(N=N, y = dades$temps, x1 = dades$qms,x2 = dades$mpujats, x1.nou = qms.nou,x2.nou = mpujats.nou) inicials <- list(list(tau=0.1, beta0= 0, beta1=0, beta2= 0)) parametres <- c("beta0", "beta1","beta2", "sigma", "SQE", "E", "mu", "y.pred")

A.4. La volta ciclista

149

d.sim <- bugs(dads, inicials, parameters.to.save=parametres, model=paste("C:/Users/annabrichs/Bayesia/Projecte/Models/MODEL2prev.txt",sep=""), n.burnin=Burn, n.thin=Thin, n.chains=Chain, bugs.directory="C:/WinBUGS14/", n.iter = n.sim,debug=F,DIC=TRUE, working.directory = "C:/Users/annabrichs/Bayesia/W") attach.bugs(d.sim) aux <- density(y.pred) plot(aux, main="Distribuci o predictiva a posteriori per predir el temps duna etapa (caracter stiques: qms=200, mpujats=500)", ylab=expression(paste(P[pi],"(",tilde(y),"|y)")), xlab="y") # Estimaci o puntual mean(y.pred) # Estimaci o per interval p=0.95 B <- sort(y.pred) B[50] B[1950]

Ap` endix B Formulaci o de les distribucions a priori i del model estad stic
Quan es crida a WinBUGS des de R, aquest necessita un arxiu *.txt amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per poder simular les distribucions a posteriori. En aquest annex es mostren aquests arxius *.txt que shan usat en aquest treball.

B.1

MODEL1.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb una variable. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] E[i] <- y[i] - mu[i] E2[i] <- pow(E[i],2) } beta0 beta1 tau ~ sigma ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) }

151

152

B. Formulaci o de les distribucions a priori i del model estad stic

B.2

MODEL1prev.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb una variable i fer prediccions. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] E[i] <- y[i]- mu[i] E2[i] <- pow(E[i], 2) } beta0 beta1 tau ~ sigma ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) mu.nou <- beta0 + beta1*x1.nou y.pred ~ dnorm(mu.nou, tau) }

B.3. MODEL2.txt

153

B.3

MODEL2.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb dues variables. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i] E[i] <- y[i] - mu[i] E2[i] <- pow(E[i],2) } beta0 beta1 beta2 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) }

154

B. Formulaci o de les distribucions a priori i del model estad stic

B.4

MODEL2prev.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb dues variables i fer prediccions. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i] E[i] <- y[i]- mu[i] E2[i] <- pow(E[i], 2) } beta0 beta1 beta2 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) mu.nou <- beta0 + beta1*x1.nou + beta2*x2.nou y.pred ~ dnorm(mu.nou, tau) }

B.5. MODEL3.txt

155

B.5

MODEL3.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb tres variables. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i]+ beta3*x3[i] E[i] <- y[i] - mu[i] E2[i] <- pow(E[i],2) } beta0 beta1 beta2 beta3 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) }

156

B. Formulaci o de les distribucions a priori i del model estad stic

B.6

MODEL3prev.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb tres variables i fer prediccions. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i]+ beta3*x3[i] E[i] <- y[i]- mu[i] E2[i] <- pow(E[i], 2) } beta0 beta1 beta2 beta3 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) mu.nou <- beta0 + beta1*x1.nou + beta2*x2.nou + beta3*x3.nou y.pred ~ dnorm(mu.nou, tau) }

B.7. MODEL4.txt

157

B.7

MODEL4.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb quatre variables. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i]+ beta3*x3[i] + beta4*x4[i] E[i] <- y[i] - mu[i] E2[i] <- pow(E[i],2) } beta0 beta1 beta2 beta3 beta4 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) }

158

B. Formulaci o de les distribucions a priori i del model estad stic

B.8

MODEL4prev.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb quatre variables i fer prediccions. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i]+ beta3*x3[i]+ beta4*x4[i] E[i] <- y[i]- mu[i] E2[i] <- pow(E[i], 2) } beta0 beta1 beta2 beta3 beta4 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) mu.nou <- beta0 + beta1*x1.nou + beta2*x2.nou + beta3*x3.nou + beta4*x4.nou y.pred ~ dnorm(mu.nou, tau) }

B.9. MODEL5.txt

159

B.9

MODEL5.txt

Arxiu amb la denici o de les distribucions a priori dels par` ametres i del model estad stic per ajustar el model Bayesi` a amb cinc variables. model { for ( i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- beta0 + beta1*x1[i] + beta2*x2[i]+ beta3*x3[i] + beta4*x4[i]+ beta5*x5[i] E[i] <- y[i] - mu[i] E2[i] <- pow(E[i],2) } beta0 beta1 beta2 beta3 beta4 beta5 tau ~ sigma ~ dflat() ~ dflat() ~ dflat() ~ dflat() ~ dflat() ~ dflat() dgamma(0.001, 0.001) <- sqrt(1/tau)

SQE <- sum(E2[]) }

You might also like