Download as pdf or txt
Download as pdf or txt
You are on page 1of 27

Table des matires

1 QUESTION 1
1.1 PARTIE I . . . . . . . . .
1.1.1 INTRODUCTION .
1.1.2 REPONSE A . . .
1.1.3 REPONSE B . . .
1.1.4 REPONSE C . . .
1.1.5 REPONSE D . . .
1.2 PARTIE II . . . . . . . . .
1.2.2 REPONSE A . . .
1.2.3 REPONSE B . . .
1.2.4 REPONSE C . . .
1.3 CONCLUSION . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

1
2
2
3
4
5
7
8
9
10
11
11

2 QUESTION 2
2.1 REPONSE A
2.2 REPONSE B
2.3 REPONSE C
2.4 REPONSE D

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

12
13
16
18
19

3 QUESTION 3
3.1 REPONSE A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 REPONSE B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19
20
20

4 QUESTION 4
4.1 INTRODUCTION .
4.2 REPONSE A . . .
4.3 REPONSE B . . .
4.4 REPONSE C . . .
4.5 REPONSE D . . .
4.6 REPONSE E . . .
4.7 CONCLUSION . .

22
22
22
24
24
24
25
26

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

1 QUESTION 1
1.1 PARTIE I
1.1.1 INTRODUCTION
Nous avons un jeu de donnes reprsentant lvaluation de 103 policiers en fonction de 13 critres
et dune valuation globale. On peut alors se demander quels sont les critres les plus influents
sur lvaluation globale dun policier. Pour cela nous allons faire une rgression linaire.
Dans un premier temps nous allons ajuster un modle complet qui prdit lvaluation globale
en fonction des 13 critres. Dans un second temps nous tudierons la multi-colinarit entre les
variables explicatives et nous jugerons si la colinarit entre certaines peut nuire notre modle de
prdiction. Ensuite nous ferons une slection de variables selon 3 mthodes tudis en cours, cette
slection a pour but de nous montrer quelles variables sont les plus importantes dans lvaluation
globale du policier. On continuera juger de la pertinence de notre modle en faisant une tude
dinfluence, si lon trouve des donnes trop aberrantes nous les enlverons. Avec ces informations
nous donnerons un modle final qui semble plus cohrent pour faire des prdictions.
On se propose ensuite une autre approche en regrouper les 13 critres en 4 crittres fondamentaux.
On effectue une rgression et proposer une prdiction de lvaluation globale dun policier.
A la fin nous allons nous prononcer sur lapproche la plus pertinente.

1.1.2 REPONSE A
Nous avons ajust un modle pour prdire Overall (variable qui donne lvaluation globale dun policier)
en fonction des 13 critres ci-aprs :
- CommunicationSkills (Aptitudes communiquer)
- ProblemSolving (Aptitudes rsoudre des problmes)
- LearningAbility (Capacit dapprentissage)
- JudgmentUnderPressure (Jugement sous pression)
- ObservationalSkills (Aptitudes observer)
- WillingnesstoConfrontProblems (Volont de faire face aux problmes)
- InterestinPeople (Intrts pour les personnes)
- InterpersonalSensitivity (Sensibilit interpersonnelle)
- DesireforSelfImprovement (Dsir de samliorer)
- Appearance (Apparence)
- Dependability (Fiabilit)
- PhysicalAbility (Capacit physique)
- Integrity (Intgrit)
Avec ce modle on sintresse aux variables qui semblent significatives. La variable Dependability est la
seule variable qui est significative au seuil 5%.(Voir tableau 1. QUESTION 1 PARTIE 1 dans lannexe)
Mme si la variable Dependability est la seule qui est significative, on ne peut pas supprimer les autres au
risque de fausser le modle. En effet, le R carr ajust tant gale 0.7477 nous avons environ 75% de la
variabilit de Overall expliqu par le modle. Si on ne garde quune variable, le pourcentage de variabilit
expliqu diminuera et nos prvisions seront moins prcises. De plus la multi-colinarit entre les variables
explicatives, ou des donnes influentes, peuvent fausser lestimation des paramtres. Donc il est ncessaire
de faire un diagnostic approfondi sur ces phnomnes. On ne peut pas enlever des variables en se basant
seulement sur leurs seuils de significativit.

1.1.3 REPONSE B
On cherche tudier la multi-colinarit entre les variables explicatives. Cest--dire que lon cherche
savoir si des variables sont relies entre elles. Si cest le cas, celles-ci peuvent amener fausser notre modle
de prdiction. Il nous faut alors les corriger ou les enlever du modle. Nous utilisons un modle corrig pour
le bta zro (intercept).
Pour trouver la colinarit on utilise la rgle suivante :
Dans un premier temps, on demande SAS de calculer les VIF (Inflation de Variance) pour chaque variable.
Sil y a des VIF suprieur 10 cela pose problme et on est sr quil y a une forte multi-colinarit.(voir
tableau 2. QUESTION 1 PARTIE 1 dans lannexe)
Dans un second temps, on cherche dans la table reprsentant les diagnostiques de colinarit (voir tableau
3. QUESTION 1 PARTIE 1 dans lannexe)) les index de condition suprieurs 30 (valeur donne dans les
notes de cours). Pour lindex le plus grand on regarde sil y a des proportions de variations suprieures 60%,
si cest le cas on supprime la variable en question et on relance une procdure pour tudier la multi-colinarit
sans cette variable.
On rpte lopration jusqu ce quaucun des index ne dpasse 30.
Ici aucun des VIF nest suprieur 10 et aucun des index suprieurs 30 donc la multi-colinarit nest
pas importante et on garde toutes les variables. On peut se demander si les critres de slection vu dans le
cours ne sont pas trop svres car partir de la table des coefficients de corrlation de Pearson (voir tableau
4. QUESTION 1 PARTIE 1 dans lannexe), on remarque que certaines variables sont trs corrls (> 0.80).
Mais selon ce diagnostic cette corrlation nest pas assez forte pour crer un problme dans la prdiction et
donc ne justifie pas que lon supprime des variables.

1.1.4 REPONSE C
On dcide de faire un choix de variables explicatives selon trois critres tudis en classe :
- Le Cp de Mallows
- Le R2 ajust
- Le Stepwise
SAS nous a permis de calculer le Cp de Mallows pour diffrents modles. Nous avons vu en cours que la rgle
que lon utilise est la suivante :
Pour choisir le meilleur modle on calcule tous les (Cp - p) et on choisit celui pour lequel (Cp - p) est le
plus faible.
Ce critre ne nous permet pas bien de dgager UN modle final, car en thorie tous ceux pour lesquels (Cp
- p) est infrieur ou gale zro sont acceptables.
Ici on demande SAS de nous donner celui quil considre comme tant le meilleur modle.
On trouve quil faut garder les 7 variables suivantes : CommunicationSkills, JudgmentUnderPressure,
WillingnesstoConfrontProblems, InterpersonalSensitivity, DesireforSelfImprovement, Appearance et Dependability. (voir tableau 5.QUESTION 1 PARTIE 1 dans lannexe)
Le logiciel SAS nous permet directement de trouver le meilleur modle avec le R2 ajust, cest celui qui a
le plus grand R2 ajust. Ce critre est meilleur que le prcdent.
On recommande de garder les 9 variables suivantes : CommunicationSkills, LearningAbility, JudgmentUnderPressure, WillingnesstoConfrontProblems, InterpersonalSensitivity, DesireforSelfImprovement, Appearance, Dependability et Integrity. (voir tableau 6. QUESTION 1 PARTIE 1 dans lannexe))
La dernire mthode est celle du stepwise : chaque tape le logiciel va rajouter une variable explicative
et ce jusqu ce que le rajout dune variable nentrane pas une meilleure explication du modle.
Aprs 7 tapes, voici le modle que SAS nous propose : CommunicationSkills, JudgmentUnderPressure,
WillingnesstoConfrontProblems, InterpersonalSensitivity, DesireforSelfImprovement, Appearance et Dependability. (voir tableau 7. QUESTION 1 PARTIE 1 dans lannexe)
Lavantage de cette mthode est que lon peut directement savoir lordre dimportance des diffrentes
variables explicatives dans le modle.
Le modle que lon garde est celui propos par Stepwise, avec les 7 variables nonces ci-dessus.

On ralise maintenant une tude dinfluence sur ce modle, le but est de chercher sil y a des observations
qui ne sont pas utiles dans la prdiction (valeurs fausses ou aberrantes).
Grce la table donne par SAS (voir tableau 8. QUESTION 1 PARTIE 1 dans lannexe) on peut juger
des donnes influentes.
Lobservation 83 est clairement la donne la plus influente, elle possde le rsidu le plus lev en valeur
absolu.
Avec la mthode des COVRATIO, on regarde les donnes qui ne sont pas dans lintervalle de confiance
1 3p/n cest--dire ici {0.767; 1.233}. Par exemple lobservation i = 1 ou i = 11 sont potentiellement
influentes. Mais ces observations ne semblent pas rellement causer de problmes car les DFFITS et les
DFBETAS sont de valeurs modrs. Par
valeurs modrs
on entend quelles sont dans les intervalles de

confiance {2; 2} pour DFFITS et {2/ 103; 2/ 103}.


On remarque galement que les observations 8, 35, 59 et 86 possdent des rsidus levs, de plus leurs COVRATIO sont proches ou au-del des bornes de confiance, leurs DFFITS sont levs par rapport aux autres
et la plupart de leurs DFBETAS sortent compltement de lintervalle {0.197; 0.197}. Ces observations
peuvent tre considres comme tant influentes et nuisible notre modle. (voir tableau 8. QUESTION 1
PARTIE 1 dans lannexe)
Avec le nouveau modle (restreint 7 variables) on trouve que les 3 variables suivantes sont les plus
importantes : JudgmentUnderPressure, WillingnesstoConfrontProblems et Dependability. (voir tableau 9.
QUESTION 1 PARTIE 1 dans lannexe)

1.1.5 REPONSE D
On cherche donner un intervalle de prdiction lvaluation globale pour un policier qui aurait eu une
note de 7 tous les critres. On sert du modle final de la partie c) cest--dire celui qui contient 7 variables et
on a retir 5 observations.
Le logiciel SAS nous permet de calculer cet intervalle avec le modle que nous avions choisi prcdemment. Cet intervalle est le suivant : {5.9070 ; 8.4299}. (voir tableau 10. QUESTION 1 PARTIE 1 dans lannexe)

1.2 PARTIE II
1.2.1 INTRODUCTION
On remarque en fait quon peut regrouper 11 des variables explicatives en 2 groupes distincts. Le 1er
regroupe les variables ayant trait lattitude dun policier alors que le 2e`me englobe celles qui rfrent ses
relations interpersonnelles.
La variable Attitude est une moyenne de 6 autres variables :
- CommunicationSkills (Aptitudes communiquer)
- ProblemSolving (Aptitudes rsoudre des problmes)
- LearningAbility (Capacit dapprentissage)
- ObservationalSkills (Aptitudes observer)
- WillingnesstoConfrontProblems (Volont de faire face aux problmes)
- DesireforSelfImprovement (Dsir de samliorer).
Tandis que la variable Relation est une moyenne de 5 autres :
- JudgmentUnderPressure (Jugement sous pression)
- InterestinPeople (Intrts pour les personnes)
- InterpersonalSensitivity (Sensibilit interpersonnelle)
- Dependability (Fiabilit)
- Integrity (Intgrit).

1.2.2 REPONSE A
h

Montrons que E b1 < b1


on a
h

 n
P

 i=1
n
P

yi xi

(xi )2

i=1

ny n xn




n (xn )

Comme xi = xi + i , donc xi = xn + n
et n = 0 = xi = xn .
Alors
 n

P
E
yi (xi + i ) ny n xn
h i

E b1 i=1
n
P
E
(xi + i )2 n (xn )2
i=1

E b1
E

i=1

 n
P
i=1

i2

+2

n
P

y i xi

+E 2
 n
P

yi i ny n xn

i=1

i xi +

ny n xn

n
P

n
P
i=1

i=1

 i=1 

E
 n
P

i2

n
P

y i xi +

i=1

 n
P

E
E

 n
P

 n
P

+E

i xi

i=1

x2i

n
P
i=1

(xi xn )2 +

i=1

 n
P

n
P
i=1

y i i

 ni=1
P 2
+E
x

yi (xi xn ) +


n (xn )

i=1

i=1

n (xn )

E [yi i ]

E [i2 ] + 2

n
P
i=1

xi E (i )

Or E (i ) = 0 et var(i ) = 2 = E (i2 ) = 2
de plus et i sont independantes, alors y = 0 + 1 xi + i est aussi indpendant de i .
Donc E [yi i ] = E [yi ] E [i ] = 0.
Donc
 n

P
E
y
(x

x
)
i
i
n
h i
E [Sxy ]
i=1
E b1 P
=
n
Sxx + n2
(xi xn )2 + n2
i=1

Comme 2 > 0 alors Sxx + n2 > Sxx , n 1.


Donc
1
E [Sxy ]
1
E [Sxy ]
<
=
<
2
2
Sxx + n
Sxx
Sxx + n
Sxx

Donc E b1 <

E[Sxy ]
Sxx

E [Sxy ]
=
Sxx

 n
P

yi (xi xn )

n
P

i=1

i=1

Sxx

E [yi ] (xi xn )
Sxx

Or yi = 0 + 1 xi + i = E [yi ] = 0 + 1 xi
E [Sxy ]
=
Sxx
Or

n
P

n
P

(0 + 1 xi ) (xi xn )

i=1

0
=

Sxx

n
P

(xi xn ) + 1

i=1

n
P

xi (xi xn )

i=1

Sxx

(xi xn ) = 0, alors

i=1

E [Sxy ]
=
Sxx
h

n
P

(xi xn )2

i=1

Sxx

1 Sxx
= 1
Sxx

Do E b1 < 1

1.2.3 REPONSE B
On commence par crer les deux nouvelles variables Relation et Attitude. Puis on refait les tapes du c) de
la partie 1.
On a rapidement regarder la multi-colinarit mais aucun index de condition ntait suprieur 30.
Avec le critre Cp , SAS nous donne un modle o la variable PhysicalAbility a t supprim. (voir tableau
1. QUESTION 1 PARTIE 2 dans lannexe)
Avec le R2 ajust et le stepwise, on retrouve le mme modle que prcdemment. (voir tableaux 2 et 3.
QUESTION 1 PARTIE 2 dans lannexe)
On tudie les donnes influentes. On va se servir des rgles nonces dans la partie 1. On peut galement
regarder si les observations 8, 35 59 83 et 86 sont toujours influentes.
Avec ce nouveau modle voici nos intervalles :
- COVRATIO : {0.8835; 1.1165}.
- DFFITS : {2; 2}
- DFBETAS : {0.1971; 0.1971}

10

On trouve que les mmes donnes 8, 35, 59, 83 et 86 sont clairement influentes. On dcide alors de les
supprimer. (voir tableau 4. QUESTION 1 PARTIE 2 dans lannexe)
Le nouveau modle ne contient pas les observations cites au-dessus. Avec ce modle on peut dire que la
variable PhysicalAbility est la moins importante. (voir tableau 5. QUESTION 1 PARTIE 2 dans lannexe)
Notre modle final comporte 3 variables (Attitude, Relation et Appearance) et ne contient pas les observations 8, 35, 59, 83 et 86.
Lapproche vue dans la deuxime partie nous donne le meilleur modle. Le R carr ajust est plus lev et
les variables sont plus significatives que dans le 1er modle. (voir tableaux 6 et 7. QUESTION 1 PARTIE 2
dans lannexe)

1.2.4 REPONSE C
Le logiciel SAS nous donne lintervalle de confiance suivant : {5.9089; 8.4155}. Cet intervalle est plus
petit (0.02 prs) que celui de la partie 1. Donc cest un meilleur intervalle de confiance. critres).(Voir tableaux
8 .QUESTION 1 PARTIE 2 dans lannexe)

11

1.3 CONCLUSION
Nous avons ajust un modle de rgression linaire aux 13 critres pour prdire une valuation globale
dun policier.
Dans la premire partie nous avons considr les 13 critres tel quels et nous avons effectu un choix
de variables et nous avons dcid de ne garder que 7 variables. Les aptitudes communiquer, le jugement
sous pression, la volont de faire face aux problmes, la sensibilit interpersonnelle, le dsir de samliorer,
lapparence et la fiabilit ressortent comme tant les critres les plus importants dans lvaluation globale
dun policier. Ensuite nous avons effectu une tude dinfluence puis supprimer les observations aberrantes,
nous avons pu alors proposer un modle final. Celui-ci nous a permis deffectuer la prdiction de lvaluation
globale dun policier qui aurait eu une note de 7 tous les critres.
Dans la deuxime partie, on a regroup les variables qui reprsentaient les mmes caractristiques du
policier, on a alors eu 11 variables spares en deux nouvelles variables. A partir de l on a effectu la
rgression linaire. Le modle final que lon a propos contenait les variables attitude, relation et apparence.
De mme ltude dinfluence nous a permis de dmasquer les observations qui faussaient notre modle. Au
final on a alors pu prdire la note globale dun policier qui avait eu 7 tous les critres.
On a remarqu que la deuxime approche donnait une prdiction plus prcise et donc tait prfrable.

12

2 QUESTION 2
2.1 REPONSE A
PARTIE THORIQUE
Donnons la matrice A telle que T = A+
On a


T = 1 , ....., p , xT1 + p+1
Et
+T = (1 , ....., p+1 )
Donc

A=

0
..
.

0
..
.

1
..
.

0
.
..
.
..
..
..
.
.
..
. 0
x1p 1

0
0
0
x11 x12 x13

En effet

0
..
.

0
..
.

1
..
.

0
0
0
x11 x12 x13

0
.
..
.
..
..
..
.
.
..
. 0
x1p 1

1
2
3
..
.
p
p+1

13

1
2
3
..
.
p
x11 1 x12 2 x13 3

1 , ....., p , xT1 + p+1

xnp p p+1
iT

Calculons linverse de A

A=

Donc

A1 =

0
..
.

0
..
.

1
..
.

0
.
..
.
..
..
..
.
.
..
. 0
x1p 1

0
0
0
x11 x12 x13
1

0
..
.

0
..
.

1
..
.

..
.

0
..
.
..
.
..
.

..
. 0
0
0
0
x11 x12 x13 x1p 1

Dmontrons que lestimateur du maximum des mondres carrs de est b =


On a

X =

X+ =

x11 x12
x21 x22
x31 x32
..
..
.
.
xn1 xn2

x1p
x2p
x3p
..
.

x11 x12
x21 x22
x31 x32
..
..
.
.
xn1 xn2

x1p 1

x2p 0

x3p 0

..
..
.
.

xnp 0

xnp

Soit Y = X+ + + , donc Y+ = X+ A1 A+ + .
Posons XN = X+ A1 , alors Y+ = XN + + o = A+
Donc lestimateur de par la mthode des moindres carrs est donn par :


b = XNT XN

14

1

XNT Y

b1
Y1

XN = X+ A1 =

"

XN =

x1p
x2p
x3p
..
.

x11 x12
x21 x22
x31 x32
..
..
.
.
xn1 xn2

0 1
X1 0

1
0
0
..
.

xnp O

0 0 0
x21 x22 x2p
..
..
..
.
.
.
..
..
..
.
.
.
xn1 xn2 xnp

XN =

1
0
..
.
..
.
0

1

"

T
X1
X1 0
0
1

1

"

XNT Y+

0
..
.
..
.
0
1

T
0 X1
1 0

#"

T
Y1
X1
Y1

0 1
X1 0

Y1
Y1

0
1
#

XNT Y


b =
Alors

T
X1
X1

1

"

0
1

b =
Do b =

#"

T
X1
X1

"

XNT Y+

0
x11

T
0 X1
1 0

Aussi

b1
Y1

1
..
.
..
.
x12

"

XNT XN

"

0
..
.

0
.. ..
.
.
.. .. ..
.
.
.
.. ..
.
.
xnp

Donc

1

XNT XN =

XNT XN

Comme b = XNT XN
Donc

T
o b1 = X1
X1

T
X1
X1

1

Y1
1

T
X1
Y1
Y1

T
X1
Y1

T
X1
Y1 Dduisons en que bp+1 est le rsidu PRESS pour

i=1
15

On a

b =

b1
..
.

b
T b
b
x1 + p+1 = Y1

"

b
Y1

Donc
xT1 b + bp+1 = Y1 = bp+1 = Y1 xT1 b
bp+1 = Y1 Yb1 o Yb1 = xT1 b
Or Y1 Yb1 = e1,1 est le rsidu PRESS pour i = 1 do bp+1 = e1,1 .
montrons que lestimateur de la variance S+2 est S2 On a


S+2 =
Or

SSres b+ = Y Yb

T 

Comme
b1
Y1

b =
Donc

"

np1


Y Yb = (Y XN b )T (Y XN b )

"

et XN =

0 1
X1 0

XN b =

SSres b+

#"

0 1
X1 0

b1
Y1

"

Y1
X1 b1

Donc
!

Y1
X1 b1

Y XN b =

Y1
Y1

Y XN b =

0
Y1 X1 b1

Alors
SSres

SSres b+

=
=

Donc

0


Y1 X1

Y1 X1 b1

Do


S+2 =

Y Yb1

T 

Y1 X1 b1

Y1 X1 b1

T 

Y Yb1

Y Yb1

np1
16

T 

SSres b+ = Y Yb1

T  


2
= S1

2.2 REPONSE B


Dmontrons que X+T X+


On a


(p+1)(p+1)

1
1hii

X+ = [X, Xp+1 ] o Xp+1 =

1
0
..
.

0
"

X+T X+

XT
T
Xp+1

X Xp+1

"

XT X
X T Xp+1
T
T
Xp+1
X Xp+1
Xp+1

Or

X Xp+1 =

x11 x21
x12 x22
..
..
.
.
x1p x2p

xn1

xn2

.
..

. ..

xnp

1
0
..
.

x11
x12
..
.
x1p

X T Xp+1 = x1

T
Xp+1
X=

1 0 0

x11
x11
.
..
. ..
x11

x11 x12
x21 x22
..
..
.
.
xn1 xn2

T
Xp+1
X = [x11 , x12 , , x1p ]
T
Xp+1
X = xT1

Xp+1 Xp+1 =

1 0

1
0
..
.
0

"

X T X x1
x1
1
En utilisant le rsultat de linverse dune matrice, on a :
Donc X+T X+ =

17

=1

xT1

X X

X+T X+

1

"

1

=
"

x1

XT X 0
0
0

XT X 0
0
0

X X
I


 1
x1 
1 xT1 X T X x1


+ 1 xT1 X T X x1


xT1 x1

1

x1 X T X

X X
1

1

1

x1

Alors, on a finalement


X+T X+

1



1 
1 
T
T
T
x1 xT1 x1
+ 1 x1 X X
X X



1

1 1

xT1

xT1

x1

X X

xT1

Comme H = X X T X

X+T X+

1

(p+1)(p+1)

X T do X+T X+


X+T X+

= 1 xT1 X T X

(p+1)(p+1)


(p+1)(p+1)

1

1

x1

= (1 h11 )1
1
(1 h11 )

2.3 REPONSE C
Montrons que t = ei
On a
e1 =

e
1
S1 1 h11

Or
bp+1
t= r
1
S+2 (X+T X+ )(p+1)(p+1)
Comme bp+1 = e1,1 et daprs le thorme 1.8
e1,1 =

e1
e1
= bp+1 =
1 h11
1 h11
18

X X

I 1

X X

Donc


xT1

1


x1
T

1 

X X

1

X X


x1

1

x1

2
de plus, on a montr que S+2 = S1
Donc
e1

t= q

1hii
2
S1

1
1h11

=q

e1
2
S1
(1 h11 )

e
1
S1 1 h11

Do
t = e1

2.4 REPONSE D
On se demande si le truc dajouter une nouvelle colonne a la matrice X pour tester si une donne est
aberrante fonctionne pour un modle linaire mixte. Pour cela on se cre avec le logiciel SAS, une nouvelle
colonne Newcol contenant a la premire ligne 1 et les autres zro. On obtient :(Voir tableau 1 . QUESTION 2
dans lannexe)
Ensuite on va essayer de tester dans le modle linaire mixte, si la premire observation est aberrante.(Voir
tableau 2 . QUESTION 2 dans lannexe)
Dans ce cas le test ne parvient pas calculer le rsidu PRESS et la distance de Cook de la premire
observation donc ne nous permet pas de dtecter si celle-ci est aberrante.

19

3 QUESTION 3
3.1 REPONSE A
Dterminons que le meilleur prdicteur linaire de bT est bT DZ T 1 (Y X)
n

V ar bT aT (Y X)

= V ar bT aT Z aT
= V ar

n

b T aT Z aT

Comme et sont indpendantes, alors


n

V ar bT aT (Y X)

= V ar

n

 o

bT aT Z + V ar aT

b T aT Z

T

V ar {} bT aT Z + aV ar {} aT

b T aT Z

T

D bT aT Z + aV aT

Donc, en passant aux drives par rapport a, et en annullant les drives on a :




2 bT aT Z

T

DZ T + 2aT V = 0

bT DZ T + aT Z T DZ T aT V = 0


aT ZDZ T + V = bT DZ T
Or = ZDZ T + V est inversible, donc
aT = bT DZ T = aT = bT DZ T 1
De plus en passant aux drives secondes on a


2ZDZ T + 2V = 2 ZDZ T + V = 2
qui est positive. Donc aT = bT DZ T 1 est minimale.
Do le meilleur prdicteur linaire de bT est bT DZ T 1 (Y X) .
20

3.2 REPONSE B
Concluons que A = DZ T 1 .
Puisque la variance de lerreur de prdiction de bT est minimale pour tout aT = bT DZ T 1 .
Et
aT (Y X) = bT DZ T 1 (Y X)
Do
b = DZ T 1 (Y X)
b = AT (Y X)
Do AT = DZ T 1 donne le meilleur pdicteur ou BLUP.

21

4 QUESTION 4
4.1 INTRODUCTION
Ce nouveau jeu de donnes comporte des notes deux tests (math1 et math3) que des enfants ont ralis
alors quils avaient respectivement 8 et 11 ans. Ces enfants proviennent de 48 coles londoniennes. Le jeu de
donnes nous donne galement de linformation sur le sexe (Gender) et la catgorie socio-professionnelle
(SocialC) de lenfant. Pour un garon la variable Gender donnera 1 et pour un enfant issus dune famille aise
la variable SocialC donnera 1. Alors quune fille la variable Gender donnera 0 et pour un enfant issus dune
famille dune famille modeste la variable SocialC donnera 0.

4.2 REPONSE A
On cherche dans un premier temps savoir si les catgories socio-professionnelles influent sur la note au
test math1 des enfants. Pour cela, nous allons faire une rgression linaire. Notre modle de rgression est le
suivant :
Y = 0 + 1 X1 + 2 X2
O Y reprsente la note obtenue au test math1 X1 et X1 reprsentent respectivement la variable Gender et
SocialC.
Considrons la logique suivante :
* Si X1 = X2 = 0 alors
= 0
Cela signifie que 0 est la note moyenne au test pour une fille de famille modeste (col bleu).

Si X1 = 1 et X2 = 0 alors Y = 0 + 1
Si 1 < 0, cela signifie quen moyenne la note au test pour un garon de famille modeste est moins bonne
que celle dune fille de famille modeste.
Et inversement si 1 > 0.

22

Si X1 = 0 et X2 = 1 alors Y = 0 + 2 .

Si 2 < 0, cela signifie quen moyenne la note au test pour une fille de famille aise (col blanc) est moins
bonne que celle dune fille de famille modeste. Et inversement si 1 > 0.
Si 2 < 1 alors en moyenne une fille de famille aise a une moins bonne note quun garon de famille
modeste. Et inversement si2 > 1 .

Si X1 = 1 et X2 = 1 alors Y = 0 + 1 + 2 .

On rpte la mme logique pour les diffrents cas de figure dun garon issu de famille aise.
Avec nos observations on effectue une rgression linaire sous SAS de la note math1 en fonction des deux
variables explicatives. On trouve les rsultats suivants : (Voir tableau 1 . QUESTION 4 dans lannexe)

0 = 28.48

1 = 0.003688 < 0

2 = 3.657 < 1 < 0.


Donc on peut en dduire que de manire gnral les filles venant de famille modeste ont les meilleures
notes. Mme si 1 est trs proche de zro, il semblerait que les garons de famille modeste ont eu une moins
bonne note au test. Les filles venant de famille aise ont eu en moyenne des moins notes que les filles et les
garons de famille modeste et les garons de famille aise sont ceux qui ont eu les moins bonnes notes de tous
les enfants.
On peut dgager deux conclusions. La premire est que les filles ont eu lgrement de meilleures notes au
test que les garons peu importe leurs catgories sociales. La deuxime conclusion est que les enfants des
familles modestes ont clairement mieux russi leur test que ceux des familles aises. La premire conclusion
semble cohrente car les filles sont gnralement plus studieuses que les garons et il est vrai quelles ont
globalement des meilleures notes que les garons. Pour ce qui a trait aux catgories socio-professionnelles ce
nest pas forcment vident, on peut se dire que les enfants qui issus de famille modeste ont plus envie de
russir et sont pousss par leurs parents sen sortir.
Les donnes proviennent de 48 coles diffrentes on a donc regard sil existait des diffrences majeures
entre les coles. Prenons les exemples des coles 7, 25 et 48. On peut voir que si les 0 sont grosso modo
gaux, il nest pas pareil pour les 1 et les 2 . Dans lcole 7 par exemple 1 est trs lev, ce qui signifie que
les garons ont eu majoritairement des meilleures notes que les filles alors que ce ntait pas le cas dans notre
modle gnral. (Voir tableau 2 . QUESTION 4 dans lannexe).
Il nest pas tonnant de voir des diffrences entre les coles car celles-ci ne regroupent pas le mme
nombre denfants, ni le mme pourcentage denfants de mme sexe et/ou de mme catgories sociales. Par
exemple lcole 7 na aucun garon issu de famille modeste ce qui fausse la rgression effectue (i.e. la

23

prdiction pour un garon issu de famille modeste serait de 49...).


Le nombre denfants par cole a une grande importance car on ne peut pas construire un bon modle de
rgression avec seulement une dizaine dobservations, or beaucoup dcoles ont moins de 10 enfants.
Revenons au fait que lestimation de 1 soit trs petite. Cela nous montre que le sexe de lenfant nest pas
vraiment significatif sur ses rsultats au premier test. De plus on peut le voir en regardant la p-value de la
variable Gender qui est trs proche de 1, donc la variable nest pas utile pour prdire le modle.

4.3 REPONSE B
On sintresse maintenant aux notes des deux tests, on cherche savoir sil y a une corrlation entre ces
deux tests. Pour voir cela on va faire un graphique de dispersion, ici on a choisi de prendre seulement les 20
premires coles. (Voir tableau 3 . QUESTION 4 dans lannexe).
On voit clairement quil y a une relation entre les deux tests, on peut dire que globalement les lves ont eu
une meilleure note au deuxime test. On voit graphiquement quil est possible de trouver une droite regroupant
la plupart des points ce qui veut dire que la rgression est linaire et par consquent que les tudiants ont
tous augment leur note au deuxime test du mme pourcentage. Toujours avec le graphique il semble quun
tudiant a eu 12 points de plus en moyenne au deuxime test. Mme si on peut donner plusieurs interprtations
de ce graphique il ne suffit pas pour mettre en exergue toutes les relations entre les deux variables, il nous faut
faire une rgression linaire plus pousse. De plus, on a considr ici que les 20 premires coles, cest--dire
moins de la moiti, il se peut que cela fausse notre interprtation.

4.4 REPONSE C
On va tudier linfluence de la note au premier test sur celle au deuxime test. On effectue donc une
rgression de math3 sur math1 en corrigeant pour les variables explicatives et lcole, cest--dire que on les
ajoute aux modles. Mais on choisit ici de travailler sans la variable Gender car nous avons vu quelle ntait
pas significative dans les parties prcdentes. Par contre on ajoute une interaction entre les variables math1
et SocialC au modle. La variable School est quant elle alatoire, puisque on a vu que les rsultats taient
diffrents selon les coles.
On va choisir entre plusieurs modles et voir celui qui sajuste le mieux. Daprs le cours on trouve que le
meilleur modle est celui o V = 2 I et o D est non-structur. Sous SAS cela revient donner les entres
VC et UN notre procdure mixed. Avec le modle choisit on trouve les rsultats prsents (Voir tableau 4 .
QUESTION 4 dans lannexe)

24

4.5 REPONSE D
On se demande si notre modle trouv la partie c) sajuste bien. Pour cela nous allons vrifier les
hypothses suivantes vues dans le chapitre 1 :

la linarit,

lhomoscdasticit,

la non-corrlation,

la normalit.
Linarit Le graphique des rsidus en fonction des moyennes prdites nest pas centr verticalement
zro, on peut clairement apercevoir une dcroissance des rsidus. On rejette donc lhypothse de linarit.
Homoscdasticit Le graphique des rsidus studentiss en fonction des moyennes prdites a la forme
dun entonnoir. De plus, il y a beaucoup de points or de lintervalle [2; 2]. L aussi lhypothse est invalide.
Non-corrlation Ici nous sommes dans un modle mixte donc on ne tient pas compte de cette hypothse.
Normalit Le test de Shapiro-Wilk nous donne une p-value infrieur 0.001. Le test ne rejette donc pas
lhypothse de normalit.
On peut dduire de ce que lon a vu prcdemment que le modle ne sajuste pas bien. Pour ce qui est de
prdire les notes on peut dire deux choses :

En regardant les graphiques des rsidus on peut voir que certains points se dgagent des autres.
Certains tudiants ont eu des notes aberrantes par consquence il sera plus difficile de faire une prdiction
avec eux. On appuie cette thse avec le tableau des observations extrmes qui mon-trent que certains lves
ont des notes trs diffrentes au deux tests.
On peut voir galement sur le graphique de distribution des rsidus que certaines coles ont des

rsidus trs parpills et quils ne sont pas centrs 0. Cela signifie que la variance pour cette cole est plus
grande et donc les prvisions seront plus difficiles.
(Voir tableaux 5, 6, 7, 8 et 9 . QUESTION 4 dans lannexe)

4.6 REPONSE E
Avec le modle trouv la partie c) on cherche trouver un intervalle de prdiction de la note au deuxime
test dun lve de qui a eu 30 au premier test.
Si llve vient de lcole 1, on trouve cet intervalle de prdiction : {29.2112; 32.7864}.
Sil vient de lcole 2, on a lintervalle suivant : {30.7250; 36.1427}.
On peut voir que lintervalle est moins prcis dans le deuxime cas.
(Voir tableaux 10 et 11. QUESTION 4 dans lannexe).
25

4.7 CONCLUSION
Nous avons donn un modle final pour prdire la note au test math3 partir de celle au test math1 en
ayant corrig pour la variable donnant la catgorie sociale de lenfant et pour lcole. Nous avons vu que ce
modle ne sajustait pas trs bien nos donnes mais nous avons tout de mme pu lutiliser pour prdire les
notes de math3. La non vrification des hypothses nempchent pas de faire des prdictions. Ce qui se dgage
de ce travail est la conclusion suivante : les enfants issus de milieux modestes semblent avoir de meilleures
notes de manire gnrale que les enfants de milieux aiss dans les diffrentes coles de Londres, et cela peu
importe le sexe de lenfant.

26

ANNEXE

27

You might also like