Exerc Icio Computacional - Regress Ao Linear: Universidade Federal de Minas Gerais

Universidade Federal de Minas Gerais
Programa de Pós Graduação em Engenharia Elétrica

Introdução à Inteligência Computacional
Exercı́cio Computacional -
Regressão Linear
Nome: Igor Pereira Gomes
19 de Abril de 2017
Questão 9
a)
> data(Auto)
> plot(Auto)
3 5 7 50 200 10 20 1.0 2.5
40
mpg
10
3 5 7
cylinders
400
displacement
100
200
horsepower
50
5000
weight
1500
10 20
acceleration
78
year
70
2.5
origin
1.0
200
name
0
10 40 100 400 1500 5000 70 78 0 200
b)
> auto_quant <- Auto[,1:8]
> corr_auto <- cor(auto_quant)
> corr_auto
mpg cylinders displacement horsepower weight

mpg 1.0000000 -0.7776175 -0.8051269 -0.7784268 -0.8322442
cylinders -0.7776175 1.0000000 0.9508233 0.8429834 0.8975273
displacement -0.8051269 0.9508233 1.0000000 0.8972570 0.9329944
horsepower -0.7784268 0.8429834 0.8972570 1.0000000 0.8645377
weight -0.8322442 0.8975273 0.9329944 0.8645377 1.0000000
acceleration 0.4233285 -0.5046834 -0.5438005 -0.6891955 -0.4168392
year 0.5805410 -0.3456474 -0.3698552 -0.4163615 -0.3091199
origin 0.5652088 -0.5689316 -0.6145351 -0.4551715 -0.5850054
acceleration year origin
mpg 0.4233285 0.5805410 0.5652088
cylinders -0.5046834 -0.3456474 -0.5689316
displacement -0.5438005 -0.3698552 -0.6145351
horsepower -0.6891955 -0.4163615 -0.4551715
weight -0.4168392 -0.3091199 -0.5850054
1
acceleration 1.0000000 0.2903161 0.2127458
year 0.2903161 1.0000000 0.1815277
origin 0.2127458 0.1815277 1.0000000
c)
> lmauto <- lm(formula = mpg~cylinders+displacement+horsepower+weight+acceleration+year+orig
> summary(lmauto)
Call:
lm(formula = mpg ~ cylinders + displacement + horsepower + weight +
acceleration + year + origin, data = auto_quant)
Residuals:
Min 1Q Median 3Q Max
-9.5903 -2.1565 -0.1169 1.8690 13.0604
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.218435 4.644294 -3.707 0.00024 ***
cylinders -0.493376 0.323282 -1.526 0.12780
displacement 0.019896 0.007515 2.647 0.00844 **
horsepower -0.016951 0.013787 -1.230 0.21963
weight -0.006474 0.000652 -9.929 < 2e-16 ***
acceleration 0.080576 0.098845 0.815 0.41548
year 0.750773 0.050973 14.729 < 2e-16 ***
origin 1.426141 0.278136 5.127 4.67e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.328 on 384 degrees of freedom

Multiple R-squared: 0.8215, Adjusted R-squared: 0.8182
F-statistic: 252.4 on 7 and 384 DF, p-value: < 2.2e-16
i. Há relação entre os preditores e a resposta, evidenciado pelo baixo valor

de p-value do modelo (2.2 ∗ 10−16 ), indicando uma alta correspondência
entre o modelo e os dados apresentados.
ii. A significância dos preditores para a resposta pode ser avaliada pelo seu p-
value. As variáveis ”weight”, ”year”, ”origin”e ”displacement”mostraram-se
bastante significantes para a saı́da, todas elas com p-values corresponden-
tes a menos de 1%. As variáveis ”cylinders”, ”horsepower”e ”acceleration”mostraram-
se menos significativas, com p-value mais alto, portanto, se encaixando
menos no modelo linear.
iii. O coeficiente 0.750773 para ”year”significa que, de acordo com o modelo

produzido, a cada ano e mantendo-se constantes as demais variáveis, há
2
um aumento de por volta de 0.75 na autonomia com um galão de combus-
tı́vel dos veı́culos produzidos.
d)
Residuals vs Fitted Normal Q−Q
Standardized residuals
323
4
323
326327 327
326
10
Residuals
2
5
0
0
−2
−10
10 15 20 25 30 35 −3 −2 −1 0 1 2 3
Fitted values Theoretical Quantiles
Scale−Location Residuals vs Leverage

2.0
323
326327 0.5
4
327
394
1.5
2
1.0
0
0.5
−2
14
Cook's distance
0.0
10 15 20 25 30 35 0.00 0.05 0.10 0.15
Fitted values Leverage
No gráfico de resı́duos, é identificado um padrão que sugere que os dados são

levemente não-lineares, porém o bom desempenho do modelo garante que essa
não-linearidade é bem leve. O gráfico de resı́duos pela leverage indica um ponto
que, apesar de se adequar ao modelo se afasta muito dos demais, a amostra 14.
Este gráfico nos mostra também alguns dados divergem consideravelmente do
modelo.
e)
Buscou-se analisar o quanto são significantes as interações entre as variáveis que
apresentaram baixa significância no modelo linear sem interações: cylinders,
horsepower e acceleration.
Call:
lm(formula = mpg ~ . + acceleration * horsepower + horsepower *
cylinders + cylinders * acceleration, data = Auto[, 1:8])
Residuals:
-9.6133 -1.5421 -0.0494 1.3463 12.0351
Coefficients:
(Intercept) 10.9574157 7.3479673 1.491 0.136732
3
cylinders -5.7441776 1.1502991 -4.994 9.04e-07 ***
displacement -0.0093760 0.0076153 -1.231 0.219006
horsepower -0.1999433 0.0546991 -3.655 0.000293 ***
weight -0.0033383 0.0006671 -5.004 8.60e-07 ***
acceleration -0.2275034 0.2544556 -0.894 0.371844
year 0.7344560 0.0447333 16.419 < 2e-16 ***
origin 0.8029378 0.2506548 3.203 0.001473 **
horsepower:acceleration -0.0070588 0.0025705 -2.746 0.006318 **
cylinders:horsepower 0.0375804 0.0045891 8.189 4.02e-15 ***
cylinders:acceleration 0.1261022 0.0619227 2.036 0.042397 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


387 323 387

323
4
10
Residuals
2
5
0
0
−2
−10
112
112
10 15 20 25 30 35 −3 −2 −1 0 1 2 3

0.0 0.5 1.0 1.5 2.0
387 323
387
4
112 0.5
327
394
2
0
−2
Cook's distance
−4
0.5
10 15 20 25 30 35 0.00 0.10 0.20
Observou-se interações bastante significativas, evidenciadas pelo baixo p-

value do coeficiente das interações. No gráfico de residuais, observou-se que o
problema da não-linearidade foi, em parte, resolvido, porém com uma presença
maior de outliers e de pontos de grande leverage. O modelo ajustado com as
interações mostrou-se melhor que o modelo que não as contém, com menor RSE
e maior R2 , corroborando para a hipótese de que as interações são significativas.
e)
Buscou-se avaliar diversas transformações das duas variáveis com maior p-value
na regressão, ”acceleration”e ”horsepower”.
4
40
40
Auto$mpg
Auto$mpg
30
30
20
20
10
10
2.2 2.4 2.6 2.8 3.0 3.2 3.0 3.5 4.0 4.5 5.0
log(Auto$acceleration) sqrt(Auto$acceleration)
40
40
Auto$mpg
Auto$mpg
30
30
20
20
10
10
100 300 500 10 15 20 25
(Auto$acceleration)^2 (Auto$acceleration)
40
40
Auto$mpg
Auto$mpg
30
30
20
20
10
10
4.0 4.5 5.0 5.5 8 10 12 14
log(Auto$horsepower) sqrt(Auto$horsepower)
40
40
Auto$mpg
Auto$mpg
30
30
20
20
10
10
10000 30000 50000 50 100 150 200
(Auto$horsepower)^2 (Auto$horsepower)
Nota-se, pelos gráficos, que aparentemente nenhuma transformação utilizada

para ”acceleration”tornou-a significativa, mas nota-se um comportamento bem
próximo do linear quando se usa o logaritmo da variável ”horsepower”. Espera-
se, portanto, um modelo que se ajuste melhor aos dados ao se usar o logaritmo
desta.
Call:
lm(formula = mpg ~ . + log(horsepower), data = Auto[, 1:8])
Residuals:
5
-8.5777 -1.6623 -0.1213 1.4913 12.0230
Coefficients:
(Intercept) 8.674e+01 1.106e+01 7.839 4.54e-14 ***
cylinders -5.530e-02 2.907e-01 -0.190 0.849230
displacement -4.607e-03 7.108e-03 -0.648 0.517291
horsepower 1.764e-01 2.269e-02 7.775 7.05e-14 ***
weight -3.366e-03 6.561e-04 -5.130 4.62e-07 ***
acceleration -3.277e-01 9.670e-02 -3.388 0.000776 ***
year 7.421e-01 4.534e-02 16.368 < 2e-16 ***
origin 8.976e-01 2.528e-01 3.551 0.000432 ***
log(horsepower) -2.685e+01 2.652e+00 -10.127 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


323 323
4
387 387
10
310 310
Residuals
2
5
0
0
−2
−10
10 15 20 25 30 35 −3 −2 −1 0 1 2 3

2.0
387 323
0.5
4
310 387
1.5
2
1.0
0
0.5
14
−2
Cook's
103 distance
0.0
10 15 20 25 30 35 0.00 0.05 0.10 0.15
Como esperado, o logaritmo de ”horsepower”se mostrou extremamente sig-

nificativo para o modelo que o contém, com p-value da ordem de 10−16 , e este
novo modelo se mostrou melhor que o antigo, possuindo um menor RSE e maior
R2 .
6
Questão 10
a)
Call:
lm(formula = Sales ~ Price + Urban + US, data = Carseats)
Residuals:
-6.9206 -1.6220 -0.0564 1.5786 7.0581
Coefficients:
(Intercept) 13.043469 0.651012 20.036 < 2e-16 ***
Price -0.054459 0.005242 -10.389 < 2e-16 ***
UrbanYes -0.021916 0.271650 -0.081 0.936
USYes 1.200573 0.259042 4.635 4.86e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

b)
Price De acordo com o modelo, mantendo-se constantes as demais variáveis, um
aumento de 1 no preço provoca uma diminuição de por volta de 0.054
milhares de unidades nas vendas.
UrbanYes De acordo com o modelo, mantendo-se constantes as demais variáveis, lo-
jas em ambientes urbanos vendem por volta de 0.022 milhares de unidades
a menos.
USYes De acordo com o modelo, mantendo-se constantes as demais variáveis,

lojas nos EUA vendem por volta de 1.201 milhares de unidades a mais.
c)
Sales = −0.054P rice − 0.022U rban + 1.20U S + 13.04
d)
Pode-se rejeitar a hipótese nula para as variáveis ”Price”e ”USYes”.
7
e)
Pode-se criar um modelo que utiliza apenas as variáveis ”Price”e ”US”.
Call:
lm(formula = Sales ~ Price + US, data = Carseats)
Residuals:
-6.9269 -1.6286 -0.0574 1.5766 7.0515
Coefficients:
(Intercept) 13.03079 0.63098 20.652 < 2e-16 ***
Price -0.05448 0.00523 -10.416 < 2e-16 ***
USYes 1.19964 0.25846 4.641 4.71e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

f)
O modelo menor obtido na alternativa e) se encaixa levemente melhor nos dados
que o modelo obtido na alternativa e). Pode-se inferir isto através dos valores
do erro RSE, 2.469 para f) e 2.472 para e).
g)
2.5 % 97.5 %
(Intercept) 11.79032020 14.27126531
Price -0.06475984 -0.04419543
USYes 0.69151957 1.70776632
8
h)
3
377 377
69 69
5
2
Residuals
1
0
−1
−5
51
51
−3
4 6 8 10 12 −3 −2 −1 0 1 2 3

377
6951
1 2 3
1.5
26
50
368
1.0
−1
0.5
Cook's distance
−3
0.0
4 6 8 10 12 0.00 0.01 0.02 0.03 0.04
Sim. No gráfico de Resı́duos por Leverage, é possı́vel identificar alguns pon-

tos de grande leverage, mas que se encaixam no modelo. Porém, não são obser-
vados pontos cujo resı́duo seja muito maior que os demais.
Questão 13
a)
> set.seed(1)
> X <- rnorm(100)
b)
> eps <- rnorm(100, sd = sqrt(0.25))
c)
> Y <- -1 + 0.5 * X + eps
> length(Y)
[1] 100
Para o conjunto criado, β0 = −1 e β1 = 0.5. Y é um conjunto de 100

amostras.
9
d)
0.5
0.0
−0.5
−1.0
Y
−1.5
−2.0
−2.5
−2 −1 0 1 2
Observa-se que Y segue uma relação linear com X, adicionado de ruı́do.
e)
Call:
lm(formula = Y ~ X)
Residuals:
-0.93842 -0.30688 -0.06975 0.26970 1.17309
Coefficients:
(Intercept) -1.01885 0.04849 -21.010 < 2e-16 ***
X 0.49947 0.05386 9.273 4.58e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

F-statistic: 85.99 on 1 and 98 DF, p-value: 4.583e-15
Obteve-se valores para o modelo ajustado de β0 = −1.019 e β1 = 0.499,

muito próximos dos valores reais desses parâmetros utilizados na sı́ntese do
conjunto de dados.
10
f)
0.5
Mínimos Quadrados
População
0.0
−0.5
−1.0
Y
−1.5
−2.0
−2.5
−2 −1 0 1 2
g)
Call:
lm(formula = Y ~ X + I(X^2))
Residuals:
-0.98252 -0.31270 -0.06441 0.29014 1.13500
Coefficients:
(Intercept) -0.97164 0.05883 -16.517 < 2e-16 ***
X 0.50858 0.05399 9.420 2.4e-15 ***
I(X^2) -0.05946 0.04238 -1.403 0.164
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

O modelo de regressão polinomial, para o caso, leva a um modelo que, apesar

de ter um R2 levemente maior e um RSE levemente menor, pior se encaixa aos
dados, evidenciado pelo aumento do p-value do modelo como um todo e do alto
p-value do coeficiente correspondente ao termo de maior grau.
11
h)
Foi gerado um novo conjunto de dados com desvio padrão do ruı́do de 0.1 e os
passos a-f foram executados.
Call:
lm(formula = Y ~ X)
Residuals:
-0.232416 -0.060361 0.000536 0.058305 0.229316
Coefficients:
(Intercept) -0.989115 0.009035 -109.48 <2e-16 ***
X 0.499907 0.009472 52.78 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

F-statistic: 2785 on 1 and 98 DF, p-value: < 2.2e-16
Mínimos Quadrados
População
0.0
−0.5
Y
−1.0
−1.5
−2.0
−2 −1 0 1 2
É visı́vel pelo gráfico, com menos ruı́do, a maior coincidência do modelo

ajustado pela regressão e do modelo que gerou a população. Houve diminuição
do RSE, aumento de R2 e diminuição do p-value, de forma que o modelo foi, ao
todo, mais confiável.
12
i)
Foi gerado um novo conjunto de dados com desvio padrão do ruı́do de 1 e os
passos a-f foram executados.
Call:
lm(formula = Y ~ X)
Residuals:
-2.32416 -0.60361 0.00536 0.58305 2.29316
Coefficients:
(Intercept) -0.89115 0.09035 -9.864 2.39e-16 ***
X 0.49907 0.09472 5.269 8.16e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Mínimos Quadrados
População
1
0
−1
Y
−2
−3
−2 −1 0 1 2
O contrário do item anterior foi obtido: É observada uma menor coincidência

do modelo ajustado pela regressão e do modelo que gerou a população, aumento
do RSE, diminuição de R2 e aumento do p-value, de forma que o modelo se torna
menos confiável.
13
j)
A seguir, os intervalos de confiança para, respectivamente, o modelo original, o
modelo com menos ruı́do e o modelo com mais ruı́do.
2.5 % 97.5 %
(Intercept) -1.1150804 -0.9226122
X 0.3925794 0.6063602
2.5 % 97.5 %
(Intercept) -1.0070441 -0.9711855
X 0.4811096 0.5187039
2.5 % 97.5 %
(Intercept) -1.0704405 -0.7118552
X 0.3110958 0.6870395
É notável que o intervalo de confiança dos 3 modelos se encontra centrado

aproximadamente em -1 e 0.5, porém, quanto mais ruı́do, mais largo é este
intervalo, indicando uma menor certeza do modelo.
14

Exerc Icio Computacional - Regress Ao Linear: Universidade Federal de Minas Gerais

Uploaded by

Copyright:

Available Formats

You might also like

Exerc Icio Computacional - Regress Ao Linear: Universidade Federal de Minas Gerais

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Exerc Icio Computacional - Regress Ao Linear: Universidade Federal de Minas Gerais

Uploaded by

Copyright:

Available Formats

Universidade Federal de Minas Gerais

Programa de Pós Graduação em Engenharia Elétrica

Nome: Igor Pereira Gomes

3 5 7 50 200 10 20 1.0 2.5

10 40 100 400 1500 5000 70 78 0 200

mpg cylinders displacement horsepower weight

Residual standard error: 3.328 on 384 degrees of freedom

i. Há relação entre os preditores e a resposta, evidenciado pelo baixo valor

iii. O coeficiente 0.750773 para ”year”significa que, de acordo com o modelo

Residuals vs Fitted Normal Q−Q

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

10 15 20 25 30 35 0.00 0.05 0.10 0.15

Fitted values Leverage

No gráfico de resı́duos, é identificado um padrão que sugere que os dados são

Residual standard error: 2.907 on 381 degrees of freedom

Residuals vs Fitted Normal Q−Q

387 323 387

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

10 15 20 25 30 35 0.00 0.10 0.20

Fitted values Leverage

Observou-se interações bastante significativas, evidenciadas pelo baixo p-

100 300 500 10 15 20 25

4.0 4.5 5.0 5.5 8 10 12 14

10000 30000 50000 50 100 150 200

Nota-se, pelos gráficos, que aparentemente nenhuma transformação utilizada

Residual standard error: 2.959 on 383 degrees of freedom

Residuals vs Fitted Normal Q−Q

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

10 15 20 25 30 35 0.00 0.05 0.10 0.15

Fitted values Leverage

Como esperado, o logaritmo de ”horsepower”se mostrou extremamente sig-

Residual standard error: 2.472 on 396 degrees of freedom

USYes De acordo com o modelo, mantendo-se constantes as demais variáveis,

Residual standard error: 2.469 on 397 degrees of freedom

Residuals vs Fitted Normal Q−Q

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

4 6 8 10 12 0.00 0.01 0.02 0.03 0.04

Fitted values Leverage

Sim. No gráfico de Resı́duos por Leverage, é possı́vel identificar alguns pon-

Para o conjunto criado, β0 = −1 e β1 = 0.5. Y é um conjunto de 100

Observa-se que Y segue uma relação linear com X, adicionado de ruı́do.

Residual standard error: 0.4814 on 98 degrees of freedom

Obteve-se valores para o modelo ajustado de β0 = −1.019 e β1 = 0.499,

Residual standard error: 0.479 on 97 degrees of freedom

O modelo de regressão polinomial, para o caso, leva a um modelo que, apesar

Residual standard error: 0.09028 on 98 degrees of freedom

É visı́vel pelo gráfico, com menos ruı́do, a maior coincidência do modelo

Residual standard error: 0.9028 on 98 degrees of freedom

O contrário do item anterior foi obtido: É observada uma menor coincidência

É notável que o intervalo de confiança dos 3 modelos se encontra centrado

You might also like