Professional Documents
Culture Documents
Bài tập 2 Dự báo
Bài tập 2 Dự báo
Nhóm 8:
Phan Tiến Nam
Trần Vạn An
Nguyễn Minh Trí
Huỳnh Tăng Trưởng
Võ Tá Duy Cường
Nguyễn Bùi Trường Vinh
Nhóm sử dụng dữ liệu lấy từ “https://www.gso.gov.vn” về “Lượng mưa trung bình các
tháng trong năm tỉnh Lai Châu”
B1: Vẽ biểu đồ đường nhận diện tính xu hướng và tính mùa của dữ liệu
Đồ thị đường biểu diễn lượng du khách quốc tế đến Việt Nam trong khoảng thời gian cụ
thể từ tháng 1/20016 đến tháng 12/2020. Đồ thị có xu hướng mùa theo thời gian.
Để nhận biết rõ tính mùa của dữ liệu, ta quan sát trong một khoảng thời gian ngắn, từ
tháng 1/2016 đến tháng 12/2017. Ta thấy, vào những tháng đầu năm đồ thị có xu hướng
giảm từ tháng 1- tháng 2. Vào tháng 7 đồ thị có xu hương lên cao và chạm đỉnh, và chạm
đáy khoảng 2 lần là tháng 2 và tháng 11.
B2: Lập tất cả mô hình có thể có dự báo
Dạng tuyến tính: Yt = β 0 + β1TIME + β2.T1 + β3.T2 + β4.T3 + β6.T4 + β6.T5 + β7.T6 + β8.T7 +
β9.T8 + β10.T9 + β11.T10 + β12.T11 + β13.T12 + ut
Dạng bậc 2: Yt = β 0 + β1TIME + β2TIME2 + β3.T1 + β4.T2 + β5.T3 + β6.T4 + β7.T5 + β8.T6 +
β9.T7 + β10.T8 + β11.T9 + β12.T10 + β13.T11 + β14.T12 + ut
Dạng bậc 3: Yt = β 0 + β1TIME + β2TIME2 + β3TIME3 + β4.T1 + β5.T2 + β6.T3 + β7.T4 + β8.T5 +
β9.T6 + β10.T7 + β11.T8 + β12.T9 + β13.T10 + β14.T11 + β15.T12 + ut
Dạng tuyến tính_log: Yt = β0 + β1ln(TIME) + β2.T1 + β3.T2 + β4.T3 + β6.T4 + β6.T5 + β7.T6 +
β8.T7 + β9.T8 + β10.T9 + β11.T10 + β12.T11 + β13.T12 + ut
Dạng log_tuyến tính bậc 2: ln(Yt) = β 0 + β1TIME + β2TIME2 + β3.T1 + β4.T2 + β5.T3 + β6.T4 +
β7.T5 + β8.T6 + β9.T7 + β10.T8 + β11.T9 + β12.T10 + β13.T11 + β14.T12 + ut
Dạng log_tuyến tính bậc 3: ln(Yt) = β 0 + β1TIME + β2TIME2 + β3TIME3 + β4.T1 + β5.T2 + β6.T3
+ β7.T4 + β8.T5 + β9.T6 + β10.T7 + β11.T8 + β12.T9 + β13.T10 + β14 .T11+ β15.T12+ ut
Residuals:
Min 1Q Median 3Q Max
-3.6351 -0.3789 0.1648 0.4991 2.2293
Coefficients:
Estimate Std. Error t value Pr(>|t|)
time -0.01186 0.00827 -1.434 0.158
T1 3.75967 0.52830 7.117 5.44e-09 ***
T2 3.51778 0.53159 6.617 3.11e-08 ***
T3 4.72395 0.53499 8.830 1.51e-11 ***
T4 5.52131 0.53850 10.253 1.42e-13 ***
T5 6.06910 0.54210 11.195 7.39e-15 ***
T6 6.65368 0.54581 12.190 3.69e-16 ***
T7 6.47442 0.54962 11.780 1.25e-15 ***
T8 6.18085 0.55353 11.166 8.09e-15 ***
T9 5.83152 0.55753 10.460 7.36e-14 ***
T10 4.96046 0.56162 8.832 1.50e-11 ***
T11 3.88291 0.56581 6.863 1.32e-08 ***
T12 2.86105 0.57008 5.019 7.90e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuals:
Min 1Q Median 3Q Max
-3.6070 -0.3684 0.0786 0.5375 1.8922
Coefficients:
Estimate Std. Error t value Pr(>|t|)
time 0.0595303 0.0315402 1.887 0.06542 .
I(time^2) -0.0011703 0.0005006 -2.338 0.02379 *
T1 3.0434432 0.5905323 5.154 5.24e-06 ***
T2 2.7898564 0.5958235 4.682 2.53e-05 ***
T3 3.9866573 0.6006874 6.637 3.20e-08 ***
T4 4.7769958 0.6051146 7.894 4.23e-10 ***
T5 5.3201042 0.6090998 8.734 2.51e-11 ***
T6 5.9023452 0.6126417 9.634 1.31e-12 ***
T7 5.7230867 0.6157432 9.295 3.95e-12 ***
T8 5.4318558 0.6184109 8.784 2.13e-11 ***
T9 5.0872067 0.6206551 8.197 1.52e-10 ***
T10 4.2231735 0.6224902 6.784 1.92e-08 ***
T11 3.1549851 0.6239343 5.057 7.27e-06 ***
T12 2.1448320 0.6250091 3.432 0.00128 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuals:
Min 1Q Median 3Q Max
-3.5708 -0.2305 0.0848 0.5088 1.7659
Coefficients:
Estimate Std. Error t value Pr(>|t|)
time -7.021e-04 8.465e-02 -0.008 0.99342
I(time^2) 1.262e-03 3.210e-03 0.393 0.69598
I(time^3) -2.659e-05 3.465e-05 -0.767 0.44692
T1 3.318e+00 6.927e-01 4.790 1.84e-05 ***
T2 3.075e+00 7.047e-01 4.364 7.38e-05 ***
T3 4.282e+00 7.160e-01 5.981 3.33e-07 ***
T4 5.082e+00 7.266e-01 6.995 1.04e-08 ***
T5 5.635e+00 7.366e-01 7.649 1.12e-09 ***
T6 6.226e+00 7.462e-01 8.344 1.10e-10 ***
T7 6.056e+00 7.555e-01 8.016 3.27e-10 ***
T8 5.774e+00 7.645e-01 7.552 1.56e-09 ***
T9 5.438e+00 7.735e-01 7.031 9.16e-09 ***
T10 4.584e+00 7.825e-01 5.858 5.07e-07 ***
T11 3.526e+00 7.918e-01 4.453 5.53e-05 ***
T12 2.527e+00 8.015e-01 3.153 0.00288 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuals:
Min 1Q Median 3Q Max
-0.88776 -0.09481 0.01962 0.11982 0.45723
Coefficients:
Estimate Std. Error t value Pr(>|t|)
logtime -0.004197 0.001896 -2.213 0.032 *
T1 1.554542 0.124662 12.470 3.35e-16 ***
T2 1.272337 0.117580 10.821 4.14e-14 ***
T3 1.588358 0.118388 13.417 < 2e-16 ***
T4 1.759605 0.119220 14.759 < 2e-16 ***
T5 1.864387 0.120077 15.527 < 2e-16 ***
T6 1.965676 0.120957 16.251 < 2e-16 ***
T7 1.938835 0.121861 15.910 < 2e-16 ***
T8 1.889487 0.122787 15.388 < 2e-16 ***
T9 1.827819 0.123735 14.772 < 2e-16 ***
T10 1.639936 0.124705 13.151 < 2e-16 ***
T11 1.292482 0.125696 10.283 2.16e-13 ***
T12 1.233608 0.143480 8.598 4.73e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
data: mh4
BP = 28.103, df = 12, p-value = 0.005344
Nhận xét: p-value = 0.005344 < 0.05, bác bỏ H0.Kết luận, sai số ut có phương sai thay đổi ở mức
ý nghĩa 5%
Giả thiết 3 thỏa mãn
Giả thiết 4: Không có tương quan chuỗi (tự tương quan)
Các sai số trong hai kỳ khác nhau không tương quan với nhau, tức là:
Corr(ut, us) = 0 với mọi t ≠ s
H0: Không tồn tại tương quan chuỗi
H1: Tồn tại tương quan chuỗi
Kiểm định Durbin- Watson
Durbin-Watson test
data: mh4
DW = 1.0387, p-value = 0.0001858
alternative hypothesis: true autocorrelation is greater than 0
Nhận xét: p-value= 0.0001858, bác bỏ H0. Kết luận, mô hình tồn tại sự tương quan chuỗi với
mức ý nghĩa 5%
Giả thiết 5 không thỏa mãn
Giả thiết 5: Phân phối chuẩn
H0: Sai số ut có phân phối chuẩn
Cách 1: Kiểm định Jarque – Bera
Title:
Jarque - Bera Normalality Test
Test Results:
STATISTIC:
X-squared: 66.8629
P VALUE:
Asymptotic p Value: 0.2998
Nhận xét: p-value = 0.2998 > 0.05, bác bỏ H0. Kết luận, sai số ut không có phân phối chuẩn ở
mức ý nghĩa 5%.
Cách 2: Kiểm định Shapiro-Will
Shapiro-Wilk normality test
data: mh4$residuals
W = 0.90164, p-value = 0.0001939
Nhận xét: p-value = 0.0001939 < 0.05, bác bỏ H0. Kết luận, sai số ut không có phân phối chuẩn
ở mức ý nghĩa 5%.
Cách 3: Kiểm định Anderson-Darling
Anderson-Darling normality test
data: mh4$residuals
A = 1.2839, p-value = 0.002233
Nhận xét: p-value= 0.002233 < 0.05, bác bỏ H 0. Kết luận, sai số ut không có phân phối chuẩn ở
mức ý nghĩa 5%.
Cách 4: Kiểm định Kolmogorov-Smirnov
Lilliefors (Kolmogorov-Smirnov) normality test
data: mh4$residuals
D = 0.12936, p-value = 0.01698
Nhận xét: p-value= 0.01698< 0.05, bác bỏ H0. Kết luận, sai số ut không có phân phối chuẩn ở
mức ý nghĩa 5%.
Giả thiết 5 thỏa mãn
Chọn mô hình tuyến tính log
Dạng log tuyến tính bậc 2
Call:
lm(formula = log(log(LaiChau)) ~ time + I(time^2) + T1 + T2 +
T3 + T4 + T5 + T6 + T7 + T8 + T9 + T10 + T11 + T12 - 1, data = ls)
Residuals:
Min 1Q Median 3Q Max
-0.68151 -0.07668 -0.01203 0.11067 0.35299
Coefficients:
Estimate Std. Error t value Pr(>|t|)
time 0.0183506 0.0064521 2.844 0.006733 **
I(time^2) -0.0003696 0.0001021 -3.620 0.000757 ***
T1 1.3261121 0.1273909 10.410 1.91e-13 ***
T2 1.0424286 0.1221812 8.532 7.04e-11 ***
T3 1.3554932 0.1232189 11.001 3.25e-14 ***
T4 1.5245226 0.1241691 12.278 8.29e-16 ***
T5 1.6278255 0.1250309 13.019 < 2e-16 ***
T6 1.7283756 0.1258041 13.739 < 2e-16 ***
T7 1.7015343 0.1264894 13.452 < 2e-16 ***
T8 1.6529254 0.1270881 13.006 < 2e-16 ***
T9 1.5927362 0.1276025 12.482 4.70e-16 ***
T10 1.4070710 0.1280355 10.990 3.36e-14 ***
T11 1.0625738 0.1283909 8.276 1.62e-10 ***
T12 1.0051783 0.1421436 7.072 8.98e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
^ 2
log (LaiChau)=0.0183506 TIME+−0.0003696 ×TIM E +1.3261121 x T 1+1.0424286 x T 2+1.3554932 x T 3+1
time I (time^2) T1 T2 T3 T4 T5
66.083810 36.295988 1.445954 1.662634 1.690994 1.717176 1.741095
T6 T7 T8 T9 T10 T11 T12
1.762696 1.781951 1.798860 1.813451 1.825780 1.835929 1.800247
Nhận xét: Mô hình 14 biến độc lập, trong đó 2 biến có VIF > 10, tức bị đa cộng tuyến hoàn hảo,
12 biến còn lại có VIF < 10, giữa các biến có hiện tượng đa cộng tuyến, nhưng không bị đa cộng
tuyến nghiêm trọng (cộng tuyến hoàn hảo).
Giả thiết 2 thỏa mãn
Giả thiết 3: Phương sai thuần nhất
H0: Sai số ut có phương sai không đổi
Kiểm định Breusch-Pagan
studentized Breusch-Pagan test
data: mh5
BP = 33.767, df = 13, p-value = 0.1306
Nhận xét: P-value = 0.1306 < 0.05, bác bỏ H0. Kết luận, sai số ut có phương sai không đổi ở mức
ý nghĩa 5%.
Giả thuyếth3 thỏa mãn
Giả thiết 4: Không có tương quan chuỗi(tự tương quan)
Các sai số trong hai kỳ khác nhau không tương quan với nhau, tức là:
Corr(ut, us) = 0 với mọi t ≠ s
H0: Không tồn tại tương quan chuỗi
H1: Tồn tại tương quan chuỗi
Kiểm định Durbin-Watson
Durbin-Watson test
data: mh5
DW = 1.3325, p-value = 0.005215
alternative hypothesis: true autocorrelation is greater than 0
Nhận xét: p-value= 0.005215 < 0.05, bác bỏ H0. Kết luận, mô hình tồn tại sự tương quan chuỗi
với mức ý nghĩa 5%.
Giả thuyết 4 không thỏa mãn
Giả thiết 5: Phân phối chuẩn
H0: Sai số ut có phân phối chuẩn
Cách 1: Kiểm định Jarque – Bera
Title:
Jarque - Bera Normalality Test
Test Results:
STATISTIC:
X-squared: 16.3004
P VALUE:
Asymptotic p Value: 0.0002887
Nhận xét: p-value= 0.0002887 < 0.05, bác bỏ H0. Kết luận, sai số ut không có phân phối chuẩn ở
mức ý nghĩa 5%.
Cách 2: Kiểm định Shapiro-Will
Shapiro-Wilk normality test
data: mh5$residuals
W = 0.94559, p-value = 0.1147
Nhận xét: p-value= 0.1147 > 0.05, bác bỏ H0. Kết luận, sai số ut có phân phối chuẩn ở mức ý
nghĩa 5%.
Cách 3: Kiểm định Anderson-Darling
Anderson-Darling normality test
data: mh5$residuals
A = 0.70062, p-value = 0.06385
Nhận xét: p-value=0.06385 > 0.05, không thể bác bỏ H0. Kết luận, sai số ut có phân phối chuẩn
ở mức ý nghĩa 5%.
Cách 4: Kiểm định Kolmogorov-Smirnov
Lilliefors (Kolmogorov-Smirnov) normality test
data: mh5$residuals
D = 0.10324, p-value = 0.1291
Nhận xét: p-value= 0.1291 > 0.05, không thể bác bỏ H 0. Kết luận, sai số ut có phân phối chuẩn ở
mức ý nghĩa 5%.
Giả thiết 5 thỏa mãn
Chọn mô hình dạng log_tuyến tính bậc 2
Residuals:
Min 1Q Median 3Q Max
-0.56678 -0.07568 0.00575 0.07817 0.34773
Coefficients:
Estimate Std. Error t value Pr(>|t|)
time -1.255e-02 1.664e-02 -0.754 0.4550
I(time^2) 8.812e-04 6.323e-04 1.394 0.1706
I(time^3) -1.367e-05 6.826e-06 -2.003 0.0515 .
T1 1.470e+00 1.428e-01 10.299 3.50e-13 ***
T2 1.187e+00 1.386e-01 8.567 7.57e-11 ***
T3 1.506e+00 1.408e-01 10.692 1.09e-13 ***
T4 1.680e+00 1.429e-01 11.752 5.15e-15 ***
T5 1.788e+00 1.449e-01 12.337 1.02e-15 ***
T6 1.893e+00 1.468e-01 12.893 2.27e-16 ***
T7 1.870e+00 1.486e-01 12.585 5.20e-16 ***
T8 1.826e+00 1.504e-01 12.142 1.74e-15 ***
T9 1.771e+00 1.522e-01 11.636 7.14e-15 ***
T10 1.590e+00 1.540e-01 10.327 3.22e-13 ***
T11 1.251e+00 1.558e-01 8.028 4.32e-10 ***
T12 1.194e+00 1.668e-01 7.160 7.55e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Cả 2 mô hình khác nhau không có ngưỡng cụ thể của các chỉ số, nhưng mô hình tốt hơn là mô
hình có các chỉ số AIC, BIC càng nhỏ càng tốt, LogLikelihood càng lớn càng tốt
Mô hình dạng log tuyến tính bậc 2 có nhiều tiêu chí nổi trội hơn
Chọn mô hình dạng log tuyến tính bậc 2 để dự báo
Dạng log_tuyến tính bậc 2: ln(Yt) = β0 + β1TIME + β2TIME2 + β3.T1 + β4.T2 + β5.T3 +
β6.T4 + β7.T5 + β8.T6 + β9.T7 + β10.T8 + β11.T9 + β12.T10 + β13.T11 + β14.T12 + ut
^ 2
log (LaiChau)=0.0183506 TIME+−0.0003696 ×TIM E +1.3261121 x T 1+1.0424286 x T 2+1.3554932 x T 3+1
B5: Dự báo cho nhiều kì tiếp theo
Dựa trên các yếu tố trên ta sẽ dùng mô hình dạng tuyến tính bậc 2 để dự báo xu hướng tính mùa
của lượng mưa trung bình các tháng trong năm tại Lai Châu trong 3 năm (2021-2023). Nhận thấy
trong năm 2021,2022 và 2023 thấp nhất vào khoảng tháng 2 và tháng 11, cao nhất vào khoảng
tháng 6. Nhận thấy dữ liệu có tính mùa trong 1 năm.
Đạt đỉnh, lượng mưa cao nhất vào tháng 11
Chạm đáy, lượng mưa thấp nhất vào tháng 2 và tháng 11