Mini Project - Forecasting

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 47

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA CƠ KHÍ

BỘ MÔN KỸ THUẬT HỆ THỐNG CÔNG NGHIỆP

MINI PROJECT

MÔN HỌC: KỸ THUẬT DỰ BÁO


MỤC LỤC

CHƯƠNG 1. TÌM HIỂU DỮ LIỆU ĐÃ THU THẬP Yt..........................................................1


1. Câu hỏi 1.............................................................................................................1
2. Câu hỏi 2.............................................................................................................3
3. Câu hỏi 3.............................................................................................................5
4. Câu hỏi 4.............................................................................................................6
5. Câu hỏi 5.............................................................................................................7
CHƯƠNG 2. XÁC ĐỊNH THÀNH PHẦN CỦA CHUỖI THỜI GIAN Yt.................................11
1. Câu hỏi 1...........................................................................................................11
2. Câu hỏi 2...........................................................................................................15
3. Câu hỏi 3...........................................................................................................15
4. Câu hỏi 4...........................................................................................................19
CHƯƠNG 3: THỰC HIỆN DỰ BÁO BẰNG CÁCH ÁP DỤNG HỒI QUY TUYẾN TÍNH ĐA
BIẾN............................................................................................................................. 22
1. Câu hỏi 1...........................................................................................................22
2. Câu hỏi 2...........................................................................................................22
CHƯƠNG 4: THỰC HIỆN DỰ BÁO BẰNG PHƯƠNG PHÁP BOX - JENKINS....................32
1. Câu hỏi 1...........................................................................................................32
2. Câu hỏi 2...........................................................................................................34
3. Câu hỏi 3...........................................................................................................40
DANH SÁCH HÌNH ẢNH

Hình 1.1 Hình ảnh số liệu của các biến..........................................................................1


Hình 1.2 Kiểm tra dữ liệu..............................................................................................2
Hình 1.3 Phân tích dữ liệu.............................................................................................2
Hình 1.4 Kết quả của các giá trị thống kê mô tả............................................................3
Hình 1.5 Kết quả mô tả thống kê của dữ liệu Yt trong thẻ Graph..................................4
Hình 1.6 Đồ thị kiểm định phân phối chuẩn được vẽ bằng Minitab.............................6
Hình 1.7 Biểu đồ kiểm tra phân phối chuẩn của dữ liệu bằng Minitab.........................7
Hình 1.8 Biểu đồ kiểm tra phân phối Exponential của dữ liệu bằng Minitab................8
Hình 1.9 Biểu đồ kiểm tra phân phối Weibull của dữ liệu bằng Minitab.......................8
Hình 1.10 Kết quả Goodness of Fit Test của các phân phối Normal, Exponential và
Weibull.......................................................................................................................... 9
Hình 2.1 Time Series Plot of soft log...........................................................................11
Hình 2.2 Autocorrelation Function for Soft logs..........................................................12
Hình 2.3 Linear Trend Model......................................................................................13
Hình 2.4 Growth Curve Model....................................................................................13
Hình 2.5 Quadratic Trend Model.................................................................................14
Hình 2.6 Giới thiệu các phương pháp dự báo.............................................................15
Hình 2.7 Double Exponential Method.........................................................................16
Hình 2.8 Naive method...............................................................................................17
Hình 2.9 Single Exponential Smoothing......................................................................17
Hình 2.10 Autocorrelation Function for RESI1............................................................19
Hình 2.11 Double Exponential Method.......................................................................20
Hình 2.12 Autocorrelation Function for RESI1............................................................21
Hình 3.1 Mẫu 20 dữ liệu chỉ số CPI của 10 nước G10 và Việt Nam.............................22
Hình 3.2 Dữ liệu bị khuyết của chỉ số CPI Việt Nam....................................................23
Hình 3.3 Chọn dữ liệu ngẫu nhiên theo phân phối Uniform.......................................23
Hình 3.4 14 dòng dữ liệu CPI đầu tiên của Việt Nam đã được điền theo phân phối
U(0,12) trong Minitab.................................................................................................24
Hình 3.5 Hình ảnh X4t (median CPI V10) và X5t (CPI Việt Nam đã điền khuyết dữ liệu)
.................................................................................................................................... 24
Hình 3.6 20 dòng dữ liệu CPI đầu tiên của Việt Nam (X5t) đã được chuyển thành biến
định tính với 3 mức: Good, Warning và Bad...............................................................25
Hình 3.7 13 dòng đầu tiên của biến X5t_categorial đã được mã hóa.........................26
Cột mã hóa được gán lại tên là X5t.............................................................................26
Hình 3.8 Bộ dữ liệu chuẩn bị thực hiện mô hình hồi quy............................................26
Hình 4.1 Time series plot of Soft Logs.........................................................................33
Hình 4.2 Autocorrelation Function for Soft Logs.........................................................33
Hình 4.3 Tạo dữ liệu mới bằng phương pháp sai phân...............................................34
Hình 4.4 Time series plot of Yt_Difference..................................................................35
Hình 4.5 The Descriptive Statistics of Yt_Difference...................................................35
Hình 4.6 The ACF of Yt_Difference..............................................................................36
Hình 4.7 The PACF of Yt_Difference............................................................................36
Hình 4.8 Giá trị Ljung - Box của ARIMA (1, 1, 0)..........................................................37
Hình 4.9 Giá trị ước tính và tổng bình phương phần dư của ARIMA (1, 1, 0).............37
Hình 4.10 Four-in-one Graph for Residuals of Soft Logs with ARIMA(1, 1, 0).............38
Hình 4.11 Giá trị Ljung - Box của ARIMA (0, 1, 1)........................................................38
Hình 4.12 Giá trị ước tính và tổng bình phương phần dư của ARIMA (0, 1, 1)...........39
Hình 4.13 Four-in-one Graph for Residuals of Soft Logs with ARIMA(0, 1, 1).............39
Hình 4.14 The ACF of Residuals of ARIMA(1,1,0)........................................................40
Hình 4.15 Kết quả dự báo cho 5 thời đoạn tiếp theo.................................................41

DANH SÁCH BẢNG BIỂU

Bảng 2.1 Moving Average Method..............................................................................18


CHƯƠNG 1. TÌM HIỂU DỮ LIỆU ĐÃ THU THẬP Yt
Dữ liệu đầu vào
Bảng 1.1 Tên biến
Tên biến Giải thích
Yt Giá trị của soft logs
X1t Giá trị của hides
X2t Giá trị của rubber
X3t Giá trị của cotton

Hình 1.1 Hình ảnh số liệu của các biến

1. Câu hỏi 1
Trước khi sử dụng dữ liệu đã thu thập, hãy làm sạch dữ liệu nếu cần thiết.
Sau khi tải bộ dữ liệu về, tiến hành sử dụng phần mềm Minitab kiểm tra dữ liệu
có bị khuyết không.
Hình 1.2 Kiểm tra dữ liệu

Kết quả: Sau khi chạy phần mềm Minitab ta thấy dữ liệu các biến X 1t, X2t, X3t, Yt
không bị khuyết.

Dữ liệu được thu thập không có khuyết dữ liệu ở các tháng nào trong cả chuỗi dữ liệu.
Ta tiến hành phân tích các điểm outlier để kiểm tra các điểm ngoại lai. Sử dụng phần
mềm Minitab để kiểm tra các điểm outlier của dữ liệu. Kết quả được trình bày ở
Hình…

Hình 1.3 Phân tích dữ liệu

Giả thuyết kiểm định các điểm ngoại lai với mức ý nghĩa α =5%

- H0: Tất cả các giá trị trong tập hợp dữ liệu không có sự p khác biệt, không có
dữ liệu ngoại lai
2
- H1: Có giá trị khác biệt lớn hơn so với tập hợp dữ liệu, tồn tại dữ liệu ngoại lai.

- Vì không chắc chắn dữ liệu có chứa giá trị ngoại lai hay không, do đó nhóm
quyết định sử dụng kiểm định Grubbs’ để kiểm định giá trị ngoại lai.

Kết quả: Các giá trị P-value > 0.05 do vậy chấp nhận giả thuyết H 0, suy ra giữ liệu
không có giá trị ngoại lai. Do đó dữ liệu đã được làm sạch.

2. Câu hỏi 2

Phân tích dữ liệu của tập Yt . Trình bày kết quả theo dạng bảng, ví dụ bao gồm kiểu
của dữ liệu, tần số, xu hướng trung tâm (trình bày khoảng tin cậy của trung bình và
độ lệ chuẩn), và vị trí (các khoảng tứ phân vị mô tả sự tập trung của dữ liệu).
Sử dụng Minitab: Vào Stat => Basic Statistics => Display Descriptive Statistics =>
Điền Soft Logs vào hộp thoại.

Hình 1.4 Kết quả của các giá trị thống kê mô tả

Giải thích một số giá trị trong bảng kết quả trên:

- Variable: biến Soft Logs

- N: tổng giá trị quan sát. Dữ liệu lấy theo tháng, từ 01/01/1990 đến 31/01/2023
=> 397 thời đoạn.

- Kiểm tra tính xu hướng trung tâm của bộ dữ liệu thông qua các giá trị trung
bình (mean) và trung vị (median).

+ Mean: trung bình cộng của biến soft logs là 184.83

+ Median: giá trị trung vị của biến soft logs là 181.64

- Xác định độ phân tán của bộ dữ liệu thông qua độ lệch chuẩn (standard
deviation) và khoảng tứ phân vị (interquartile ranges).

3
+ Standard Deviation (StDev): 33.37 (độ lệch chuẩn đo lường độ biến thiên của
các quan sát so với giá trị trung bình (mean). Độ lệch chuẩn càng nhỏ sẽ thể
hiện giá trị các quan sát rất gần với mean, độ biến thiên thấp và ngược lại).

+ Tứ phân vị thứ nhất (Q1) = 162.07

+ Tứ phân vị thứ ba (Q3) = 198.20

- Biến thiên:

+ Minimum: giá trị nhỏ nhất của index soft logs là 121.31

+ Maximum: giá trị lớn nhất của index soft logs là 296.49

+ Sai số tiêu chuẩn (SE mean) = 1.67

Sử dụng minitab: Stat => Basic Statistics => Graphical Summary => Chọn biến Soft Logs
=> OK

Hình 1.5 Kết quả mô tả thống kê của dữ liệu Yt trong thẻ Graph

Các khoảng tứ phân vị:

- Tứ phân vị dưới Q1 cho biết trung vị của phần dữ liệu nhỏ hơn (162.07)

- Tứ phân vị Q2 bằng giá trị trung vị (181.64)


4
- Tứ phân vị trên Q3 cho biết trung vị của phần dữ liệu lớn hơn (198.20)

- 25% giá trị index của soft logs từ 162.07 Trở xuống. 50% giá trị index của soft
logs từ 181.64 trở xuống. 75% giá soft logs sơ cấp từ 198.20 trở xuống

- Khoảng tứ phân vị là chiều dài mà giá trị index của soft logs tập trung nhiều
nhất: IQR = Q3 – Q1 = 36.13

- Giá trị trung bình là 184.83

⇨ Dữ liệu có xu hướng lệch phải (median < mean).

Giải thích CIs cho giá trị trung bình và giá trị độ lệch chuẩn:

- Với độ tin cậy 95%:

+ 95% Confidence Interval for Mean – khoảng tin cậy cho giá trị trung bình:
(181.54;188.12). Nghĩa là 95% khả năng giá trị trung bình giá trị index của soft
logs sẽ nằm trong khoảng từ 181.54 đến 188.12 Có 5% khả năng giá trị trung
bình index của soft logs nằm ngoài khoảng trên.

+ 95% Confidence Interval for Standard Deviation – khoảng tin cậy cho độ
lệch chuẩn: (31.20;35.87). Nghĩa là 95% khả năng độ lệch chuẩn (hay mức độ
phân tán) giá trị index của soft logs sẽ nằm trong khoảng từ 31.20 đến 35.87.

+ 95% Confidence Interval for Median – khoảng tin cậy cho giá trị trung vị:
(177.82;184.46). Nghĩa là 95% khả năng giá trị trung vị giá trị index của soft
logs sẽ nằm trong khoảng từ 177.82 đến 184.46.

Chúng ta có thể quan sát thấy rằng Boxplot cho soft logs tương đối nhỏ so với phạm
vi dữ liệu. Cụ thể phạm vi tứ phân vị là (162.07;198.20), có nghĩa là chuỗi này có độ
phân tán thấp.

3. Câu hỏi 3

Đưa ra nhận xét ngắn gọn về dữ liệu này.

Chuỗi dữ liệu Soft logs có trung vị < trung bình và độ lệch 0.700645, do đó phân phối
có độ lệch phải.

5
Chỉ số soft logs trung bình là 184.83.

Chuỗi có độ phân tán thấp, các giá trị chính được phân bổ trong (162.07;198.20).

4. Câu hỏi 4

Dữ liệu có tuân theo phân bố Normal không? Tại sao? Độ lệch chuẩn của dữ liệu là
nhỏ hay lớn so với giá trị trung bình?

Để kiểm tra được tập dữ liệu đang xem xét có phân phối chuẩn hay không sẽ dựa vào
kiểm định Normal (Normality Test), phương pháp kiểm định Anderson-Darling.

Giả thiết kiểm định:

H0: β i=0 (Dữ liệu tuân theo phân bố Normal).

H1: β i≠ 0 (Dữ liệu không tuân theo phân bố Normal).

Hình 1.6 Đồ thị kiểm định phân phối chuẩn được vẽ bằng Minitab

Kiểm định phân phối chuẩn cho dữ liệu giá trị index của soft logs, ta thấy P-value rất
nhỏ <0.005 hay <0.05, ta bác bỏ H 0. Do đó mẫu dữ liệu không tuân theo phân phối
chuẩn.

6
Độ lệch chuẩn nhỏ hơn đáng kể so với giá trị trung bình (33.37 và 184.8)

5. Câu hỏi 5

Khớp dữ liệu vào một số phân phối điển hình (Normal, Exponential và
Weibull) với α = 0.05. Nhận xét về phân bố thích hợp cho dữ liệu mà nhóm thu
thập.

Hình 1.7 Biểu đồ kiểm tra phân phối chuẩn của dữ liệu bằng Minitab

7
Hình 1.8 Biểu đồ kiểm tra phân phối Exponential của dữ liệu bằng Minitab

Hình 1.9 Biểu đồ kiểm tra phân phối Weibull của dữ liệu bằng Minitab

8
Hình 1.10 Kết quả Goodness of Fit Test của các phân phối Normal, Exponential và
Weibull

Qua các hình trên cho thấy số liệu không tuân theo 3 phân phối nào (Chuẩn, Hàm mũ,
Weibull) do 2 nguyên nhân sau:

Các điểm dữ liệu không được trải đều (tương đối dọc theo một đường thẳng).
9
Giá trị p của bộ fitness test (mức độ phù hợp) nhỏ hơn 0.05

Vì vậy chúng ta có thể đi đến kết luận rằng dữ liệu không tuân theo phân phối Chuẩn,
Hàm mũ hay Weibull.

10
CHƯƠNG 2. XÁC ĐỊNH THÀNH PHẦN CỦA CHUỖI THỜI GIAN Yt

1. Câu hỏi 1

Phân tích các mẫu chuỗi thời gian để tìm ra các đặc điểm của dữ liệu thu thập
được.

Từ những gì đã được biết, dữ liệu thường được phân loại theo bốn dạng: Horizontal
(theo chiều ngang), Trend (theo xu hướng), Seasonal (theo mùa) và Cyclical (theo chu
kỳ). Vì vậy, để lựa chọn phương pháp dự báo thích hợp cho chuỗi dữ liệu, ta cần phải
xác định dạng của chuỗi dữ liệu cần phân tích.

Ta sẽ xác định loại dữ liệu bằng Time Series Plot trên Minitab: Stat → Time Series →
Time Series Plots: Single.

Hình 2.1 Time Series Plot of soft log

Tiếp theo, để củng cố cho nhận định trên, ta thể hiện chuỗi dữ liệu với biểu đồ tự
tương quan (ACF). Chọn Stat → Time Series → Autocorrelation

11
Hình 2.2 Autocorrelation Function for Soft logs

Dựa vào kết quả đã tính toán, ta nhận thấy hệ số tự tương quan tại độ trễ đầu tiên có
giá trị gần bằng 1 và nằm trên đường ý nghĩa 95%, đồng thời với việc tăng độ trễ, hệ
số tự tương quan tương ứng có xu hướng giảm dần về 0 và giảm gần bằng - 0.2. Điều
đó chứng tỏ dữ liệu có tính xu hướng.

Sau khi đã xác định tính xu hướng của dữ liệu, ta cần xem xét dữ liệu quan sát thuộc
dạng xu hướng nào bằng cách sử dụng tính năng Trend Analysis. Có 4 dạng mô hình
xu hướng: xu hướng tuyến tính, xu hướng theo đường cong hàm bậc 2, xu hướng hàm
mũ, xu hướng đường cong S (tuy nhiên dữ liệu không tương thích với mô hình này).
Chọn Stat → Time Series → Trend Analysis và chọn vẽ biểu đồ lần lượt cho 4 loại ở
mục Model Type. Ta được các biểu đồ bên dưới:

12
13
Hình 2.3 Linear Trend Model

Hình 2.4 Growth Curve Model

14
Hình 2.5 Quadratic Trend Model

Sau khi phân tích bằng Trend Analysis, ta nhận thấy mô hình xu hướng bậc hai cho ra
các sai số thấp nhất. Vì vậy có thể suy ra được dữ liệu có xu hướng tăng tuyến tính với
các đặc tính sau:

2. Câu hỏi 2

Đề xuất ba phương pháp để tiến hành tính toán dự đoán dựa trên những phân tích
trên. Giải thích lý do lựa chọn.

15
Hình 2.6 Giới thiệu các phương pháp dự báo

Dựa vào bảng trên và sau khi phân tích chuỗi thời gian của dữ liệu Yt, nhóm nhận
thấy đây là một chuỗi thời gian có tính xu hướng và phạm vi dự báo là ngắn hạn (3
quý tiếp theo). Ứng với 2 tiêu chí trên, dựa vào cơ sở lý thuyết nhóm được thể hiện ở
hình, nhóm lựa chọn 3 phương pháp dự báo sau:

+ Single exponential smoothing

+ Holt’s linear exponential smoothing (Double Exponential Smoothing)

+ Naive

3. Câu hỏi 3

Phương pháp tốt nhất để dự báo dữ liệu thu thập được là gì? Các nhà đầu tư trong
một cuộc họp tham khảo sử dụng phương pháp trung bình di động của 3 kỳ để dự
báo các hoạt động của họ. Theo nhóm, phương pháp này có phù hợp không?

Một mô hình dự báo được đánh giá là tốt khi sai số dự báo nhỏ. Nhóm tiến hành chọn
phương pháp dự báo tốt nhất trong 3 phương pháp đã đề cập ở câu 2 vào so sánh bộ
16
chỉ số sai số dự báo. Nhóm tiến hành dự báo và so sánh sai số 3 phương án trên được
kết quả như sau:

Hình 2.7 Double Exponential Method

17
Hình 2.8 Naive method

18
Hình 2.9 Single Exponential Smoothing

Bảng 2.1 Moving Average Method

Double Exponential Single Exponential Naïve


Smoothing Smoothing

MAPE 4.780 4.427 4.692

MAD 9.057 8.291 8.796

MSD 162.432 129.873 151.074

Nhận xét: Ta thấy sai số của phương pháp Single Exponential Smoothing là ít nhất
nên sẽ chọn phương pháp này để tiến hành dự báo.

Để kiểm tra mức độ phù hợp của phương pháp trung bình di động 3 thời đoạn do nhà
đầu tư đề xuất, nhóm tiến hành phân tích ACF của sai số dự báo và ra được kết quả
như sau:

19
Hình 2.10 Autocorrelation Function for RESI1

Nhận xét: Nhìn hình ta thấy, 2 hệ số tự tương quan tại 2 độ trễ đầu tiên đều lớn hơn 0
với độ lớn đáng kể (vượt qua đường 95%), sau đó giảm dần ở các độ trễ tiếp theo.
Điều này chứng tỏ chuỗi giá trị phần dư là không ngẫu nhiên. Suy ra, phương pháp dự
báo bằng trung bình di động 3 thời đoạn mà nhà đầu tư đề xuất là không phù hợp với
bộ dữ liệu của nhóm.

4. Câu hỏi 4

Tính các giá trị dự báo cho ba giai đoạn bằng cách phương pháp tốt nhất mà nhóm
tìm được. Có thể kiểm tra xem các giá trị dự đoán này nằm trong khoảng tin cậy
nào không?

20
Kết quả thu được giá trị dự báo cho 3 quý tiếp theo (Forecast) và khoảng tin cậy tương ứng
(Lower, Upper)

21
Hình 2.11 Double Exponential Method

22
Hình 2.12 Autocorrelation Function for RESI1

Nhận xét: Nhận thấy các giá trị hệ số tự tương quan ACF đều gần bằng 0 (không vượt
qua đường 95%), tuy có những điểm bất thường trong bộ dữ liệu hệ số sự tương quan
vượt quá mức ý nghĩa 95% nhưng độ lệch không đáng kể. Điều này có nghĩa chuỗi giá
trị phần dư là ngẫu nhiên.

Kết luận: Vậy phương pháp dự báo Holt’s Linear Exponential Smoothing phù hợp với
bộ dữ liệu nhóm tổng hợp.

23
CHƯƠNG 3: THỰC HIỆN DỰ BÁO BẰNG CÁCH ÁP DỤNG HỒI QUY TUYẾN TÍNH ĐA
BIẾN

1. Câu hỏi 1

Thu thập dữ liệu của Chỉ số tiêu dùng (CPI) của V10 và Việt Nam tại
https://data.imf.org/CPI . Biết rằng chỉ số CPI bao gồm nhiều cách đo khác nhau.
Nhóm chỉ cần chọn chỉ số đo lường CPI theo tài liệu tham khảo.

Dữ liệu Chỉ số tiêu dùng (CPI) của 10 nước V10 và Việt Nam được thu thập trong file
excel. Dữ liệu 10 nước V10 bao gồm các nước: Pháp, Mỹ, Canada, Anh, Nhật Bản,
Singapore, Trung Quốc, Ý, Đức, Thái Lan.

Hình 3.1 Mẫu 20 dữ liệu chỉ số CPI của 10 nước G10 và Việt Nam

2. Câu hỏi 2

Đặt tên cho CPI của V10 là X4t và của Việt Nam là X5t. Bởi vì X5t không có được thu
thập dữ liệu đầy đủ như các nước V10 nên nhóm cần điền vào những chỗ bị thiếu
dữ liệu bằng cách tạo ra dữ liệu giả chỉ dùng cho kiểm định. Để làm điều này, sử
dụng phân phối Uniform với U(0,12) trong X5t bằng phần mềm Minitab. Sau đó, sao
chép dữ liệu vào ô trống để tiến hành phân loại. Sử hàm IF để phân loại chỉ số CPI
vào 3 mức: Good, Warning, Bad.
Sử dụng phần mềm Minitab kiểm tra dữ liệu bị thiếu của chỉ số CPI Việt Nam.

24
Hình 3.2 Dữ liệu bị khuyết của chỉ số CPI Việt Nam
Từ kết quả ta thấy dữ liệu bị khuyết 155 số. Ta tiến hành lựa chọn ngẫu nhiên 155 dữ
liệu theo phân phối Uniform với U(0,12) và gán dữ liệu chỉ số CPI của Việt Nam vào biến
X5t.

Hình 3.3 Chọn dữ liệu ngẫu nhiên theo phân phối Uniform

Từ các giá trị CPI đã thu thập, ta tính median của 10 nước (không bao gồm Việt Nam)
để lấy dữ liệu V10 và đặt tên là X4t. Vì giá trị median đại diện tốt cho cả tập dữ liệu, điều này
giúp việc đánh giá chuỗi CPI 10 nước một cách toàn diện và chính xác hơn. Chuỗi giá trị CPI
Việt Nam đặt tên là X5t. Điền dữ liệu còn thiếu của X5t bằng cách tạo dữ liệu giả thực tế: Dữ
liệu CPI của Việt Nam bị khuyết 155 dữ liệu đầu tiên, để điền khuyết ta tiến hành chọn CalC
→ Random data → Uniform. Sau đó ta thu được dữ liệu như sau:

25
Hình 3.4 14 dòng dữ liệu CPI đầu tiên của Việt Nam đã được điền theo phân phối
U(0,12) trong Minitab

Hình 3.5 Hình ảnh X4t (median CPI V10) và X5t (CPI Việt Nam đã điền khuyết dữ liệu)
Dùng hàm IF để phân loại, ta tiến hành chuyển chỉ số CPI của Việt Nam (X5t) thành biến
định tính với 3 mức: Good, Warning và Bad

Sử dụng câu lệnh: =IF(M2<4,"Good",IF(AND(M2>4,M2<=8),"Warning","Bad")) để chuyển


chỉ số CPI Việt Nam (X5t) thành biến định tính với 3 mức: Good, Warning và Bad.

26
Hình 3.6 20 dòng dữ liệu CPI đầu tiên của Việt Nam (X5t) đã được chuyển thành biến
định tính với 3 mức: Good, Warning và Bad

Câu hỏi 3

Thực hiện hồi quy Yt trên các biến X1t , X2t , X3t , X4t và X5t. Phân tích kết quả
hồi quy ban đầu và kiểm định các giả thuyết để xây dựng mô hình hồi quy. Đề
xuất giải pháp khắc phục các vi phạm giả thuyết của mô hình hồi quy (nếu cần).
Trước khi thực hiện hồi quy, ta tiến hành mã hóa biến định tính thành (-1,0,1), cụ thể:
-1 ứng với Bad
0 ứng với Warning
1 ứng với Good

27
Hình 3.7 13 dòng đầu tiên của biến X5t_categorial đã được mã hóa

Cột mã hóa được gán lại tên là X5t

Hình 3.8 Bộ dữ liệu chuẩn bị thực hiện mô hình hồi quy


Thực hiện hồi quy Yt trên các biến X1t, X2t, X3t, X4t, X5t, kết quả thu được như
sau:
28
Kết quả phương trình hồi quy tuyến tính đa biến
Các chỉ số cần quan tâm:

Hình 3.9 Kết quả các chỉ số cần quan tâm của mô hình
R - sq(adj) = 18.10%: Vì đây là mô hình hồi quy tuyến tính đa biến nên ta ưu tiên xem
xét R - sq hiệu chỉnh. Với kết quả trên, ta có thể nói rằng 18.10% giá trị index của Soft
log theo thời gian là do sự thay đổi của các biến X1t (Hides), X2t (Rubbers), X3t
(Cotton), X4t (V10 CPI), X5t (Biến phân loại CPI Việt Nam đã được mã hóa).
Kiểm định phương sai ANOVA

Hình 3.10 Kết quả của kiểm định phương sai cho mô hình
Nhận thấy P-value (X4t)=0.877>0.05 nên biến X4t có thể không có ý nghĩa về mặt
thống kê. Tuy nhiên P-value (Regression)=0.000<0.05 thể hiện rằng mô hình trên vẫn
có thể dùng được và có độ tin cậy với mức ý nghĩa 5%. Đồng thời nhóm cũng nhận

29
thấy P-value của các biến X1t, X2t, X3t, X5t có P-value <0.05, từ đó kết luận các biến
này có ý nghĩa thống kê
Kiểm định hệ số tương quan

Hình 3.11 Kết quả kiểm định hệ số tự tương quan


Các hệ số phương sai VIF đều tương đối nhỏ , điều đó thể hiện các biến X1t, X4t, X5t
độc lập, mô hình sẽ không bị gây bất lợi bởi hiện tượng đa cộng tuyến (Loại 2 biến
X2t và X3t)
Xét biến X1t, đặt giả thuyết:
- H0: b1=0
- H1: b1≠0
Nhận thấy độ lớn T-value của X1t là 2.08 > T0.025 =1.96, do đó bác bỏ giả thuyết H0 và
kết luận hệ số hồi quy của biến X1t có ý nghĩa về mặt thống kê.
Tương tự nhận thấy độ lớn T-value của X2t, X3t, X5t lần lượt là 4.79; 7.26; 2.16 đều
lớn hơn T0.025 = 1.96, từ đó kết luận hệ số hồi quy của biến X2t, X3t,X5t đều có ý
nghĩa về mặt thống kê. Chỉ riêng độ lớn T-value của X4t là nhỏ hơn T0.025 (0.16 <
1.96), không thể bác bỏ giả thuyết H0, từ đó ta kết luận hệ số hồi quy của biến X4t là
không có ý nghĩa về mặt thống kê, do đó ta có thể xem xét để loại bỏ biến này khỏi
mô hình.
Sử dụng Durbin watson test để kiểm tra tính tự tương quan của sai số dự báo
bằng mô hình hồi quy đa biến

30
Hình 3.12 Kết quả của Durbin- Watson test
Với số biến độc lập là k = 5 và cỡ mẫu là n = 397, ta có giá trị dL và dU lần lượt là
1,811 và 1,861. Ta thấy rằng giá trị thống kê Durbin-Watson của mô hình này nằm
trong khoảng từ 0 đến dL (0 < 0,201< 1,861) vì vậy mô hình có hiện tượng tự tương
quan dương.

Hình 3.13 Các biểu đồ sai số của mô hình hồi quy tuyến tính đa biến
Nhận xét:
- Với đồ thị Normal Probability: Phần lớn giá trị Residuals nhìn chung nằm phân bố
dọc theo đường chuẩn. Từ đó có thể kết luận các Residuals có phân phối chuẩn
- Đồ thị Histogram: Dữ liệu phân bố có hình dáng gần giống quả chuông vì vậy phần
dư có mean = 0.
- Đồ thị Versus Fits: Dữ liệu phân bố không đều mà tập trung thành cụm ở bên trái dữ
liệu vì vậy phương sai không phải hằng số.

31
- Đồ thị Versus Order: Dữ liệu phân bố có hình dạng bất thường cho thấy dữ liệu có
hiện tượng tự tương quan.
Đề xuất sử dụng Box-cox cho mô hình hồi quy trên

Hình 3.13 Kết quả phương trình hồi quy đa biến tuyến tính sau khi sử dụng Box-Cox

32
Hình 3.14 Kết quả các chỉ số cần quan tâm và phân tích phương sai cho mô hình sau
khi sử dụng Box-Cox

Hình 3.15 Kết quả kiểm tra Durbin-Waston cho mô hình đã dùng Box-Cox

Hình 3.16 Các biểu đồ sai số cho mô hình đã dùng Box-Cox

33
Nhận xét:
- S = 1.10456 nhỏ hơn nhiều so với mô hình hồi quy đa biến trước (301979).
- Mô hình hồi quy đa biến sau khi sử dụng Box-Cox được chuyển đổi thành mô hình
hồi quy đa biến mới (vẫn có năm biến)
- Sau khi dùng Box-Cox các giá trị Residual phần lớn phân bố dọc theo đường chuẩn
hơn là mô hình hồi quy đa biến trước đó
- Đồ thị Versus Fits: Sau khi dùng Box-Cox thì khoảng biến thiên đã giảm so với mô
hình ban đầu
- Giá trị Durbin-Watson trước khi dùng Box-Cox (0.201413) và sau khi dùng Box-
Cox (0.191426) đều nhỏ hơn dL=1.1861, cho thấy sai số dự báo của hồi quy đa biến
trước và sau dùng Box-Cox đều có sự tương quan dương

CHƯƠNG 4: THỰC HIỆN DỰ BÁO BẰNG PHƯƠNG PHÁP BOX - JENKINS

1. Câu hỏi 1

Phân tích đặc tính chuỗi dữ liệu

34
Hìn
h 4.1 Time series plot of Soft Logs

Hình 4.2 Autocorrelation Function for Soft Logs


*Nhận xét: Nhìn vào đồ thị Time series plot of Soft Logs, ta thấy đồ thị có xu
hướng đi lên. Đồng thời, hệ số tự tương quan của 15 độ trễ đầu tiên vượt quá đường
95% và giảm dần về 0. Có thể kết luận như sau:
- Chuỗi dữ liệu không ổn định (nonstationary).
- Dữ liệu có xu hướng tăng dần.

35
- Từ đồ thị Autocorrelation Function for Soft Logs, chuỗi dữ liệu không có tính mùa.

2. Câu hỏi 2
Xác định một mô hình ARIMA mô tả tốt nhất dữ liệu Yt, ước lượng tham số của mô
hình và thực hiện kiểm tra tính phù hợp của mô hình.
Sử dụng phương pháp Differencing để loại bỏ tính xu hướng của dữ liệu và tạo ra
chuỗi dữ liệu ổn định.
Minitab: Stat → Time Series → Difference

Hình 4.3 Tạo dữ liệu mới bằng phương pháp sai phân

Vẽ Time series plot cho dữ liệu mới tạo và Hàm tự tương quan và Hàm tự tương quan
từng phần của nó.

36
Hình 4.4 Time series plot of Yt_Difference

Hình 4.5 The Descriptive Statistics of Yt_Difference

*Nhận xét: Biểu đồ nhìn chung dao động qua lại tương đối ổn định qua vị trí cân
bằng (trung bình mẫu bằng 0.287).

37
Hình 4.6 The ACF of Yt_Difference

Hình 4.7 The PACF of Yt_Difference

38
*Nhận xét: Từ đồ thị tự tương quan, độ trễ đầu tiên là đáng kể và những từ những độ
trễ kế tiếp ta thấy tự tương quan hầu như nằm trong đường 95%. Có một số độ trễ
đáng kể nhưng chỉ là ngẫu nhiên. Hiện tượng tự tương quan một phần cũng tương tự.
Từ phân tích ở trên, hai mô hình ARIMA được xác định với chỉ số như sau:
+ Mô hình 1: ARIMA (1, 1, 0)

+ Mô hình 2: ARIMA (0, 1, 1)

*Mô hình 1: ARIMA (1, 1, 0)

Hình 4.8 Giá trị Ljung - Box của ARIMA (1, 1, 0)

Hình 4.9 Giá trị ước tính và tổng bình phương phần dư của ARIMA (1, 1, 0)

39
Hình 4.10 Four-in-one Graph for Residuals of Soft Logs with ARIMA(1, 1, 0)

*Mô hình 2: ARIMA (0, 1, 1)

Hình 4.11 Giá trị Ljung - Box của ARIMA (0, 1, 1)

40
Hình 4.12 Giá trị ước tính và tổng bình phương phần dư của ARIMA (0, 1, 1)

Hình 4.13 Four-in-one Graph for Residuals of Soft Logs with ARIMA(0, 1, 1)

*Đánh giá ý nghĩa thống kê của 2 mô hình với mức ý nghĩa 5%:

Giả thiết:

H 0 : Mô hình có ý nghĩa

H 1 : Mô hình không có ý nghĩa

41
Ta thấy, cả mô hình 1 và 2 đều có giá p - value < 0.05 => chấp nhận giả thiết H 0.

*So sánh giá trị MSE của 2 mô hình:

Mô hình 1 ARIMA (1, 1, 0): MSE = 129.886

Mô hình 2 ARIMA (0, 1, 1): MSE = 130.629

Bởi vì MSE của mô hình 1 nhỏ hơn, nên ta lựa chọn mô hình này xem có phù hợp để
dự báo hay không.

*Kiểm tra mô hình 1 ARIMA (1, 1, 0):

Hình 4.14 The ACF of Residuals of ARIMA(1,1,0)

Nhận thấy các hệ số tự tương quan đều không đáng kể.

3. Câu hỏi 3
Dự báo cho 5 thời đoạn tiếp theo
Sử dụng mô hình ARIMA (1, 1, 0) để dự báo cho 5 giai đoạn tiếp theo.

42
Hình 4.15 Kết quả dự báo cho 5 thời đoạn tiếp theo

43

You might also like