Professional Documents
Culture Documents
Những phần cần biết
Những phần cần biết
Những phần cần biết
1.Cơ sở lý thuyết: Hết, đặc biệt là đánh giá ý nghĩa toàn diện và các giả định.
2.Hoạt động 1:
*Đọc dữ liệu.
- Xử lý NA: tỷ lệ NA trong tập dữ liệu thấp và sự xuất hiện NA là ngẫu nhiên nên được
phép loại bỏ những quan sát chứa NA.
*Làm rõ dữ liệu.
1/ Histogram:
Mô hình hồi quy không quy định phân phối các biến trong mô hình phải theo
một phân phối nhất định. Nhưng nếu phân phối của biến không đối xứng sẽ làm
giảm hiệu quả của mô hình hồi quy.
2/Boxplot:
Phát hiện ngoại lai.
Các ngoại lại xuất hiện trong mô hình sẽ làm sai lệch dữ liệu thống kê và giảm đi
khả năng dự đoán của mô hình vậy nên việc phát hiện và xử lý ngoại lai là một trong các
bước đầu tiên khi thành lập bất kỳ mô hình nào.
Ta có thể kiểm tra mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính
hay không, giữa các biến độc lập có tuyến tính chặt không từ đó đưa ra các bước xử lý
phù hợp.
*Dự đoán.
3.Hoạt động 2.
*Đọc.
*Làm sạch.
- Chuyển đổi biến (đổi các giá trị sang ln): để đưa dữ liệu trở thành xấp xỉ phân phối
chuẩn, quan sát biểu đồ dễ hơn (vì nó làm giảm độ chêch lệch giá trị giữa các quan sát ->
thu hẹp khoảng cách giữa các điểm trên đồ thị).
- Xử lý Inf: do dữ liệu ban đầu có giá trị vô cùng lớn nên khi lấy ln sẽ cho ra giá trị Inf ->
cần xử lý -> xử lý giống NA: tỷ lệ thấp và ngẫu nhiên thì được bỏ không thì phải chọn
cách xử lý khác.
*Làm rõ.
Giống HD1.
- Đánh giá ý nghĩa toàn diện và ý nghĩa từng biến độc lập: như HD1.
- Kiểm tra overfitting: Do tập dữ liệu của mình phức tạp (nó bự và có nhiều ngoại lai) mà
mô hình của mình có hệ số hiệu chỉnh cao (nghĩa là nó giải thích được gần hết sự biến
thiên của biến phụ thuộc trong tập dữ liệu) nên mình sẽ kiểm tra overfitting. Nguyên lý là
mình chia tập ban đầu thành 2 tập con: huấn luyện (lấy 70% tập đầu) và kiểm thử (30%).
Mình lấy tập huấn luyện để làm cơ sở dữ liệu để xây dựng lại mô hình này sau đó mình
lấy mô hình mới huấn luyện đó thực hiện dự đoán trên tập huấn luyện và tập kiểm thử.
Ứng với từng kết quả dự đoán ở 2 tập mình sẽ lấy ra 2 giá trị R^2 và RMSE và so sánh.
Nếu giá trị ở 2 kết quả không khác nhiều thì không Overfitting, nếu R^2 và RMSE bên
huấn luyện cao hơn bên kiểm thử thì bị Overfitting ngược lại là bị Underfitting.
*Dự đoán.
Các giả định khác dùng trong báo cáo
H0 có nội dung là MHHQ đa biến tổng thế mà chúng ta xây dựng với tất cả
biến độc lập được đưa vào thực ra không có khả năng giải thích nào cho sự biến
thiên của biến phụ thuộc.
H1 là có ít nhất một biến độc lập trong mô hình có đóng góp vào khả năng
giải thích của mô hình.
2/ Kiểm định t – đánh giá ý nghĩa của từng biến độc lập.
H0 : β i = 0
H1 : β i ̸ = 0
3/ Kiểm định Durbin – Watson : kiểm tra giả định độc lập quan sát (tự tương
quan).
4/ Kiểm định Breusch – Pagan : kiểm tra giả định phương sai đồng nhất.
H0: Phần dư phân phối với các phương sai bằng nhau tức là giả định phương
sai đồng nhất được thỏa mãn.
H1: Phần dư phân phối với các phương sai khác nhau.