Những phần cần biết

Những phần cần biết:
1.Cơ sở lý thuyết: Hết, đặc biệt là đánh giá ý nghĩa toàn diện và các giả định.
2.Hoạt động 1:
*Đọc dữ liệu.
*Làm sạch dữ liệu.
- Xử lý NA: tỷ lệ NA trong tập dữ liệu thấp và sự xuất hiện NA là ngẫu nhiên nên được
phép loại bỏ những quan sát chứa NA.
*Làm rõ dữ liệu.
Các giá trị thống kê:

Các biểu đồ:
1/ Histogram:
Nhận biết phân phối của biến.
Mô hình hồi quy không quy định phân phối các biến trong mô hình phải theo
một phân phối nhất định. Nhưng nếu phân phối của biến không đối xứng sẽ làm
giảm hiệu quả của mô hình hồi quy.
2/Boxplot:
Phát hiện ngoại lai.
Các ngoại lại xuất hiện trong mô hình sẽ làm sai lệch dữ liệu thống kê và giảm đi
khả năng dự đoán của mô hình vậy nên việc phát hiện và xử lý ngoại lai là một trong các
bước đầu tiên khi thành lập bất kỳ mô hình nào.
3/Biểu đồ phân tán (scatter plot):
Quan sát sự tương quan giữa các biến.
Ta có thể kiểm tra mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính
hay không, giữa các biến độc lập có tuyến tính chặt không từ đó đưa ra các bước xử lý
phù hợp.
*Xây dựng mô hình.
Phép so sánh hiệu quả 2 mô hình:
H_0: 2 mô hình hiệu quả bằng nhau
H_1: 2 mh hq khác nhau
Dùng lệnh anova() để thu được p-value.
*Kiểm tra các giả định: đọc CSLT
*Dự đoán.
3.Hoạt động 2.
*Đọc.
*Làm sạch.
- Chuyển đổi biến (đổi các giá trị sang ln): để đưa dữ liệu trở thành xấp xỉ phân phối
chuẩn, quan sát biểu đồ dễ hơn (vì nó làm giảm độ chêch lệch giá trị giữa các quan sát ->
thu hẹp khoảng cách giữa các điểm trên đồ thị).
- Xử lý NA: giống như HD1
- Xử lý Inf: do dữ liệu ban đầu có giá trị vô cùng lớn nên khi lấy ln sẽ cho ra giá trị Inf ->
cần xử lý -> xử lý giống NA: tỷ lệ thấp và ngẫu nhiên thì được bỏ không thì phải chọn
cách xử lý khác.
*Làm rõ.
Giống HD1.
*Xây dựng mô hình:
- Đánh giá ý nghĩa toàn diện và ý nghĩa từng biến độc lập: như HD1.
- Kiểm tra overfitting: Do tập dữ liệu của mình phức tạp (nó bự và có nhiều ngoại lai) mà
mô hình của mình có hệ số hiệu chỉnh cao (nghĩa là nó giải thích được gần hết sự biến
thiên của biến phụ thuộc trong tập dữ liệu) nên mình sẽ kiểm tra overfitting. Nguyên lý là
mình chia tập ban đầu thành 2 tập con: huấn luyện (lấy 70% tập đầu) và kiểm thử (30%).
Mình lấy tập huấn luyện để làm cơ sở dữ liệu để xây dựng lại mô hình này sau đó mình
lấy mô hình mới huấn luyện đó thực hiện dự đoán trên tập huấn luyện và tập kiểm thử.
Ứng với từng kết quả dự đoán ở 2 tập mình sẽ lấy ra 2 giá trị R^2 và RMSE và so sánh.
Nếu giá trị ở 2 kết quả không khác nhiều thì không Overfitting, nếu R^2 và RMSE bên
huấn luyện cao hơn bên kiểm thử thì bị Overfitting ngược lại là bị Underfitting.
*Kiểm tra giả địnhh: Đọc CSLT
*Dự đoán.
Các giả định khác dùng trong báo cáo
1/ Kiểm định F - Kiểm tra ý nghĩa toàn diện của mô hình.
H0 có nội dung là MHHQ đa biến tổng thế mà chúng ta xây dựng với tất cả
biến độc lập được đưa vào thực ra không có khả năng giải thích nào cho sự biến
thiên của biến phụ thuộc.
H1 là có ít nhất một biến độc lập trong mô hình có đóng góp vào khả năng
giải thích của mô hình.
2/ Kiểm định t – đánh giá ý nghĩa của từng biến độc lập.
H0 : β i = 0
H1 : β i ̸ = 0
3/ Kiểm định Durbin – Watson : kiểm tra giả định độc lập quan sát (tự tương
quan).
Giả thiết không H0: không có hiện tượng tự tương quan
Giả thiết đối H1: tồn tại tự tương quan
4/ Kiểm định Breusch – Pagan : kiểm tra giả định phương sai đồng nhất.
H0: Phần dư phân phối với các phương sai bằng nhau tức là giả định phương
sai đồng nhất được thỏa mãn.
H1: Phần dư phân phối với các phương sai khác nhau.

Những phần cần biết

Uploaded by

Copyright:

Available Formats

You might also like

Những phần cần biết

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Những phần cần biết

Uploaded by

Copyright:

Available Formats

Những phần cần biết:

*Làm sạch dữ liệu.

Các giá trị thống kê:

Nhận biết phân phối của biến.

3/Biểu đồ phân tán (scatter plot):

Quan sát sự tương quan giữa các biến.

*Xây dựng mô hình.

Phép so sánh hiệu quả 2 mô hình:

H_0: 2 mô hình hiệu quả bằng nhau

H_1: 2 mh hq khác nhau

Dùng lệnh anova() để thu được p-value.

*Kiểm tra các giả định: đọc CSLT

- Xử lý NA: giống như HD1

*Xây dựng mô hình:

*Kiểm tra giả địnhh: Đọc CSLT

1/ Kiểm định F - Kiểm tra ý nghĩa toàn diện của mô hình.

Giả thiết không H0: không có hiện tượng tự tương quan

Giả thiết đối H1: tồn tại tự tương quan

You might also like