Mô Hình Linear Regression

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 2

MÔ HÌNH LINEAR REGRESSION

Giải thích vì sao chọn hàm Means Squared Error (MSE) cho mô hình Linear Regression?
Viết theo phong cách Problem - Why - Solution cho các ứng viên hàm độ lỗi.

Problem Why Solution


Xây dựng hàm độ lỗi Đo độ chênh lệch giữa 𝑦 và 𝑦̃ Lấy hiệu: 𝐿(𝑦̃, 𝑦) = 𝑦̃ − 𝑦
Không thỏa mãn không âm 𝑦̃ − 𝑦 có thể < 0 Lấy trị tuyệt đối của hiệu:
𝐿(𝑦̃, 𝑦) = |𝑦̃ − 𝑦|
Không thuận tiện cho việc cực Đạo hàm không liên tục Lấy bình phương của hiệu:
tiểu hóa 𝐿(𝑦̃, 𝑦) = (𝑦̃ − 𝑦)2
Thuận tiện hơn trong việc tính Có bình phương 1
Nhân 2:
đạo hàm 1
𝐿(𝑦̃, 𝑦) = (𝑦̃ − 𝑦)2
2
Tăng tính chính xác, bao quát Xác định độ lỗi cần được thực Tính tổng độ lỗi các mẫu dữ
hiện trên nhiều mẫu dữ liệu liệu:
𝑛
1 2
𝐿(𝑦̃, 𝑦) = ∑(𝑦̃ (𝑖) − 𝑦 (𝑖) )
2
𝑖=1
Chưa thể hiện được độ lỗi thực Độ lỗi cần thể hiện trung bình Chia trung bình cho số mẫu n:
𝑛
tế sai số từng mẫu dữ liệu 1 2
𝐿(𝑦̃, 𝑦) = ∑(𝑦̃ (𝑖) − 𝑦 (𝑖) )
2𝑛
𝑖=1

Trong mô hình hồi quy tuyến tính, dữ liệu đầu ra phụ thuộc tuyến tính với dữ liệu đầu vào. Biểu
đồ thường được vẽ để trực quan hóa xu hướng chung của toàn bộ dữ liệu.

Hàm độ lỗi trả về một số không âm thể hiện mức độ chênh lệch giữa giá trị mô hình của chúng ta
dự đoán và giá trị thực tế. Mức độ chênh lệch ở đây chính là tất cả các đường màu xanh được biểu
diễn như hình trên. Vậy, ta sẽ có một hàm thể hiện trung bình tổng các đại lượng sai lệch.
Một trong những hàm độ lỗi được sử dụng phổ biến cho bài toán hồi quy là khoảng cách Euclid
Giá trị trung bình của khoảng cách từ mỗi điểm đến mô hình hồi quy dự đoán được tính toán và
hiển thị dưới dạng sai số bình phương trung bình (Mean Squared Error). Ở đây, bình phương là
bước quan trọng để giảm độ phức tạp với các dấu âm.
Việc xác định độ lỗi của mô hình cần được thực hiện trên nhiều mẫu dữ liệu huấn luyện → Hàm
độ lỗi cần được tính bằng trung bình sai số cho từng mẫu dữ liệu huấn luyện. Nếu như không chia
trung bình cho số mẫu, độ lỗi sẽ trở nên thiếu thực tế.
Công thức độ lỗi được chia thêm cho 2 là để thuận tiện cho bước tính đạo hàm.

You might also like