Professional Documents
Culture Documents
Regression 1
Regression 1
Trịnh Thành
thanh.trinh@phenikaa-uni.edu.vn
Phenikaa
• Introduction to Regression
• Simple Linear Regression
• Introduction to Regression
• Simple Linear Regression
Regression – Hồi quy
• Vấn đề: Xu hướng sẽ ra sao?
Hồi quy đơn biến
• Cho một sự phân bố một tập hợp các điểm, tìm một
đường thẳng hoặc một đường cong y = f(X), mà có thể
phù hợp nhất với các điểm đấy.
• Như vậyY=f(X)
nếu cho trước X, thì có thểY=f(X)
dùng hàm f(x) để
đự đoán Y
Linear Nonlinear
X
X
Hồi quy đa biến
• Cho trước:
• Một lượng lớn dữ liệu data D: N (mẫu - sample) * M
(thuộc tính – biến)
• Một thuộc tính Y có thể được dự đoán từ M-1 thuộc
tính.
• Sẽ có hàm Y = f(x1, x2,…xm-1)
• Yêu cầu:
• Xây dụng một hàm từ dữ liệu training data và sử dụng
hàm này để dự đoán giá trị của các sample mới.
• Định lượng được mối quan hệ giữa hai biến liên tục
• Dự đoán giá trị của một biến từ việc HIỂU về giá trị của
một biến khác.
• Rõ ràng, đường thằng rất hiếm phù hợp (chạy qua) toàn
bộ dữ liệu một cách chính xác, do đó luôn tồn tại lỗi liên
quan đến đường đấy
• Như vậy, chúng ta có thể xem:
• The line of best fit là đường phù
14
hợp nhất là đường giảm tối ŷ
12
đa sự mở rộng của các lỗi 10
8
6
( yi − yˆi )
4
2
0
0 2 4 6 8 10
Error – lỗi
• được gọi là lỗi (error) hay là phần dư thừa (residual)
• Đường line of best fit sẽ xác định được khi tổng lỗi bình
phương (SSE) được giảm tối đa:
n
SSE = ( yi − y
ˆ )2
i =1
• Trong đấy SSE ( Sum of the Squared Errors ): Tổng lỗi bình
phương
Ước lượng các tham số
• Góc dốc của đường thẳng :
SS xy
̂1 =
SS x
n
• Trong đấy: SSxy = ( xi − x )( yi − y )
i =1
n
SS x = ( xi − x ) 2
i =1
Ước lượng các tham số
• Chặn Y (intercept):
ˆ0 = y − ˆ1 x
• Trong đấy:
n
x
n
yi i
y= i =1 x= i =1
n n
Ví dụ:
• Cho sự phân bố giữa X (kilos) và Y (cost) như sau:
X (kg) Y(cost)
21 150
35 160
39 162
50 149
65 170
Ví dụ:
• X trung bình:x = 37.83
• Y trung bình y = 153.83
• Tổng lỗi x và y SSxy = 891.83
Y = 132.91 + 0.553X
Tính RMSE?
Số điểm dữ liệu nằm trong khoảng [13-15] là bao nhiêu
Mệnh đề nào sau đây là KHÔNG đúng
1. Thông thường mô hình phân loại được huấn luyện dựa vào
hàm loss giống mô hình hồi qui
2. Mô hình hồi quy sử dụng cho các đại lượng liên tục
3. Một mô hình học máy phân biệt được thư rác là mô hình
phân loại
4. Mô hình phân loại được sử dụng cho các đại lượng rời rạc
Mệnh đề nào sau đây KHÔNG đúng
1 Hàm loss càng nhỏ mô hình càng phù hợp với dữ liệu
2 Quá trình huấn luyện mô hình học máy là quá trình biến đổi các tham
số làm cho hàm loss tăng
3 Hàm loss là hàm cho biết sự phụ hợp của phép dự đoán của một mô
hình với các quan sát thực thế
4 Quá trình huấn luyện mô hình học máy là quá trình biến đổi các tham
số làm cho hàm loss giảm