Download as pdf or txt
Download as pdf or txt
You are on page 1of 37

Regression

Trịnh Thành
thanh.trinh@phenikaa-uni.edu.vn
Phenikaa
• Introduction to Regression
• Simple Linear Regression
• Introduction to Regression
• Simple Linear Regression
Regression – Hồi quy
• Vấn đề: Xu hướng sẽ ra sao?
Hồi quy đơn biến
• Cho một sự phân bố một tập hợp các điểm, tìm một
đường thẳng hoặc một đường cong y = f(X), mà có thể
phù hợp nhất với các điểm đấy.
• Như vậyY=f(X)
nếu cho trước X, thì có thểY=f(X)
dùng hàm f(x) để
đự đoán Y
Linear Nonlinear

X
X
Hồi quy đa biến
• Cho trước:
• Một lượng lớn dữ liệu data D: N (mẫu - sample) * M
(thuộc tính – biến)
• Một thuộc tính Y có thể được dự đoán từ M-1 thuộc
tính.
• Sẽ có hàm Y = f(x1, x2,…xm-1)

• Yêu cầu:
• Xây dụng một hàm từ dữ liệu training data và sử dụng
hàm này để dự đoán giá trị của các sample mới.

• Được là mô hình hồi quy - regression model


Kỹ thuật hồi quy
• Có 3 kỹ thuật thông thường:

• Hồi quy tuyến tính - Linear regression: dự đoán một giá


trị của Y (mang giá trị liên tuc), Linear regression là một
hàm tuyến tính của một hay nhiều biến độc lập.
• Hồi quy phi tuyến – Nonlinear regression: dự đoán một
giá trị của Y (mang giá trị liên tuc), Nonlinear regression
là một hàm phi tuyến tính của một hay nhiều biến độc
lập.
• Hồi quy logistic – Logistic regression dự đoán xác suất
của Y (giá trị nhị phân hoặc theo thứ tự), xác suất sẽ thu
được từ một hàm của một hay nhiều biến độc lập.
Các mô hình hồi quy
• Mô hình hồi quy – regression model :
Y =  + 1 X 1 +  2 X 2 +  +  n X n + 

• Sẽ không thích hợp cho biến Y là dạng 0 -1;


• Mô hình hồi quy logistic – logistic regression model.
P = P(Y = 1 | X 1 , X 2 ,, X n )
P
ln =  + 1 X 1 +  2 X 2 +  +  n X n
1− P
e (  + 1 X1 +  2 X 2 ++  n X n )
P=
1 + e (  + 1 X1 +  2 X 2 ++  n X n )
Xác định mô hình phù hợp
• Nhìn vào biến đích (Y)
• Nếu giá trị biến đích là liên tục (continuous), thì linear
regression sẽ được chọn để tính toán. Nếu linear regression
không thoả mãn kết quả, có thể chọn nonlinear regression để
tính.
• Nếu biến đích Y mang kiểu giá trị 0-1, thì logistic regression nên
được chọn
Các vấn đề
• Xác định cấu trúc mô hình
• Học từ mô hình
• Training dữ liệu
• Tính chất không tuyến tính
• Introduction to Regression
• Simple Linear Regression
• Multivariate Linear Regressions
• Logistic Regressions
• Nonlinear Regressions
Dạng Tuyến Tính - linear regression
• Hồi quy tuyến tính:
• Là phương pháp học máy có giám sát đơn giản, được
sử dụng để dự đoán (predict) giá trị đầu ra (liên tục, dạng
số).
• Là phương pháp dựa trên thống kê để thiết lập mối quan
hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến
độc lập.
Hồi quy tuyến tính đơn giản và tương
quan -
Simple linear regression and Correlation
• Hồi quy tuyến tính đơn giản và tương quan:

• Định lượng được mối quan hệ giữa hai biến liên tục
• Dự đoán giá trị của một biến từ việc HIỂU về giá trị của
một biến khác.

• Trong Simple Linear Regression, dễ dàng tạo ra một


phương trình để tình giá trị của một biến phụ thuộc (Y)
từ một biến độc lập (X).
Y = a X +b;
Regression model
• Ví dụ: Lái xe đi làm với vận tốc trung bình 60km/giờ.

• Như vậy. Có một mô hình toán học diễn tả được mối


quan hệ giữa hai biến: quãng đường7 (distance) và thời
gian (time). Time = 1  distance

Time taken (minutes)


6
5
4

Time = 1 * distance; (1) 3


2
• Hay là: 1
0
Y = a*X 0 2 4
Distance traveled (km's)
6 8
Regression model
• Tuy nhiên: Nếu mất thêm 3 phút mỗi ngày từ nhà tới nơi
để xe. Sau đấy mới lái tới công ty.
• Vậy mô hình (1) sẽ thành

Time taken (minutes)


10
9
Time = 3 + 1 * distance 8 (2)
Time = 3 + 1 * distance
 Y = b + aX
7
6
5
Y = 3+ 1*X 4
3
2
• Simple linear regression. 1
0
0 2 4 6 8
Distance traveled (km's)
Regression model
• Tuy nhiên: Quãng đường đi làm cho mỗi phút là không
chính xác bởi vì giao thông, làm đường,…. Lúc này mô
hình (2) trở thành:

Time taken (minutes)


10
Time = 3 + 1 * distance + random
9
8
Timeeffect
= 3 + 1(3)
* distance + random effect
Y = b + a*X + e; 7
6
với b= 3; a =1; 5
4
e : hệ số lỗi. 3
2
1
0
0 2 4 6 8
Distance traveled (km's)
Hồi quy tuyến tính hai biến
• Hồi quy tuyến tính hai biến – Bi-variate linear regression
model.
• Mô hình hồi quy hai biến có dạng như sau:
y =  0 + 1 x + e

• y = là biến phụ thuộc


• x = là biến độc lập the independent variable
• o = Giá trị chặn Y (intercept)
• 1 = Góc dốc của đường thằng
• e = Hệ số lỗi ngẫu nhiên (random error term)
Chọn mô hình tốt nhất
• Với dữ liệu như hình vẽ. 14 ? ? ?
• Xác định cách tính các 12
parameters của phương trình 10
y =  0 + 1 x + e 8
6
4
• Chúng ta cần tìm đường phù 2
hợp với dữ liệu nhất. (the line 0
of best fit)
0 2 4 6 8 10
The line of best fit - đường phù hợp nhất

• Rõ ràng, đường thằng rất hiếm phù hợp (chạy qua) toàn
bộ dữ liệu một cách chính xác, do đó luôn tồn tại lỗi liên
quan đến đường đấy
• Như vậy, chúng ta có thể xem:
• The line of best fit là đường phù
14
hợp nhất là đường giảm tối ŷ
12
đa sự mở rộng của các lỗi 10
8
6
( yi − yˆi )
4
2
0
0 2 4 6 8 10
Error – lỗi
• được gọi là lỗi (error) hay là phần dư thừa (residual)

• Đường line of best fit sẽ xác định được khi tổng lỗi bình
phương (SSE) được giảm tối đa:
n
SSE =  ( yi − y
ˆ )2
i =1

• Trong đấy SSE ( Sum of the Squared Errors ): Tổng lỗi bình
phương
Ước lượng các tham số
• Góc dốc của đường thẳng :
SS xy
̂1 =
SS x
n
• Trong đấy: SSxy =  ( xi − x )( yi − y )
i =1

n
SS x =  ( xi − x ) 2
i =1
Ước lượng các tham số
• Chặn Y (intercept):
ˆ0 = y − ˆ1 x
• Trong đấy:
n

x
n

 yi i

y= i =1 x= i =1

n n
Ví dụ:
• Cho sự phân bố giữa X (kilos) và Y (cost) như sau:

X (kg) Y(cost)

• Yêu cầu tìm mô hình 17 132

21 150

35 160

39 162

50 149

65 170
Ví dụ:
• X trung bình:x = 37.83
• Y trung bình y = 153.83
• Tổng lỗi x và y SSxy = 891.83

SSx = 1612 .83


• Tổng lỗi bình phương X:

• Vậy góc dốc: ˆ1 =


SS xy
=
891 .83
= 0.533
SSx 1612 .83

• Ta có ˆ0 = y − ˆ1 x = 153.83 − 0.553  37.83 = 132.91

• Phương trình (mô hình): Y = 132.91 + 0.553X


• Dự đoán được góc dốc là 0.553. Nghĩa là mõi thay đổi của X
trong phạm vi 1kg thì Y sẽ thay đổi là 0.553 $.

Y = 132.91 + 0.553X

• Và Nếu X =0; thì Y = ?


• Tính được SSxy và SSx , hai giá trị Beta
Tính sai số
• MAE : Mean absolute error
• MSE: Mean squared error
• RMSE: root mean squared error
R-squared 2
(R )
• SSR: Sum of squared regression
• SST: Sum of squared total or total sum of squares
• Xây dựng mô hình hồi quy tuyến tính để dự báo mức độ tiêu thụ nhiên
liệu phụ thuộc vào công suất (x1) và trọng lượng của xe (x2): y = wo +
w1 * x1 + w2 * x2.
• Kết quả phân tích cho thấy wo = 46.187, w1 = -0.042, w2 = -0.006.
• Tính mức tiêu thụ nhiên liệu cho 2 xe có thông số như sau:
• (1) x1 = 90.000, x2 = 2556.000; (2) x1 = 61.000, x2 = 2003.000.
• Cho một tập dữ liệu có 2 phân lớp: Lớp A chiếm 60%, lớp B
chiếm 40%.
• Tập dữ liệu này chạy qua mô hình học máy. Mô hình này dự
đoán được lớp A đúng 70%, lớp B đúng 90%.
• Hỏi độ chính xác của Mô hình đối với toàn tập dữ liệu
Nghiên cứu sự phụ thuộc của mức thu nhập (X) vào số năm kinh
nghiệm (y).
Giả sử y phụ thuộc vào X như sau: y_hat = a * X + b. Sau khi
huấn luyện mô hình,
người ta thu được giá trị dự đoán như sau: y_pred = [-0.892 -
1.931 2.341 2.343 3.295 -7.034 -1.192 2.189 -4.892 7.383].
Biết giá trị thực tế của thu nhập như sau: y = [-1.165 -2.056
2.619 2.022 3.017 -6.891 -0.640 2.293 -5.102 7.511].

Tính RMSE?
Số điểm dữ liệu nằm trong khoảng [13-15] là bao nhiêu
Mệnh đề nào sau đây là KHÔNG đúng
1. Thông thường mô hình phân loại được huấn luyện dựa vào
hàm loss giống mô hình hồi qui
2. Mô hình hồi quy sử dụng cho các đại lượng liên tục
3. Một mô hình học máy phân biệt được thư rác là mô hình
phân loại
4. Mô hình phân loại được sử dụng cho các đại lượng rời rạc
Mệnh đề nào sau đây KHÔNG đúng
1 Hàm loss càng nhỏ mô hình càng phù hợp với dữ liệu
2 Quá trình huấn luyện mô hình học máy là quá trình biến đổi các tham
số làm cho hàm loss tăng
3 Hàm loss là hàm cho biết sự phụ hợp của phép dự đoán của một mô
hình với các quan sát thực thế
4 Quá trình huấn luyện mô hình học máy là quá trình biến đổi các tham
số làm cho hàm loss giảm

You might also like