Phân Tích H I Quy

Nội dung
Regression 1. Giới thiệu mô hình hồi quy

2. Hồi quy tuyến tính
(Hồi quy) 3. Hồi quy phi tuyến
Nguyễn Thanh Tùng
Bài giảng của DSLab
Viện nghiên cứu cao cấp về Toán (VIASM)
https://www.facebook.com/tungntdhtl
Các dạng giải thuật học máy Mô hình Hồi quy

Do you have
Yes
labeled data?
No • Xét:
Supervised Unsupervised • Các phương pháp học giám sát:
What do you want to predict? Do you want to group the data? – Học bởi các ví dụ (quan sát)-“Learn by example”
Category Quantity Yes No
– Xây dựng mô hình sử dụng tập các quan sát đã
Classification Regression Cluster Dimensionality được gắn nhãn
Analysis Reduction
SVM KNN CART LASSO
Logistic Linear K-means
Regression Regression ICA PCA – Y có kiểu dữ liệu liên tục
3 4
Ví dụ về hồi quy Ví dụ về hồi quy
Cho bảng dữ liệu thông tin nhiên
liệu như sau:
VNA392=read.csv("data/VNA392_
HANSGN_2016_1.csv")
Bài toán đặt ra: liệu có thể
dự đoán nhiên liệu do phi attach(VNA392)
công lựa chọn (FUEL_ORDER)
plot(BLOCK_FUEL, FUEL_ORDER,
của mỗi chuyến bay dựa vào pch=16)
nhiên liệu do máy tính cung
cấp (BLOCK_FUEL)?
5 6
Mô hình Hồi quy Hàm tổn thất

• Giải thuật học L(qi ,qî )
– Lấy hàm ước lượng “tốt nhất” trong tập các hàm
Sai số bình phương (Squared
å(q -qˆ )i i
2
• Ví dụ: Hồi quy tuyến tính error)

i
– Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập

các hàm tuyến tính
Sai số tuyệt đối (Absolute error)
å q - qˆ
i i
i
7 8
Đo hiệu năng bài toán hồi quy
Bài toán Hồi quy • Hàm tổn thất (Loss function): loại hàm dùng để đo
lường sai số của mô hình
• Vd: Sai số bình phương trung bình (Mean squared
error - MSE)
– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy
argument minimum: Cho giá trị nhỏ nhất của 1 hàm số trong miền xác định
– Tập trung đo các sai số lớn hơn là các sai số nhỏ

9 10
Nội dung Hồi quy tuyến tính

1. Giới thiệu mô hình hồi quy • Hồi quy tuyến tính: là phương pháp học máy có giám sát
đơn giản, được sử dụng để dự đoán giá trị biến đầu ra
2. Hồi quy tuyến tính dạng số (định lượng)
3. Hồi quy phi tuyến
– Nhiều phương pháp học máy là dạng tổng quát hóa
của hồi quy tuyến tính
– Là ví dụ để minh họa các khái niệm quan trọng trong bài

toán học máy có giám sát
11 12
Hồi quy tuyến tính Hồi quy tuyến tính đơn giản
• Tại sao dùng hồi quy tuyến tính?
• Biến đầu ra Y và biến đầu vào X có mối
– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luật
hàm bậc nhất quan hệ tuyến tính giữa X và Y như sau:
– Tìm một mô hình (phương trình) để mô tả một mối liên
quan giữa X và Y
– Ta có thể biến đổi các biến đầu vào để tạo ra mối quan hệ • Các tham số của mô hình:
tuyến tính
– Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sử hệ số chặn (khi các xi=0)
dụng cho bài toán suy diễn độ dốc
13 14
Hồi quy tuyến tính đơn giản Hồi quy tuyến tính đơn giản
y-axis y-axis
(x2, y2) (x2, y2)
(x1, y1) (x1, y1)

x-axis x-axis
0 Cho hai điểm (x1, y1) và (x2, y2) 0 • Tìm gradient (slope): độ dốc.
Làm sao để "phát triển" một phương trình nối 2 điểm này? • Tìm hệ số chặn (intercept) (hệ số khởi đầu của y khi x=0)
15 Tuan V. Nguyen 16 Tuan V. Nguyen
Hồi quy tuyến tính đơn giản Hồi quy tuyến tính đơn giản
hệ số chặn
y = f ( x ) = b1 x + b 0
• β0 và β1 chưa biết àTa ước tính giá trị của
độ dốc
chúng từ dữ liệu đầu vào
• Lấy sao cho mô hình đạt “xấp xỉ tốt nhất”

(“good fit”) đối với tập huấn luyện
Figure 3.1 , ISL 2013
17 18
Các giả định Đường thẳng phù hợp nhất

• Mối liên quan giữa X và Y là tuyến tính (linear) về tham số Cho tập dữ liệu đầu vào, ta cần tìm cách tính toán các
• X không có sai số ngẫu nhiên tham số của phương trình đường thẳng
?
14 ?
• Giá trị của Y độc lập với nhau (vd, Y1 không liên quan với Y2) ; 12
?
10
• Sai số ngẫu nhiên (ε): phân bố chuẩn, trung bình 0, phương 8
sai bất biến 6
4
2
ε ~ N(0, s2) 0
0 2 4 6 8 10
19 20
Bình phương nhỏ nhất Đường thẳng phù hợp nhất
Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu,
• Thông thường, để đánh giá độ phù hợp của mô
do vậy luôn tồn tại lỗi gắn liền với đường thẳng
hình từ dữ liệu quan sát ta sử dụng phương pháp Đường thẳng phù hợp nhất là đường giảm thiểu độ dao
bình phương nhỏ nhất (least squares) động của các lỗi này
• Lỗi bình phương trung bình (Mean squared error):
14
12 ŷ
10
8
6
( yi - yˆ i )
4
2
0
0 2 4 6 8 10
21 22
Phần dư (lỗi) Ước lượng tham số

Biểu thức (yi - ŷ ) được gọi là lỗi hoặc phần dư • Các ước số tính được bằng cách cực
tiểu hóa MSE
ei = (yi- ŷ )
Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi là
nhỏ nhất SS xy
n
• Hệ số chặn của đường thẳng b̂1 =
SS x
SSE = å ( yi - yˆ ) 2 n n
i =1 trong đó: SS xy = å ( xi - x )( yi - y ) và SS x = å ( xi - x ) 2
i =1 i =1
23 24
Ước lượng tham số Hồi quy tuyến tính đơn giản
Hệ số chặn của đường thẳng
bˆ0 = y - bˆ1 x
trong đó n n
å yi åx i
y= i =1
x= i =1
n n
25 26
Phương pháp đánh giá Ví dụ

X Y
kilograms cost $
, 7 x = 37.83 SS xy 891.83
1 1 17 132 bˆ1 = = = 0.533
!"#$ = ((.) − .0) )2 ; "4$ = ( |Y6 − Y
:6 | 21 150 y = 153.83 SS x 1612.83
' N
)*+ 6*+ 35 160 SS xy = 891 .83
39 162 bˆ0 = y - bˆ1 x = 153.83 - 0.553´ 37.83 = 132.91
2
và ! = 1 − ∑,
)*+(.) − .0) )⁄∑,
)*+(.) − .?) ) . 50 149 SS x = 1612.83
65 170
phương trình tìm được là
Y = 132.91 + 0.553*X
27 28
Diễn giải tham số Diễn giải tham số
b̂ 0 là hệ số chặn của Y. Nghĩa là, điểm mà đường
Trong ví dụ trước, tham số ước lượng b̂1 của độ dốc là 0.553. Điều
thẳng cắt trục tung Y. Trong ví dụ này là $132.91
này có nghĩa là khi thay đổi 1 kg của X, giá của Y thay đổi 0.553 $
$132.91
Đây là giá trị của Y khi X = 0
29 30
Ước tính bằng R Phân tích bằng R

• Chúng ta muốn ước tính mối liên quan giữa # Phân tích hồi qui tuyến tính
lượng nhiên liệu cung cấp bởi máy tính m1=lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392)
(Block_Fuel) và nhiên liệu do phi công lựa chọn summary(m1)
(Fuel_order).
• Mô hình hồi qui tuyến tinh:
# vẽ biểu đồ
Fuel_order= β0 + β1 *Block_Fuel + ε
plot(VNA392$BLOCK_FUEL, VNA392$FUEL_ORDER,
•R
pch=16, col="blue", xlab = "Block_fuel", ylab =
lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392)
"Fuel_Order")
abline(m1, col="red")
31 32
Diễn giải kết quả
m1=lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392)
Phân tích bằng R

summary(m1)
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1057.4 -326.2 -100.2 274.8 1820.0
Estimate Std. Error t value Pr(>|t|)
Coefficients: (Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 ***
Estimate Std. Error t value Pr(>|t|) BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 ***
(Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 ***
BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 • Nhớ rằng mô hình là:
Residual standard error: 556.8 on 52 degrees of freedom FUEL_ORDER= β0 + β1 * BLOCK_FUEL
Multiple R-squared: 0.7422, Adjusted R-squared: 0.7372
F-statistic: 149.7 on 1 and 52 DF, p-value: < 2.2e-16 • Phương trình:
R2 (hệ số xác định): là chỉ số rất có ích trong mô hình hồi qui tuyến Enh. FUEL_ORDER = 3680 + 0.711* BLOCK_FUEL
R2 ×100 có nghĩ là phần trăm variaPon của biến y có thể giải thích bởi biến x • Ý nghĩa: phi công tăng 1000 kg mỗi khi chương trình máy
R2 =1: tất cả dữ liệu có mối liên hệ xác định tính tăng 711 kg nhiên liệu cho từng chuyến bay.
R2 =0: Không có mối quan hệ nào giữa X và Y. Mối tương quan này có ý nghĩa thống kê (P < 0.0001)
33 34
Hồi quy tuyến tính đa biến Hồi quy tuyến tính đa biến
• Hồi quy tuyến tính đa biến: mô hình có nhiều hơn 1
biến dùng để dự đoán biến đích
35 36
Hồi quy tuyến tính đa biến Bình phương nhỏ nhất
• Diễn giải hệ số βj : • Tìm các ước số bằng phương pháp bình phương nhỏ
khi tăng Xj lên một đơn vị è Y sẽ tăng trung bình một lượng là βj nhất
• Giải phương trình để tìm :
37 38
Hồi quy tuyến tính đa biến Ví dụ

Cho
é6 ù é1 3 9 16 ù
ê1 é bˆ0 ù
ê9 ú
ê 6 13 13úú ê ú
ê ú ê bˆ ú
ê12 ú ê1 4 3 17 ú ˆ
X =ê ú β =ê 1ú
y=ê ú
ê5 ú ê1 8 2 10 ú ê bˆ2 ú
ê13 ú ê1 3 4 9 ú êˆ ú
ê ú ëb3 û
ê ú êë1 2 4 7 úû
ëê2 ûú
39 40
Ví dụ Ví dụ é 47 ù
é 2.59578 - 0.15375 - 0.01962 - 0.13737 ù
ê- 0.15375 ê203ú
0.03965 - 0.00014 - 0.00144 úú
é1 1 1 1 1 1ù b = (X X ) X y = ê
ˆ T -1 T ê ú
ê3 6 ê- 0.01962 - 0.00431 ú ê277ú
8 3 2úú
- 0.00014 0.01234
4 ê ú ê ú
X T
=ê ë- 0.13737 - 0.00144 - 0.00431 0.01406 û ë598û
ê 9 13 3 2 4 4ú
ê ú é 3.20975 ù
ê- 0.07573ú
ë16 13 17 10 9 7 û
=ê ú
ê- 0.11162ú
ê ú
é6 26 35 72 ù é 47 ù ë 0.46691 û
ê26 ê203ú
138 153 315 úú
X X =ê
T
XTy = ê ú bˆ0 = 3.20975 bˆ1 = -0.07573 bˆ2 = -0.11162 bˆ3 = 0.46691
ê35 153 295 448 ú ê277ú
ê ú ê ú
ë72 315 448 944û ë598 û yˆ = 3.20975 - 0.07573 x1 - 0.11162 x2 + 0.46691x3
41 42
Hồi quy tuyến tính

• Ưu điểm:
m2<-
– Mô hình đơn giản, dễ hiểu
– Dễ diễn giải hệ số hồi quy lm(FUEL_ORDER ~ .,
– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ data = VNA392)
– Nhiều cải tiến/mở rộng
pairs(VNA392)
• Nhược điểm:
– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá
trị rộng
– Khả năng ngoại suy (extrapolation) kém Coefficients:
– Nhạy cảm với dữ liệu ngoại lai (outliers) – do dung phương pháp bình (Intercept) ACAR_OUT_FUEL ACAR_OFF_FUEL ACAR_ON_FUEL ACAR_IN_FUEL BLOCK_FUEL
phương nhỏ nhất 6.743e+02 8.724e-05 8.476e-01 1.225e-01 7.307e-03 3.569e-02
43 44
Nội dung
1. Giới thiệu mô hình hồi quy
2. Hồi quy tuyến tính
Q?&A! 3. Hồi quy phi tuyến
45 46
Phương pháp kết

Cây phân loại và hồi quy
hợp các mô hình Classification and Regression Trees
(ensemblem models) (CART)
47 48
Xây dựng cây CART thế nào? Mô hình liên tục từng đoạn(piecewise)
Có 2 dạng: • Dự đoán liên tục trong mỗi vùng
1.Hồi quy
2.Phân loại (lớp)
Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009.
49 50
Mô hình liên tục từng đoạn Minh họa cây CART own_rent_family=1,3
Hồi quy
persons_in_house>=2.5 persons_under_18>=0.5
income>=2.5 persons_in_house>=3.5 job=1,2,3,4,5,6,8,9

1.241
job=1,2,3,4,5,6,8,9 1.908 2.461 residence_time>=2.
1.446 2.651
1.843 3.8 2.421 3.8
Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009.
51 52
Minh họa cây CART Cây hồi quy
Phân lớp
Giá trị dự đoán lưu tại lá của cây hồi quy. Nó được >nh bằng
giá trị trung bình của tất cả các mẫu (bản ghi) tại lá đó.
53 54
Cây hồi quy Cây hồi quy

• Giả sử ta có 2 vùng R1 và R2 với Yˆ1 = 10, Yˆ2 = 20 • Cho 2 biến đầu vào
và 5 vùng
• Với các giá trị của X mà X Î R1 ta sẽ có giá trị • Tùy theo từng vùng
dự đoán là 10, ngược lại X Î R2 ta có kết quả dự của giá trị mới X ta
đoán là 20. sẽ có dự đoán 1
trong 5 giá trị cho Y.
55 56
Tách các biến X Tách các biến X
Ta tạo ra các phân 1. Đầu tiên tách
vùng bằng cách tách trên X1=t1
lặp đi lặp lại một

trong các biến X
thành hai vùng
57 58

1. Đầu tiên tách 1. Đầu tiên tách
trên X1=t1 trên X1=t1
2. Nếu X1<t1, 2. Nếu X1<t1,
tách trên X2=t2 tách trên X2=t2
3. Nếu X1>t1,
tách trên X1=t3
59 60
1. Đầu tiên tách
trên X1=t1
2. Nếu X1<t1,
tách trên X2=t2
3. Nếu X1>t1, • Khi ta tạo các vùng theo
tách trên X1=t3 phương pháp này, ta có thể
4. Nếu X1>t3, biểu diễn chúng dùng cấu trúc
tách X2=t4 cây.
• Phương pháp này dễ diễn giải
mô hình dự đoán, dễ diễn giải
kết quả
61 62
Ưu điểm của CART Nhược điểm của CART

• Dễ xử lý dữ liệu thiếu (surrogate splits)
• Mạnh trong xử lý dữ liệu chứa thông tin rác • Cây không ổn định (Instability of trees)
(non-informative data) • Thiếu Hnh trơn (Lack of smoothness)
• Cho phép tự động lựa chọn thuộc tính (variable
selection)
• Khó nắm bắt độ cộng Hnh (Hard to capture
• Dễ giải thích, lý tưởng để giải thích “tại sao” đối với addiRvity)
người ra quyết định
• Xử lý được tính tương tác cao giữa các thuộc tính
63 64
Random
forest
Ensemble Models
Fernández-Delgado, Manuel, et al. "Do we need hundreds of classifiers to solve real world classification
problems?." The Journal of Machine Learning Research15.1 (2014): 3133-3181.
Kết luận của nghiên cứu trên của nhóm Manuel là phương
65 66
pháp Random Forests hầu hết cho kết quả tốt nhất.
Bootstrap là gì? Bootstrap là gì?

• Giả sử ta có 5 quả bóng gắn nhãn A,B,C,D, E và bỏ tất cả chúng vào trong 1
• Bootstrap là phương
cái giỏ.
pháp lấy mẫu có hoàn lại
• Lấy ra ngẫu nhiên 1 quả từ giỏ và ghi lại nhãn, sau đó bỏ lại quả bóng vừa
(sampling with
bốc được vào giỏ.
replacement)-> một
• Tiếp tục lấy ra ngẫu nhiên một quả bóng và lặp lại quá trình trên cho đến khi
mẫu có thể xuất hiện
việc lấy mẫu kết thúc. Việc lấy mẫu này gọi là lấy mẫu có hoàn lại.
nhiều lần trong một lần
• Kết quả của việc lấy mẫu như trên có thể như sau (giả sử kích thước mẫu là
lấy mẫu
10):
C, D, E, E, A, B, C, B, A, E
Nguồn: bis.net.vn/forums
67 68
Bootstrap là gì?
• Là kỹ thuật rất quan trọng trong thống kê
Các phương pháp kết hợp: Bagging
• Lấy mẫu có hoàn lại từ tập dữ liệu ban
đầu để tạo ra các tập dữ liệu mới
69 70
Bagging là gì? Bagging là gì?

“Bootstrap Aggregation”
“Bootstrap Aggregation”
+ +
71 72
Bagging Bagging
Giải quyết được tính thiếu ổn
định của CART • Lấy mẫu tập dữ liệu huấn
luyện theo Bootstrap để tạo ra
tập hợp các dự đoán.
+ +
73 74
Bagging Bagging
• Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán.
HasCe, Trevor, et al. The elements of staCsCcal learning. Vol. 2. No. 1. New
York: Springer, 2009.
Hastie, Trevor, et al. The

elements of statistical
• Lấy trung bình (hoặc bình chọn theo số đông- majority vote) các bộ dự đoán learning. Vol. 2. No. 1. New
độc lập.
• Bagging giảm phương sai (variance) và giữ bias.
75 76
Bagging
Original Data 1 2 3 4 5 6 7 8 9 10
Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9
Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2
Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7
• Lấy mẫu có hoàn lại Bonus! Out-of-bag cross-validation

• Xây dựng bộ phân lớp trên mỗi mẫu bootstrap
• Mỗi mẫu bootstrap chứa xấp xỉ 63.2% số lượng mẫu trong
tập dữ liệu ban đầu
• Số lượng mẫu còn lại (36.8%) được dùng để kiểm thử
77 78
Các mẫu Out-of-bag (OOB) Dự đoán mẫu OOB

• Quá trình Bootstrapping: • Với mỗi mẫu, tìm các cây mà nó là OOB.
• Dự đoán giá trị của chúng từ các cây này.

• Ước lượng lỗi dự đoán của cây (bagged trees) dùng tất cả
• Mỗi cây chỉ sử dụng một tập con các mẫu huấn
luyện (trung bình số mẫu ~2/3). các dự đoán OOB.
• Số mẫu cho OOB khoảng ~1/3 của cây quyết định. • Tương tự như kỹ thuật kiểm tra chéo (cross-validation).
79 80
Động lực để có Random forest
• Mô hình dựa trên cây phân loại và hồi quy (CART).
Phương pháp Rừng ngẫu nhiên • Các mô hình cây có lỗi bias thấp, tuy nhiên phương sai lại
Random Forests (RF) cao (high variance).
• Phương pháp Bagging dùng để giảm phương sai.
81 82
Nhắc lại: Bagging Bagged trees vs. random forests

• Phương pháp Bagging biểu thị sự biến thiên (variability) giữa
• Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các cây bởi việc chọn mẫu ngẫu nhiên từ dữ liệu huấn luyện.
các dự đoán. • Cây được sinh ra từ phương pháp Bagging vẫn có tương
quan lẫn nhau, do đó hạn chế trong việc giảm phương sai.
Hastie, Trevor, et al. The elements of statistical
learning. Vol. 2. No. 1. New York: Springer, 2009.
…
Random forests đưa ra thêm tính ngẫu nhiên (randomness):
• Làm giảm mối tương quan giữa các cây bằng cách lấy ngẫu
• Lấy trung bình (hoặc bình chọn theo số đông-
majority vote) các bộ dự đoán độc lập. nhiên các biến khi tách nút của cây.
• Bagging giảm phương sai (variance) và giữ bias.

83 84
Các biến dùng cho tách nút Các biến dùng cho tách nút
Số lượng biến dùng để tách nút (khả tách)
Lấy thuộc tính ngẫu nhiên

Has$e, Trevor, et al. The elements of sta$s$cal
85 86
Rừng ngẫu nhiên Rừng ngẫu nhiên

Tập dữ liệu huấn luyện Lấy ngẫu Bước 1:
D nhiên Tạo dữ liệu ngẫu nhiên
D =(Xi, Yi), i=1..p (mẫu bootstrap)
p: #chiều, N: #mẫu
Bước 2: D1 D2 .... D K-1 DK

Sử dụng các tập con dữ liệu
lấy mẫu ngẫu nhiên để xây
dựng cây T1 T2 TK-1 TK
Bước 3: •Phân lớp: Bình chọn theo số đông

•Hồi quy: Lấy trung bình giá trị dự
Kết hợp các cây T*
đoán từ các cây Ti (i=1..K)
Introduction to Data Mining – Tan, Steinbach, Kumar
87 88
Các tham số chính Số lượng biến khả tách
Các tham số quan trọng của Rừng ngẫu nhiên:
Giá trị mặc định
• Số lượng biến khả tách tại mỗi nút ( )
Bài toán phân lớp =
• Độ sâu của từng cây trong rừng (số lượng mẫu tối thiểu
tại mỗi nút của cây-minimum node size)
Bài toán hồi quy =
• Số lượng cây trong rừng
gói randomForest trong R dùng mtry
89 90
Độ sâu của từng cây Độ sâu của cây

(số lượng mẫu tối thiểu tại mỗi nút của cây)
Giá trị mặc định

Bài toán phân lớp 1
Bài toán hồi quy 5
91 92
Số lượng cây trong rừng Các tính năng khác của RF
• Các mẫu Out-of-bag (OOB)

• Độ quan trọng của biến (Variable

importance measurements)
• Thêm nhiều cây không gây ra overfitting.
93 94
Độ quan trọng của biến Độ quan trọng của biến

Dạng 2:
Dạng 1:
Độ tăng lỗi dự đoán tổng thể khi các giá trị của biến được
Độ giảm của lỗi dự đoán hoặc impurity từ các điểm tách nút hoán vị ngẫu nhiên giữa các mẫu.
liên quan đến các biến đó, cuối cùng lấy trung bình trên các
cây trong rừng.
95 96
Ví dụ về độ quan trọng của biến
• Cả 2 dạng biểu thị gần giống nhau, tuy nhiên có sự
library(randomForest)
khác biệt về xếp hạng các biến: rf=randomForest(FUEL_ORDER ~ ., data =
Dạng 1 Dạng 2
VNA392, importance=T)
randomForest(formula = FUEL_ORDER ~ ., data = VNA392, importance = T)
Type of random forest: regression
Number of trees: 500
No. of variables tried at each split: 1
Mean of squared residuals: 89095.72

% Var explained: 92.31
Has&e, Trevor, et al. The elements of sta&s&cal learning. Vol. 2. No. 1. New York: Springer, 2009.
97 98
varImpPlot(rf, pch=16)
Mạng Nơ-ron nhân tạo

Neural Networks
99 100
Mạng nơ-ron nhân tạo Mạng nơ-ron sinh học
¨ ~ 100 tỷ nơ-ron
¨ Mỗi nơ-ron có hàng
ngàn kết nối:
- Thu nhận tín hiệu
Bleckert A, Schwartz GW, Turner MH, Rieke F, Wong RO. Visual space is represented by nonmatching - Lan truyền thông tin
topographies of distinct mouse retinal ganglion cell types. Curr Biol. 2014 Feb 3;24(3):310-5.
101 102
Mô hình mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo

Mạng Nơ-ron Mô hình mạng Nơ-ron nhân tạo
103 104
Mạng nơ-ron nhân tạo Cấu trúc nơ-ron nhân tạo
Trong đó:
v(t): Tổng tất cả các đầu vào mô tả toàn bộ thế năng tác động ở thân nơ-ron.
Xk(t): Các biến đầu vào (các đặc trưng), k=1..M.
wk: Trọng số liên kết ngoài giữa các đầu vào k với nơ-ron hiện tại.
H(.): Hàm kích hoạt.
Y(t): Tín hiệu đầu ra nơ-ron.
q: Ngưỡng (là hằng số), xác định ngưỡng kích hoạt.
105 106
Hàm Ridge Hàm kích hoạt Sigmoidal

Hàm logistic
Hastie, Trevor, et al. The

elements of statistical
learning. Vol. 2. No. 1. New
Has/e, Trevor, et al. The elements of sta/s/cal

107 108
-0.06 -0.06
W1 2.7
W2 -8.6
-2.5 f(x) -2.5 f(x)
W3 0.002 x = -0.06×2.7 + 2.5×8.6 + 1.4×0.002 = 21.34
1.4 1.4
David Corne, Heriot-Watt University David Corne, Heriot-Watt University
109 110
Dữ liệu Huấn luyện mạng Nơ-ron

Các trường Lớp Các trường Lớp
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 4.1 0.1 0.2 0
v.v… v.v…
111 112
Dữ liệu huấn luyện Dữ liệu huấn luyện
Các trường Lớp Khởi tạo các trọng số ngẫu nhiên Các trường Lớp Huấn luyện mẫu
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 4.1 0.1 0.2 0 1.4
v.v… v.v…
2.7
1.9
113 114

Các trường Lớp cung cấp đầu ra Các trường Lớp So sánh giá trị đầu ra
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 1.4 4.1 0.1 0.2 0 1.4
v.v… v.v..
2.7 0.8 2.7 0.8
0
1.9 1.9 error 0.8
115 116
Các trường Lớp Điều chỉnh các trọng số dựa vào đầu ra Các trường Lớp Huấn luyện mẫu
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 1.4 4.1 0.1 0.2 0 6.4
v.v… v.v…
2.7 0.8 2.8
0
1.9 error 0.8 1.7
117 118

Các trường Lớp cung cấp đầu ra Các trường Lớp So sánh giá trị đầu ra
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 6.4 4.1 0.1 0.2 0 6.4
v.v… v.v…
2.8 0.9 2.8 0.9
1
1.7 1.7 lỗi -0.1
119 120
Các trường Lớp Điều chỉnh các trọng số dựa vào đầu ra Các trường Lớp tiếp tục ….
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 6.4 4.1 0.1 0.2 0 6.4
v.v… v.v…
2.8 0.9 2.8 0.9
1 1
1.7 lỗi -0.1 1.7 lỗi -0.1
Lặp lại hàng ngàn, hang triệu lần – mỗi lần sẽ lấy tập mẫu ngẫu nhiên,
và tạo các điều chỉnh về trọng số
Các giải thuật điều chỉnh trọng số được thiết kế để tạo ra các thay
đổi mà chúng sẽ giúp giảm lỗi của mô hình
121 122
Dự đoán dữ liệu kiểm thử

trainData=VNA392[1:40, ]
testData=VNA392[41:54, ]
>library(neuralnet) model.lm <- lm(FUEL_ORDER ~ BLOCK_FUEL, data= trainData)
pred=predict(model.lm, testData)
>nn = neuralnet MSE=mean((testData$FUEL_ORDER - pred)^2)
(FUEL_ORDER ~ MSE
BLOCK_FUEL, # 299666.4399
model.rf <- randomForest(FUEL_ORDER ~ BLOCK_FUEL, data= trainData, trees=2000)
data=VNA392, pred=predict(model.rf, testData)
hidden=c(3,3), MSE=mean((testData$FUEL_ORDER - pred)^2)
MSE
threshold=0.01) # 293049.5744
>plot(nn) model.nn = neuralnet (FUEL_ORDER ~ BLOCK_FUEL, data=trainData, hidden=c(3,3),
threshold=0.01)
pred=compute(model.nn, as.matrix(testData$FUEL_ORDER))
pred$net.result
MSE=mean((testData$FUEL_ORDER - pred$net.result)^2)
MSE
#1200793.374
123 124
Q?&A!
125

Phân Tích H I Quy

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Phân Tích H I Quy

Uploaded by

Copyright:

Available Formats

Nội dung

Regression 1. Giới thiệu mô hình hồi quy

Các dạng giải thuật học máy Mô hình Hồi quy

Mô hình Hồi quy Hàm tổn thất

• Ví dụ: Hồi quy tuyến tính error)

– Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập

– Tập trung đo các sai số lớn hơn là các sai số nhỏ

Nội dung Hồi quy tuyến tính

– Là ví dụ để minh họa các khái niệm quan trọng trong bài

(x2, y2) (x2, y2)

(x1, y1) (x1, y1)

• Lấy sao cho mô hình đạt “xấp xỉ tốt nhất”

Figure 3.1 , ISL 2013

Các giả định Đường thẳng phù hợp nhất

Phần dư (lỗi) Ước lượng tham số

Phương pháp đánh giá Ví dụ

Đây là giá trị của Y khi X = 0

Ước tính bằng R Phân tích bằng R

Phân tích bằng R

Figure 3.4 , ISL 2013

• Giải phương trình để tìm :

Hồi quy tuyến tính đa biến Ví dụ

Hồi quy tuyến tính

Phương pháp kết

Có 2 dạng: • Dự đoán liên tục trong mỗi vùng

2.Phân loại (lớp)

income>=2.5 persons_in_house>=3.5 job=1,2,3,4,5,6,8,9

Cây hồi quy Cây hồi quy

lặp đi lặp lại một

Tách các biến X Tách các biến X

Ưu điểm của CART Nhược điểm của CART

Bootstrap là gì? Bootstrap là gì?

Bagging là gì? Bagging là gì?

Hastie, Trevor, et al. The

• Lấy mẫu có hoàn lại Bonus! Out-of-bag cross-validation

Các mẫu Out-of-bag (OOB) Dự đoán mẫu OOB

• Dự đoán giá trị của chúng từ các cây này.

• Phương pháp Bagging dùng để giảm phương sai.

Nhắc lại: Bagging Bagged trees vs. random forests

• Bagging giảm phương sai (variance) và giữ bias.

Lấy thuộc tính ngẫu nhiên

Rừng ngẫu nhiên Rừng ngẫu nhiên

Bước 2: D1 D2 .... D K-1 DK

Bước 3: •Phân lớp: Bình chọn theo số đông

Introduction to Data Mining – Tan, Steinbach, Kumar

Độ sâu của từng cây Độ sâu của cây

Hastie, Trevor, et al. The elements of statistical

Bài toán hồi quy 5

• Các mẫu Out-of-bag (OOB)

• Độ quan trọng của biến (Variable

• Thêm nhiều cây không gây ra overfitting.

Độ quan trọng của biến Độ quan trọng của biến

Mean of squared residuals: 89095.72

Mạng Nơ-ron nhân tạo

Mô hình mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo

Hàm Ridge Hàm kích hoạt Sigmoidal

Hastie, Trevor, et al. The

Has/e, Trevor, et al. The elements of sta/s/cal

David Corne, Heriot-Watt University David Corne, Heriot-Watt University

Dữ liệu Huấn luyện mạng Nơ-ron

Dữ liệu huấn luyện Dữ liệu huấn luyện

Dữ liệu huấn luyện Dữ liệu huấn luyện

Dự đoán dữ liệu kiểm thử