Professional Documents
Culture Documents
Phân Tích H I Quy
Phân Tích H I Quy
5 6
7 8
Đo hiệu năng bài toán hồi quy
Bài toán Hồi quy • Hàm tổn thất (Loss function): loại hàm dùng để đo
lường sai số của mô hình
• Vd: Sai số bình phương trung bình (Mean squared
error - MSE)
– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy
argument minimum: Cho giá trị nhỏ nhất của 1 hàm số trong miền xác định
11 12
Hồi quy tuyến tính Hồi quy tuyến tính đơn giản
• Tại sao dùng hồi quy tuyến tính?
• Biến đầu ra Y và biến đầu vào X có mối
– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luật
hàm bậc nhất quan hệ tuyến tính giữa X và Y như sau:
– Tìm một mô hình (phương trình) để mô tả một mối liên
quan giữa X và Y
– Ta có thể biến đổi các biến đầu vào để tạo ra mối quan hệ • Các tham số của mô hình:
tuyến tính
– Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sử hệ số chặn (khi các xi=0)
dụng cho bài toán suy diễn độ dốc
13 14
Hồi quy tuyến tính đơn giản Hồi quy tuyến tính đơn giản
y-axis y-axis
17 18
19 20
Bình phương nhỏ nhất Đường thẳng phù hợp nhất
Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu,
• Thông thường, để đánh giá độ phù hợp của mô
do vậy luôn tồn tại lỗi gắn liền với đường thẳng
hình từ dữ liệu quan sát ta sử dụng phương pháp Đường thẳng phù hợp nhất là đường giảm thiểu độ dao
bình phương nhỏ nhất (least squares) động của các lỗi này
• Lỗi bình phương trung bình (Mean squared error):
14
12 ŷ
10
8
6
( yi - yˆ i )
4
2
0
0 2 4 6 8 10
21 22
Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi là
nhỏ nhất SS xy
n
• Hệ số chặn của đường thẳng b̂1 =
SS x
SSE = å ( yi - yˆ ) 2 n n
i =1 trong đó: SS xy = å ( xi - x )( yi - y ) và SS x = å ( xi - x ) 2
i =1 i =1
23 24
Ước lượng tham số Hồi quy tuyến tính đơn giản
Hệ số chặn của đường thẳng
bˆ0 = y - bˆ1 x
trong đó n n
å yi åx i
y= i =1
x= i =1
n n
25 26
$132.91
29 30
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1057.4 -326.2 -100.2 274.8 1820.0
Estimate Std. Error t value Pr(>|t|)
Coefficients: (Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 ***
Estimate Std. Error t value Pr(>|t|) BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 ***
(Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 ***
BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 • Nhớ rằng mô hình là:
Residual standard error: 556.8 on 52 degrees of freedom FUEL_ORDER= β0 + β1 * BLOCK_FUEL
Multiple R-squared: 0.7422, Adjusted R-squared: 0.7372
F-statistic: 149.7 on 1 and 52 DF, p-value: < 2.2e-16 • Phương trình:
R2 (hệ số xác định): là chỉ số rất có ích trong mô hình hồi qui tuyến Enh. FUEL_ORDER = 3680 + 0.711* BLOCK_FUEL
R2 ×100 có nghĩ là phần trăm variaPon của biến y có thể giải thích bởi biến x • Ý nghĩa: phi công tăng 1000 kg mỗi khi chương trình máy
R2 =1: tất cả dữ liệu có mối liên hệ xác định tính tăng 711 kg nhiên liệu cho từng chuyến bay.
R2 =0: Không có mối quan hệ nào giữa X và Y. Mối tương quan này có ý nghĩa thống kê (P < 0.0001)
33 34
Hồi quy tuyến tính đa biến Hồi quy tuyến tính đa biến
• Hồi quy tuyến tính đa biến: mô hình có nhiều hơn 1
biến dùng để dự đoán biến đích
35 36
Hồi quy tuyến tính đa biến Bình phương nhỏ nhất
• Diễn giải hệ số βj : • Tìm các ước số bằng phương pháp bình phương nhỏ
khi tăng Xj lên một đơn vị è Y sẽ tăng trung bình một lượng là βj nhất
37 38
39 40
Ví dụ Ví dụ é 47 ù
é 2.59578 - 0.15375 - 0.01962 - 0.13737 ù
ê- 0.15375 ê203ú
0.03965 - 0.00014 - 0.00144 úú
é1 1 1 1 1 1ù b = (X X ) X y = ê
ˆ T -1 T ê ú
ê3 6 ê- 0.01962 - 0.00431 ú ê277ú
8 3 2úú
- 0.00014 0.01234
4 ê ú ê ú
X T
=ê ë- 0.13737 - 0.00144 - 0.00431 0.01406 û ë598û
ê 9 13 3 2 4 4ú
ê ú é 3.20975 ù
ê- 0.07573ú
ë16 13 17 10 9 7 û
=ê ú
ê- 0.11162ú
ê ú
é6 26 35 72 ù é 47 ù ë 0.46691 û
ê26 ê203ú
138 153 315 úú
X X =ê
T
XTy = ê ú bˆ0 = 3.20975 bˆ1 = -0.07573 bˆ2 = -0.11162 bˆ3 = 0.46691
ê35 153 295 448 ú ê277ú
ê ú ê ú
ë72 315 448 944û ë598 û yˆ = 3.20975 - 0.07573 x1 - 0.11162 x2 + 0.46691x3
41 42
45 46
47 48
Xây dựng cây CART thế nào? Mô hình liên tục từng đoạn(piecewise)
1.Hồi quy
Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009.
49 50
Mô hình liên tục từng đoạn Minh họa cây CART own_rent_family=1,3
Hồi quy
persons_in_house>=2.5 persons_under_18>=0.5
Phân lớp
Giá trị dự đoán lưu tại lá của cây hồi quy. Nó được >nh bằng
giá trị trung bình của tất cả các mẫu (bản ghi) tại lá đó.
53 54
55 56
Tách các biến X Tách các biến X
Ta tạo ra các phân 1. Đầu tiên tách
vùng bằng cách tách trên X1=t1
57 58
59 60
Tách các biến X Tách các biến X
1. Đầu tiên tách
trên X1=t1
2. Nếu X1<t1,
tách trên X2=t2
3. Nếu X1>t1, • Khi ta tạo các vùng theo
tách trên X1=t3 phương pháp này, ta có thể
4. Nếu X1>t3, biểu diễn chúng dùng cấu trúc
tách X2=t4 cây.
• Phương pháp này dễ diễn giải
mô hình dự đoán, dễ diễn giải
kết quả
61 62
63 64
Random
forest
Ensemble Models
Fernández-Delgado, Manuel, et al. "Do we need hundreds of classifiers to solve real world classification
problems?." The Journal of Machine Learning Research15.1 (2014): 3133-3181.
Kết luận của nghiên cứu trên của nhóm Manuel là phương
65 66
pháp Random Forests hầu hết cho kết quả tốt nhất.
Nguồn: bis.net.vn/forums
67 68
Bootstrap là gì?
• Là kỹ thuật rất quan trọng trong thống kê
Các phương pháp kết hợp: Bagging
• Lấy mẫu có hoàn lại từ tập dữ liệu ban
đầu để tạo ra các tập dữ liệu mới
69 70
+ +
71 72
Bagging Bagging
Giải quyết được tính thiếu ổn
định của CART • Lấy mẫu tập dữ liệu huấn
luyện theo Bootstrap để tạo ra
tập hợp các dự đoán.
+ +
73 74
Bagging Bagging
• Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán.
HasCe, Trevor, et al. The elements of staCsCcal learning. Vol. 2. No. 1. New
York: Springer, 2009.
77 78
81 82
…
Random forests đưa ra thêm tính ngẫu nhiên (randomness):
• Làm giảm mối tương quan giữa các cây bằng cách lấy ngẫu
• Lấy trung bình (hoặc bình chọn theo số đông-
majority vote) các bộ dự đoán độc lập. nhiên các biến khi tách nút của cây.
85 86
87 88
Các tham số chính Số lượng biến khả tách
Các tham số quan trọng của Rừng ngẫu nhiên:
Giá trị mặc định
• Số lượng biến khả tách tại mỗi nút ( )
Bài toán phân lớp =
• Độ sâu của từng cây trong rừng (số lượng mẫu tối thiểu
tại mỗi nút của cây-minimum node size)
Bài toán hồi quy =
• Số lượng cây trong rừng
gói randomForest trong R dùng mtry
89 90
91 92
Số lượng cây trong rừng Các tính năng khác của RF
93 94
95 96
Ví dụ về độ quan trọng của biến
• Cả 2 dạng biểu thị gần giống nhau, tuy nhiên có sự
library(randomForest)
khác biệt về xếp hạng các biến: rf=randomForest(FUEL_ORDER ~ ., data =
Dạng 1 Dạng 2
VNA392, importance=T)
randomForest(formula = FUEL_ORDER ~ ., data = VNA392, importance = T)
Type of random forest: regression
Number of trees: 500
No. of variables tried at each split: 1
97 98
varImpPlot(rf, pch=16)
99 100
Mạng nơ-ron nhân tạo Mạng nơ-ron sinh học
¨ ~ 100 tỷ nơ-ron
¨ Mỗi nơ-ron có hàng
ngàn kết nối:
- Thu nhận tín hiệu
Bleckert A, Schwartz GW, Turner MH, Rieke F, Wong RO. Visual space is represented by nonmatching - Lan truyền thông tin
topographies of distinct mouse retinal ganglion cell types. Curr Biol. 2014 Feb 3;24(3):310-5.
101 102
103 104
Mạng nơ-ron nhân tạo Cấu trúc nơ-ron nhân tạo
Trong đó:
v(t): Tổng tất cả các đầu vào mô tả toàn bộ thế năng tác động ở thân nơ-ron.
Xk(t): Các biến đầu vào (các đặc trưng), k=1..M.
wk: Trọng số liên kết ngoài giữa các đầu vào k với nơ-ron hiện tại.
H(.): Hàm kích hoạt.
Y(t): Tín hiệu đầu ra nơ-ron.
q: Ngưỡng (là hằng số), xác định ngưỡng kích hoạt.
105 106
107 108
-0.06 -0.06
W1 2.7
W2 -8.6
-2.5 f(x) -2.5 f(x)
W3 0.002 x = -0.06×2.7 + 2.5×8.6 + 1.4×0.002 = 21.34
1.4 1.4
109 110
111 112
Dữ liệu huấn luyện Dữ liệu huấn luyện
Các trường Lớp Khởi tạo các trọng số ngẫu nhiên Các trường Lớp Huấn luyện mẫu
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 4.1 0.1 0.2 0 1.4
v.v… v.v…
2.7
1.9
113 114
115 116
Dữ liệu huấn luyện Dữ liệu huấn luyện
Các trường Lớp Điều chỉnh các trọng số dựa vào đầu ra Các trường Lớp Huấn luyện mẫu
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 1.4 4.1 0.1 0.2 0 6.4
v.v… v.v…
2.7 0.8 2.8
0
1.9 error 0.8 1.7
117 118
119 120
Dữ liệu huấn luyện Dữ liệu huấn luyện
Các trường Lớp Điều chỉnh các trọng số dựa vào đầu ra Các trường Lớp tiếp tục ….
1.4 2.7 1.9 0 1.4 2.7 1.9 0
3.8 3.4 3.2 0 3.8 3.4 3.2 0
6.4 2.8 1.7 1 6.4 2.8 1.7 1
4.1 0.1 0.2 0 6.4 4.1 0.1 0.2 0 6.4
v.v… v.v…
2.8 0.9 2.8 0.9
1 1
1.7 lỗi -0.1 1.7 lỗi -0.1
Lặp lại hàng ngàn, hang triệu lần – mỗi lần sẽ lấy tập mẫu ngẫu nhiên,
và tạo các điều chỉnh về trọng số
Các giải thuật điều chỉnh trọng số được thiết kế để tạo ra các thay
đổi mà chúng sẽ giúp giảm lỗi của mô hình
121 122
125