BaiGiang MayHocUngDung C3

CHƯƠNG 3: HỌC CÓ GIÁM SÁT
(SUPERVISED LEARNING)
NỘI DUNG CHÍNH
1. Giới thiệu bài toán học có giám sát
2. Hồi quy tuyến tính (Linear Regression)
3. Giải thuật PLA (Perceptron Learning Algorithm)
4. Hồi quy Logistic (Logistic Regression)
2
GIỚI THIỆU BÀI TOÁN HỌC CÓ GIÁM SÁT
3 Giới thiệu bài toán học có giám sát

➢ Dự đoán đầu ra của 1 hoặc nhiều dữ liệu mới

bằng cách học các cặp (đầu vào, đầu ra) đã biết
trước. Cặp dữ liệu này còn được gọi là (data,
label)- (dữ liệu, nhãn).
➢Sử dụng dữ liệu được gán nhãn nhằm mô hình
hóa mối quan hệ giữa biến đầu vào (X) và biến
đầu ra (Y).
4 Giới thiệu bài toán học có giám sát

➢Hai nhóm bài toán cơ bản trong học có giám sát là

Classification (phân loại) và Regression (hồi quy).
 Classification (phân loại): biến đầu ra có giá trị rời rạc.
 Regression (hồi quy): biến đầu ra có giá trị liên tục.
5
HỒI QUY TUYẾN TÍNH
(LINEAR REGRESSION)
y - axis
(x2,y2)
(x1,y1)
0
x - axis
Phương trình nối 2 điểm?

6 Hồi quy tuyến tính
(LINEAR REGRESSION)
y - axis
(x2,y2)
(x1,y1)
x - axis
0
Slope = Δy/Δx =(y2 – y1)/(x2 - x1)
➢ Tìm gradient (Slope): độ dốc

➢ Tìm giá trị khởi đầu (Intercept) của y khi x = 0

(LINEAR REGRESSION)
y - axis
0
x - axis
Trường hợp có nhiều điểm?

(LINEAR REGRESSION)
y - axis
0
x - axis
Trường hợp có rất nhiều điểm?

(LINEAR REGRESSION)
y - axis
0
x - axis
→ Cần tìm đường đi qua tất cả các điểm ~ nối kết giá trị trung bình nhiều điểm
với nhau → mục tiêu của phương pháp phân tích hồi quy tuyến tính

Mô hình hồi quy tuyến tính
Simple linear regression model

➢ y - biến phụ thuộc (response variable, dependent variable, …)
 y là biến liên tục
➢ x - biến độc lập (predictor variable, independent variable, …)

 x là biến liên tục hay không liên tục

Simple linear regression model
y = α + βx + ε
➢ α : intercept
➢ β: slope/gradient
➢ε: sai số ngẫu nhiên (random error - những dao động về y trong mỗi
giá trị x
➢ y, x là giá trị quan sát được → tìm tham số α, β

Giả định
➢ Mối liên quan giữa x và y là tuyến tính (linear) về tham số

➢ x không có sai số ngẫu nhiên
➢ Giá trị của y độc lập với nhau ( y1 không liên quan y2)
➢Sai số ngẫu nhiên ε: phân bố chuẩn, trung bình 0, phương sai bất
biến

Ví dụ thực tế
➢Trong cuộc sống hàng ngày, chúng ta cần

đưa ra quyết định bằng cách tính đến rất
nhiều yếu tố
➢ Câu hỏi đặt ra là chúng ta đặt tầm quan
trọng ở mức nào lên từng yếu tố này (tầm
quan trọng của chúng đối với những yếu tố
khác).
➢ Giả sử cần xây dựng một hệ thống gợi ý để
xếp hạng các nhà hàng tiềm năng dựa trên sở
thích của từng cá nhân
➢ Nếu chúng ta có nhiều quan sát, chúng ta có
thể khôi phục các trọng số

➢Với một đầu vào x, muốn tính một
đầu ra y
 Dự đoán chiều cao theo tuổi
 Dự đoán giá của Google từ giá của Yahoo
➢ Trong hồi quy tuyến tính, mối quan

hệ/ tương quan của y và x theo phương
trình sau:
y = wx + ε
 w: tham số (β/slope)
 ε: sai số ngẫu nhiên Lưu ý: biến Y liên tục

➢ Lấy đạo hàm và cho bằng 0




Bias
➢ Trường hợp không đi qua góc tọa độ?
→ điều chỉnh mô hình
y = w0 + w1x + ε
➢ Với n là số mẫu

Bias
➢ Trường hợp không đi qua góc tọa độ?
→ điều chỉnh mô hình
y = w0 + w1x + ε
Giải pháp đơn giản hơn?
➢ Với n là số mẫu

Hồi quy đa biến
➢ Trường hợp có nhiều đầu vào ?

Dự đoán giá cổ phiếu của Google dựa trên giá cổ phiếu của Meta, Microsoft
and Ebay
→ bài toán hồi quy tuyến tính đa biến
y = w 0 + w 1 x 1 + … + w kx k + ε
Giá cổ phiếu của Google Giá cổ phiếu của Microsoft
Giá cổ phiếu của Meta

➢Bài toán: ước lượng giá của căn nhà rộng x1 m2, có x2 phòng ngủ và
cách trung tâm thành phố x3 km
➢ Giả sử thu thập được số liệu từ 1000 căn nhà trong thành phố
→ Có thể dự đoán giá y của căn nhà không?
→ Hàm dự đoán y = f(x) có dạng nào?
→ Vector đặc trưng?

➢Bài toán: ước lượng giá của căn nhà rộng x1 m2, có x2 phòng ngủ và
➢ Diện tích càng lớn → giá càng cao
➢ Số lượng phòng ngủ càng nhiều → giá càng cao
➢ Càng xa trung tâm → giá càng giảm
→ Mô hình quan hệ giữa đầu ra và đầu vào bằng hàm tuyến tính
đơn giản

➢Bài toán: ước lượng giá của căn nhà rộng x 1 m2, có x2 phòng ngủ và
→ Mô hình quan hệ giữa đầu ra và đầu vào bằng hàm tuyến tính đơn
giản
 Vector đặc trưng: x = [x1, x2, x3]T chứa thông tin đầu vào
 Tham số cần tìm: w = [w1, w2, w3]T → tham số mô hình
 Mối quan hệ y ≈ f(x) là mối quan hệ tuyến tính

Lưu ý
➢ y là giá trị thực của đầu ra (ground truth), trong khi ŷ là giá trị đầu
ra dự đoán (predicted output) của mô hình linear regression.
➢y và ŷ là hai giá trị khác nhau do có sai số mô hình, tuy nhiên,
chúng ta mong muốn rằng sự khác nhau này rất nhỏ.
➢ Linear hay tuyến tính hiểu một cách đơn giản là thẳng, phẳng.

Hàm mất mát (Loss function)
➢Trả về một số không âm thể hiện mức độ chênh lệch giữa giá trị mà
mô hình dự đoán và giá trị thực tế.
Đường màu xanh:

mức độ chênh lệch

➢ Với tất cả các cặp (input, output) (xi, yi), i = 1,2, …, N, với N là số
lượng dữ liệu quan sát được
➢Mong muốn: trung bình sai số nhỏ nhất ~ tìm w để hàm số sau đạt
giá trị nhỏ nhất
➢ Tối thiểu hàm mất mát theo w

➢ Hàm số có thể được viết gọn lại dưới dạng ma trận, vector và norm
➢ y = [y1, y2, …, yN]
➢ x = [x1, x2, …, xN]
➢ L(w) là một hàm số liên quan tới bình phương của l2 norm

Nghiệm cho bài toán Linear regression
➢ Normal equation
Cách đơn giản nhất để tìm giá trị nhỏ nhất của một hàm số (cực tiểu), ta sẽ
cho đạo hàm bằng 0
 Đạo hàm của hàm mất mát của Linear regression
 Giải phương trình đạo hàm bằng không

➢ Normal equation
 Giải phương trình đạo hàm bằng không
 Nếu ma trận XXT khả nghịch → pt có nghiệm duy nhất w = (XXT)-1Xy

 Nếu ma trận XXT không khả nghịch → pt vô nghiệm hoặc có vô số nghiệm
 Điểm mạnh: Công thức đơn giản và chỉ cần đổ data vào tính toán
 Điểm yếu: tài nguyên để tính toán ma trận nghịch đảo với lượng data lớn là rất
tốn kém nên trong thực tế các bài toán hồi quy tuyến tính rất ít khi sử dụng
phương pháp này

➢ Gradient Descent
Thay vì sử dụng công thức Normal Equation, thì trong thực tế chúng ta sẽ sử
dụng thuật toán Gradient Descent.
 Giải thích một cách đơn giản, chúng ta sẽ cho w tăng và giảm một khoảng nhất
định, sao cho giá trị của hàm Loss function giảm dần đến giá trị cực tiểu.

 Như bạn có thể thấy trên hình: lúc ban đầu Loss function có giá trị lớn nên hàm
ban đầu cần tìm dự đoán chưa chính xác các dữ liệu, nhưng khi Loss function
giảm dần, hàm ban đầu dự đoán chính xác hơn rất nhiều.

 Điểm mạnh: tính toán nhẹ nhàng hơn rất nhiều so với phương pháp ban đầu.
 Điểm yếu: kết quả thường không chính xác 100%, nhiều vấn đề liên quan xảy
ra, ví dụ như giá trị của hàm Loss không thể giảm thêm mà bị mắc kẹt tại một
điểm local nào đó.

Lưu ý: trung bình sai số
➢Việt lấy trung bình (hệ số 1/N) hay lấy tổng trong hàm mất mát, về mặt toán học, không
ảnh hưởng tới nghiệm của bài toán.
➢Trong machine learning, các hàm mất mát thường có chứa hệ số tính trung bình theo
từng điểm dữ liệu trong tập huấn luyện.
➢Khi tính giá trị của hàm mất mát trên tập kiểm thử, ta cũng tính trung bình lỗi của mỗi
điểm.
➢Việc lấy trung bình này quan trọng vì số lượng điểm dữ liệu trong mỗi tập dữ liệu có
thể thay đổi.
➢Việc tính toán mất mát trên từng điểm dữ liệu sẽ hữu ích hơn trong việc đánh giá chất
lượng mô hình sau này.
➢ Ngoài ra, việc lấy trung bình cũng giúp tránh hiện tượng tràn số khi số lượng điểm dữ
liệu quá nhiều.

Bài tập
➢ Tìm hàm dự đoán
Số lượng 0 10 20
Tuổi thọ 0 20 40

Bài tập
Tuổi thọ 0 20 40
y = 2x

Bài tập
➢Xét bảng cân nặng và chiều cao của 15 người → dự đoán cân nặng
của hai người có chiều cao 155 cm và 160 cm

Bài tập
Tuổi thọ 100 20 40

Bài tập
➢ Một hôm đẹp trời, bạn sử dụng ứng

dụng Grab để đặt 1 chuyến đi từ nhà đến
Trường dài 5km nhưng xui thay ứng dụng
này mất khả năng tính toán thành tiền và
bác xe ôm đen đủi không thể biết được số
tiền chính xác mà bạn cần phải trả.
➢ May mắn thay, bạn vẫn còn truy cập
được vào lịch sử các chuyến đi của mình
như bảng bên dưới, liệu rằng dựa trên
những thông tin này bạn hãy dự đoán số
tiền cần trả cho 5km ngày hôm nay?

Bài tập
➢Hãy dự đoán số tiền cần trả cho 5km

ngày hôm nay ?
 Giả sử số km bạn đi và số tiền cần trả Grab
phụ thuộc tuyến tính vào nhau, tức là số km
tăng thì số tiền cần trả Grab tăng hoặc số km
giảm thì số tiền cần trả Grab giảm
 x là số km bạn đi - y là số tiền cần trả Grab

Lưu ý
➢Trong không gian hai chiều, một hàm số được gọi là tuyến tính nếu
đồ thị của nó có dạng một đường thẳng.
➢Trong không gian ba chiều, một hàm số được goi là tuyến tính nếu
đồ thị của nó có dạng một mặt phẳng.
➢ Trong không gian nhiều hơn ba chiều, khái niệm mặt phẳng không
còn phù hợp nữa, thay vào đó, một khái niệm khác ra đời được gọi là
siêu mặt phẳng (hyperplane).
➢ Các hàm số tuyến tính là các hàm đơn giản nhất, vì chúng thuận
tiện trong việc hình dung và tính toán.

Hạn chế của Hồi quy tuyến tính
➢Nhạy cảm với nhiễu (sensitive to noise) → cần loại bỏ nhiễu trước
khi thực hiện Linear regression
➢ Không biểu diễn được các mô hình phức tạp

PLA
(PERCEPTRON LEARNING ALGORITHM)
➢ PLA (Perceptron Learning Algorithm) -

đôi khi được viết gọn là Perceptron:
thuật toán đầu tiên trong Classification
cho trường hợp đơn giản nhất (chỉ có hai
lớp (Class) - Binary Classification)
➢ Là nền tảng cho một mảng lớn quan
trọng của Machine Learning là Neural
Networks và sau này là Deep Learning.
44 PLA
PLA
➢ Perceptron được cho là một trong

những mô hình học máy đầu tiên xuất
hiện trong lịch sử, được giới thiệu lần
đầu bởi Frank Rosenblatt vào những
năm đầu thập niên 1960.
➢ Tuân theo mô hình nơ-ron
McCulloch & Pitts
➢ Lúc mới xuất hiện Perceptron được coi
là mô hình mạnh mẽ nhất từng có, đã
từng giải quyết nhiều vấn đề quan trọng
trong lịch sử học máy.
45 PLA
PLA
➢ Đến năm 1969, Minsky và Papert xuất

bản cuốn sách Perceptrons, thống kê
những gì nó làm được đồng thời nêu lên
những hạn chế căn bản (nhiều người cho
rằng những hạn chế này áp dụng cho mọi
mạng noron chứ không riêng mình
perceptron).
➢ Tuy vậy , ngày này Perceptrons vẫn
được sử dụng rộng rãi đặc biệt là trong
những bài toán mà kích thước vector đầu
vào lớn (hàng triệu).
46 PLA
MÔ HÌNH NORON McCULLOCH & PITTS
➢ Nơ-ron: đơn vị tính toán cơ bản

 n ngõ vào, 1 giá trị ngưỡng (θ) và 1 ngõ ra (o)
 wi: trọng số
 g: hàm kết hợp
 f: hàm kích hoạt
47 PLA
Threhold (ngưỡng)
48 PLA
Threhold (ngưỡng)
49 PLA
PLA
➢Giả sử có hai tập hợp dữ liệu đã được

gán nhãn: tập các điểm màu xanh và tập
các điểm màu đỏ
➢ Bài toán đặt ra là: từ dữ liệu của hai tập
được gán nhãn cho trước, hãy xây dựng
một bộ phân lớp (Classifier) để khi có một
điểm dữ liệu hình tam giác màu xám mới,
ta có thể dự đoán được màu (nhãn) của
nó.
50 PLA
PLA
➢Cần tìm “lãnh thổ “ của mỗi class sao

cho, với mỗi một điểm mới, chỉ cần xác
định xem nó nằm vào lãnh thổ của class
nào rồi quyết định nó thuộc class đó
➢ Bài toán Classification có thể coi là bài
toán đi tìm biên giới (Boundary) giữa
các class
➢ Boundary đơn giản nhất trong không
gian hai chiều là một đường thằng,
trong không gian ba chiều là một mặt
phẳng, trong không gian nhiều chiều là
một siêu mặt phẳng (hyperplane)
51 PLA
PLA
➢Boundary phẳng này được coi là đơn

giản vì có thể biểu diễn dưới dạng toán
học bằng một hàm số đơn giản có dạng
tuyến tính, tức linear
➢ Hình bên phải minh họa một đường
thẳng phân chia hai class trong mặt phẳng.
 Phần có nền màu xanh được coi là lãnh
thổ của lớp xanh, phần có nên màu đỏ
được coi là lãnh thổ của lớp đỏ.
Trong trường hợp này, điểm dữ liệu mới
hình tam giác được phân vào class đỏ.
52 PLA
BÀI TOÁN PERCEPTRON
➢Cho hai class được gán nhãn, hãy tìm một đường phẳng sao cho toàn
bộ các điểm thuộc class 1 nằm về 1 phía, toàn bộ các điểm thuộc class
2 nằm về phía còn lại của đường phẳng đó. Với giả định rằng tồn tại
một đường phẳng như thế.
➢Nếu tồn tại một đường phẳng phân chia hai class thì ta gọi hai class
đó là linearly separable.
➢Các thuật toán classification tạo ra các boundary là các đường phẳng
được gọi chung là Linear Classifier.
53 PLA
➢Một nhược điểm của Perceptron là nó chỉ hoạt động thực sự tốt khi
dữ liệu phân tách tuyến tính (linearly separable)
➢Tức có thể dùng đường thẳng, mặt phẳng, siêu phẳng để làm biên
giới, nếu dữ liệu không thỏa điều kiện này, không những Perceptron
mà bất kì thuật toán phân loại tuyến tính nào cũng sẽ fail "nhè nhẹ"
→ Dẫn đến khái niệm Linear separability
54 PLA
➢ Linear separability
 Cho vector xi biểu diễn một dữ liệu, yilà nhãn của xi và f(xi,yi)=yixi là
hàm đặc trưng (feature function) của dữ liệu, tập dữ liệu này được gọi là
Linearly Separable nếu tồn tại một vector trọng số w và một margin p>0
sao cho:
 Với y′ khác yi, là nhãn của lớp còn lại
55 PLA
➢ Linear separability
Ví dụ ta có vector trọng số w=[1,1] và vector x=[2,2] có nhãn y=1, như
vậy thay vào công thức trên ta được:
56 PLA
Các điểm của hai lớp không Các điểm của hai lớp giao
giao nhau nhau
Dữ liệu là linearly separable khi hai tập bao lồi các điểm của hai lớp không giao nhau.
57 PLA
GIẢI THUẬT PERCEPTRON
➢ Ý tưởng
 Đường nét đứt là biên giới phân lớp.
Thuật toán sẽ dùng đường biên giới để thử
phân loại dữ liệu, với mỗi lần phân loại thử bị
sai, thuật toán sẽ điều chỉnh lại biên giới.
 Hình trên, có một điểm xanh nằm cùng lãnh
thổ với các điểm màu đỏ, do đó nó bị thuật
toán phân loại sai.
Thuật toán sẽ "xoay" biên giới về phía điểm
xanh ấy sao cho điểm này thuộc về lãnh thổ của
các điểm xanh.
58 PLA
➢ Perceptron với giá trị ngưỡng (θ)

 n ngõ vào, 1 giá trị ngưỡng và 1 ngõ ra
 Hàm kích hoạt: hàm step
59 PLA
➢ Perceptron không giá trị ngưỡng

 Để đơn giản trong tính toán: xem ngưỡng như trọng số w0 với ngõ vào
giả x0 bằng 1
 (n + 1) ngõ vào và 1 ngõ ra
60 PLA
➢ Diễn giải hình học

 Cho 1 véc-tơ x = (x1, x2, …, xn), perceptron tính toán ngõ ra o có thể
bằng 0 hoặc 1 cho phân lớp nhị phân
 Siêu phẳng = mô hình phân lớp
61 PLA
➢ Giải thuật huấn luyện

 Tập huấn luyện:{(x(1), y(1)), (x(2) , y(2)), …, (x(m) , y(m))}
 Tìm các trọng số wj sao cho perceptron nhận vào x(i) thì tính toán ngõ
ra o = y(i) cho mọi i = 1, 2, …, m
➢ Diễn giải hình học

 Tìm siêu phẳng tách dữ liệu sao cho mỗi lớp dữ liệu nằm về 1 phía của
siêu phẳng
62 PLA
➢ Giải thuật huấn luyện

 Bắt đầu với cài đặt weights là 0 hoặc một giá trị ngẫu nhiên nhỏ
 Dự đoán class cho 1 training instance
 Nếu dự đoán đúng, giải thuật dự đoán class cho training instance kế
tiếp
 Nếu dự đoán sai, giải thuật cập nhật (update) giá trị weights
63 PLA
MULTI-LAYER PERCEPTRON (MLP)
➢ Mạng nơ-ron truyền tiến tới

 2 tầng kề nhau được kết nối đầy đủ
 Mỗi nơ-ron
➔
Hàm kết hợp: tuyến tính
➔
Hàm kích hoạt: phi tuyến, khả vi liên tục
• Sigmoïd, hyperbolic tangle
➢ Các nơ-ron được bố trí trong nhiều
tầng
64 PLA
➢ Biểu diễn dạng ma trận

 x = (x1, x2, …, xn)T : vào
 k: số tầng
 ni : số nơ-ron ở tầng thứ i
 u(i) : ngõ ra trung gian của các nơ-ron tầng thứ i
 o(i): ngõ ra của các nơ-ron tầng thứ i
 W(i) : ma trận trọng số của các nơ-ron tầng thứ i
65 PLA
➢ Biểu diễn dạng ma trận
66 PLA
➢ Giải thuật huấn luyện mạng nơ-ron đa tầng (MLP)

 Hàm lỗi
 Tìm những W để cực tiểu hóa lỗi E

➔
Giải thuật lan truyền ngược (back propagation)
➔
Phương pháp giảm gradient
67 PLA
HỒI QUY LOGISTIC
(LOGISTIC REGRESSION)
Một nhóm 20 sinh viên dành thời gian trong khoảng từ 0 đến 6 giờ
cho việc ôn thi. Thời gian ôn thi này ảnh hưởng đến xác suất sinh
viên vượt qua kỳ thi như thế nào?
Kết quả thu được như sau:
68 Hồi quy Logistic

HỒI QUY LOGISTIC
➢Nhìn chung, học càng nhiều thì khả năng đỗ càng cao. Mặc dù có một chút bất công khi học 3.5
giờ thì trượt, còn học 1.75 giờ thì lại đỗ
➢PLA không thể áp dụng được cho bài toán này vì không thể nói một người học bao nhiêu giờ thì
100% trượt hay đỗ, và thực tế là dữ liệu này cũng không linearly separable (điệu kiện để PLA có
thể làm việc)
➢Cả Linear regression và PLA đều không phù hợp với bài toán này → cần một mô hình flexible
hơn.

HỒI QUY LOGISTIC
➢Linear regression: dự đoán một giá trị thực của đầu ra (output y)
bằng một tập hợp các biến độc lập cho trước
➢ PLA: chỉ nhận một trong hai giá trị 1 hoặc −1
➢ Logistic regression: giống với linear regression ở khía cạnh đầu ra
là số thực, và giống với PLA ở việc đầu ra bị chặn
➢Mặc dù trong tên có chứa từ regression, logistic regression thường
được sử dụng nhiều hơn cho các bài toán classification.

HỒI QUY LOGISTIC
➢Sử dụng toán học để tìm ra mối quan hệ giữa hai yếu tố dữ liệu → sử
dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó
dựa trên yếu tố còn lại.
➢ Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không.
➢Ví dụ: giả sử bạn muốn đoán xem khách truy cập trang web của bạn sẽ
nhấp vào nút thanh toán trong giỏ hàng của họ hay không.

HỒI QUY LOGISTIC
➢Ví dụ: giả sử bạn muốn đoán xem khách truy cập trang web của bạn sẽ
nhấp vào nút thanh toán trong giỏ hàng của họ hay không.
 Phân tích hồi quy logistic xem xét hành vi của khách truy cập trước đây,
chẳng hạn như thời gian dành cho trang web và số lượng các mặt hàng
trong giỏ hàng.
Quá trình phân tích này xác định rằng, trước đây, nếu khách truy cập
dành hơn năm phút trên trang web và thêm hơn ba mặt hàng vào giỏ
hàng, họ sẽ nhấp vào nút thanh toán.
Nhờ vào thông tin này, sau đó, hàm hồi quy logistic có thể dự đoán
hành vi của một khách mới truy cập trang web.

HỒI QUY LOGISTIC
➢X được gọi là biến độc lập, biến dự đoán hoặc biến giải thích vì nó có
một giá trị đã xác định.
➢Y được gọi là biến phụ thuộc, biến kết quả hoặc biến đáp ứng vì giá trị
của nó không xác định.
➢ Phân tích hồi qui logistic là một kỹ thuật thống kê để xem xét mối liên
hệ giữa biến độc lập X (biến số hoặc biến phân loại) với biến phụ
thuộc Y là biến nhị phân.

HỒI QUY LOGISTIC
➢ Linear regression: biến độc lập x và phụ thuộc y là biến số liên tục
liên hệ qua phương trình:
y = α + βx + ε
➢ Logistic regression: biến phụ thuộc y chỉ có 2 trạng thái 1 và 0

→ Muốn đổi ra biến số liên tục người ta tính xác suất của 2 trạng thái
này.

RISK, PROBABILITY VÀ ODDS
➢ Risk: probability (P) of an event [during a period] – xác suất của một
biến cố trong một thời gian
➢ Odds: xác suất biến cố xảy ra chia cho xác suất biến cố không xảy ra:
➢ VD: n =5 bệnh nhân, 1 bệnh nhân bị đột quị:

 P = 1/ 5 = 0.20
 Odds = 0.2 / 0.8 = 0.25

PROBABILITY, ODDS VÀ LOGIT
➢ Probability: từ 0 đến 1
➢ Odds: biến liên tục

 Khi P = 0.5, odds = 1
➢ Logit = log odds

MÔ HÌNH HỒI QUY LOGISTIC
➢ Gọi X là biến tiên lượng
➢ Gọi P là xác suất của một biến cố
➢ Mô hình hồi qui logistic phát biểu rằng:


➢ Mối liên quan giữa X, p và logit(p)

➢ Hàm logit chỉ trả về các giá trị giữa 0 và 1 cho biến phụ thuộc, dù giá
trị của biến độc lập là gì.
➢ Đây là cách hồi quy logistic ước tính giá trị của biến phụ thuộc.
➢Phương pháp hồi quy logistic cũng lập mô hình phương trình giữa
nhiều biến độc lập và một biến phụ thuộc.

➢Có ba cách tiếp cận phân tích hồi quy logistic dựa trên kết quả của
biến phụ thuộc
 Hồi quy logistic nhị phân
 Hồi quy logistic đa thức
 Hồi quy logistic thứ tự

➔
Phù hợp với các vấn đề phân lớp nhị phân chỉ có hai kết quả có thể xảy ra. Biến phụ
thuộc chỉ có thể có hai giá trị, chẳng hạn như có và không hoặc 0 và 1.
➔
Dù hàm logistic tính toán một phạm vi giá trị giữa 0 và 1, mô hình hồi quy nhị phân
vẫn sẽ làm tròn kết quả đến các giá trị gần nhất
➔
VD: kết quả dưới 0,5 sẽ được làm tròn thành 0 và kết quả trên 0,5 sẽ được làm tròn
thành 1, do đó hàm logistic trả về một kết quả nhị phân.

➔
Có thể phân tích các vấn đề có một số kết quả có thể xảy ra, miễn là số kết quả hữu
hạn
VD: dự đoán xem giá nhà sẽ tăng 25%, 50%, 75% hay 100% dựa trên dữ liệu dân số, nhưng
sẽ không thể dự đoán được giá trị chính xác của một ngôi nhà.
➔
Hoạt động bằng cách ánh xạ các giá trị kết quả cho các giá trị khác nhau giữa 0 và 1
➔
Hàm logistic có thể trả về một khoảng dữ liệu liên tục như 0,1, 0,11, 0,12, v.v., do đó
hồi quy đa thức cũng nhóm đầu ra đến các giá trị gần nhất có thể có.

➔
Hay mô hình logit có thứ tự, là một loại hồi quy đa thức đặc biệt cho các vấn đề
trong đó các số đại diện cho các bậc chứ không phải là giá trị thực tế
➔
VD: sử dụng hồi quy thứ tự để dự đoán đáp án cho câu hỏi khảo sát yêu cầu khách
hàng đánh giá dịch vụ của bạn ở mức kém, ổn, tốt hoặc xuất sắc dựa trên một giá trị
số, chẳng hạn như số lượng mặt hàng họ mua trong năm.

ƯU ĐIỂM CỦA HỒI QUY LOGISTIC
➢ Tính đơn giản
 Các mô hình hồi quy logistic ít phức tạp về mặt toán học hơn các
phương pháp ML khác
➢ Tốc độ
Các mô hình hồi quy logistic có thể xử lý khối lượng lớn dữ liệu ở tốc độ
cao bởi chúng cần ít khả năng điện toán hơn, chẳng hạn như bộ nhớ và
sức mạnh xử lý

ƯU ĐIỂM CỦA HỒI QUY LOGISTIC
➢ Sự linh hoạt
Có thể sử dụng hồi quy logistic để tìm đáp án cho các câu hỏi có hai hoặc nhiều
kết quả hữu hạn.
 Có thể sử dụng phương pháp này để xử lý trước dữ liệu. Ví dụ: bạn có thể sắp
xếp dữ liệu với một phạm vi giá trị lớn, chẳng hạn như giao dịch ngân hàng, thành
một phạm vi giá trị hữu hạn, nhỏ hơn nhờ hồi quy logistic. Sau đó, bạn có thể xử
lý tập dữ liệu nhỏ hơn này với các kỹ thuật ML khác để phân tích chính xác hơn.
➢ Khả năng hiển thị
Phân tích hồi quy logistic cung cấp cho nhà phát triển khả năng nhìn nhận các
quy trình phần mềm nội bộ rõ hơn so với các kỹ thuật phân tích dữ liệu khác. Khắc
phục sự cố và sửa lỗi cũng trở nên dễ dàng hơn do các phép toán ít phức tạp hơn.

ỨNG DỤNG CỦA HỒI QUY LOGISTIC
➢ Sản xuất
Các công ty sản xuất áp dụng phân tích hồi quy logistic để ước tính xác
suất xảy ra sự cố ở bộ phận trong máy móc. Sau đó, họ sẽ lên lịch bảo trì
dựa trên xác suất đã ước tính này để giảm thiểu sự cố trong tương lai.
➢ Chăm sóc sức khỏe
 Các nhà nghiên cứu y khoa lên kế hoạch điều trị và chăm sóc dự phòng
bằng cách dự đoán khả năng mắc bệnh ở bệnh nhân. Họ sử dụng các mô
hình hồi quy logistic để so sánh tác động của tiền sử gia đình hoặc của
bộ gen lên bệnh tật.

➢ Tài chính
 Các công ty tài chính phải phân tích các giao dịch tài chính để đề phòng
gian lận, xem xét các đơn xin vay và đơn bảo hiểm để đề phòng rủi ro.
Những vấn đề này phù hợp với mô hình hồi quy logistic bởi chúng có kết
quả cụ thể, chẳng hạn như rủi ro cao hoặc rủi ro thấp và gian lận hoặc
không gian lận.
➢ Bộ phận Tiếp thị
 Các công cụ quảng cáo trực tuyến sử dụng mô hình hồi quy logistic để
dự đoán xem người dùng sẽ nhấp vào một quảng cáo hay không. Kết quả
là, các nhà tiếp thị có thể phân tích phản ứng của người dùng đối với
những từ ngữ và hình ảnh khác nhau, tạo ra các quảng cáo hiệu suất cao
có khả năng thu hút khách hàng.

Q&A

BaiGiang MayHocUngDung C3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

BaiGiang MayHocUngDung C3

Uploaded by

Copyright:

Available Formats

CHƯƠNG 3: HỌC CÓ GIÁM SÁT

1. Giới thiệu bài toán học có giám sát

2. Hồi quy tuyến tính (Linear Regression)

3. Giải thuật PLA (Perceptron Learning Algorithm)

4. Hồi quy Logistic (Logistic Regression)

3 Giới thiệu bài toán học có giám sát

➢ Dự đoán đầu ra của 1 hoặc nhiều dữ liệu mới

4 Giới thiệu bài toán học có giám sát

➢Hai nhóm bài toán cơ bản trong học có giám sát là

Phương trình nối 2 điểm?

➢ Tìm gradient (Slope): độ dốc

7 Hồi quy tuyến tính

Trường hợp có nhiều điểm?

Trường hợp có rất nhiều điểm?

10 Hồi quy tuyến tính

Simple linear regression model

➢ x - biến độc lập (predictor variable, independent variable, …)

11 Hồi quy tuyến tính

Simple linear regression model

12 Hồi quy tuyến tính

➢ Mối liên quan giữa x và y là tuyến tính (linear) về tham số

13 Hồi quy tuyến tính

➢Trong cuộc sống hàng ngày, chúng ta cần

14 Hồi quy tuyến tính

➢ Trong hồi quy tuyến tính, mối quan

15 Hồi quy tuyến tính

16 Hồi quy tuyến tính

17 Hồi quy tuyến tính

18 Hồi quy tuyến tính

19 Hồi quy tuyến tính

➢ Trường hợp không đi qua góc tọa độ?

→ điều chỉnh mô hình

20 Hồi quy tuyến tính

➢ Trường hợp không đi qua góc tọa độ?

→ điều chỉnh mô hình

21 Hồi quy tuyến tính

➢ Trường hợp có nhiều đầu vào ?

→ bài toán hồi quy tuyến tính đa biến

Giá cổ phiếu của Google Giá cổ phiếu của Microsoft

Giá cổ phiếu của Meta

22 Hồi quy tuyến tính

→ Có thể dự đoán giá y của căn nhà không?

→ Hàm dự đoán y = f(x) có dạng nào?

→ Vector đặc trưng?

23 Hồi quy tuyến tính

24 Hồi quy tuyến tính

25 Hồi quy tuyến tính

26 Hồi quy tuyến tính

Đường màu xanh:

27 Hồi quy tuyến tính

➢ Tối thiểu hàm mất mát theo w

28 Hồi quy tuyến tính

➢ y = [y1, y2, …, yN]

➢ x = [x1, x2, …, xN]

29 Hồi quy tuyến tính

 Giải phương trình đạo hàm bằng không

30 Hồi quy tuyến tính

 Nếu ma trận XXT khả nghịch → pt có nghiệm duy nhất w = (XXT)-1Xy

31 Hồi quy tuyến tính

32 Hồi quy tuyến tính

33 Hồi quy tuyến tính

34 Hồi quy tuyến tính

35 Hồi quy tuyến tính