Những kiến thức tóm tắt về toán học, xắc suất và ý nghĩa thuật toán trong Machine Learning

Mục lục
I. Sơ đồ...........................................................................................................................................................................4
1. Phân loại học máy...................................................................................................................................................4
2. Regression..............................................................................................................................................................5
3. Cách sử dụng scikit learn........................................................................................................................................5
II. Những kiến thức cơ bản............................................................................................................................................7
1. Maximum - Giá trị lớn nhất.....................................................................................................................................7
2. Average – Trung bình..............................................................................................................................................7
3. Minimum - Giá trị nhỏ nhất....................................................................................................................................7
4. Large....................................................................................................................................................................... 7
5. Medium – Trung bình.............................................................................................................................................7
6. Small.......................................................................................................................................................................7
7. Mean – Trung bình cộng.........................................................................................................................................7
8. Median - Giá trị của ở giữa của dãy khi được sắp xếp............................................................................................7
9. Mode – giá trị được lặp lại nhiều nhất trong 1 mẫu...............................................................................................7
10. Range = Max(xi) - Min(xi).....................................................................................................................................7
11. Inter Quartile Range(IQR)...................................................................................................................................7
12. Khoảng cách Euclide...........................................................................................................................................7
13. Kì vọng – Expectation E(x)...................................................................................................................................7
14. Variance – Phương Sai........................................................................................................................................7
15. Standard Deviation – Độ lệch chuẩn...................................................................................................................8
16. Quan hệ phương sai và độ lệch..........................................................................................................................9
17. Softmax.............................................................................................................................................................10
18. Entropy.............................................................................................................................................................10
19. Information Gain(IG).........................................................................................................................................10
20. Confusion Matrix..............................................................................................................................................10
21. Các loại phân phối.............................................................................................................................................10
22. Định lý Bayes.....................................................................................................................................................12
23. The Estimates....................................................................................................................................................12
24. Vector norm – Chuẩn norm..............................................................................................................................13
25. Đạo hàm ...........................................................................................................................................................13
26. Margin of Error E...............................................................................................................................................13
27. R square............................................................................................................................................................13
28. Định thức..........................................................................................................................................................15
1
29. Ma trận nghịch đảo...........................................................................................................................................15
30. Trị riêng của ma trận A n x n.............................................................................................................................15
31. Maximum Likelihood Estimation (MLE) :..........................................................................................................16
32. Maximum A Posteriori (MAP) :.........................................................................................................................16
33. Bag of Words (BoW) :........................................................................................................................................16
34. Chuẩn hóa dữ liệu :...........................................................................................................................................16
35. Kỹ thuật tránh overfitting..................................................................................................................................17
a. Validation..........................................................................................................................................................17
b. Regularization...................................................................................................................................................17
36. Gradient descent..............................................................................................................................................17
37. Hàm mất mát L hoặc J.......................................................................................................................................18
38. Hàm kích hoạt – activation functions................................................................................................................20
a. Sgn.................................................................................................................................................................... 20
b. Sigmoid.............................................................................................................................................................20
c. Tanh.................................................................................................................................................................. 21
d. ReLU - Rectified Linear Unit..............................................................................................................................22
39. Phương pháp đánh giá mô hình phân lớp ( classification)................................................................................22
a. Accuracy (Độ chính xác ) :.................................................................................................................................22
b. Confusion matrix (Ma trận nhầm lẫn ) :............................................................................................................22
d. True/False Positive/Negative............................................................................................................................23
e. Precision và Recall.............................................................................................................................................23
40. Mô hình chung của bài toán trong Deep Learning............................................................................................23
41. Khác.................................................................................................................................................................. 23
a. Linear Regression..............................................................................................................................................23
b. Naivie Bayes classifier.......................................................................................................................................23
c. Perceptron learning algorithm..........................................................................................................................24
d. Support vector machine....................................................................................................................................24
III. Phần thảo luận sách Machine learning cơ bản.....................................................................................................25
1. Maximum Likelihood và Maximum A Posteriori...................................................................................................25
2. Linear Regression..................................................................................................................................................25
3. K-Nearest Neighbors.............................................................................................................................................26
4. K-means clustering................................................................................................................................................27
5. Naïve bayes classification.....................................................................................................................................28
6. Gradient descent..................................................................................................................................................29
7. Perceptron learning algorithm..............................................................................................................................29
8. Logistic regression................................................................................................................................................30
2
9. Softmax regression...............................................................................................................................................31
10. Support vector machine....................................................................................................................................31
11. Decision Tree (ID3)............................................................................................................................................33
12. Đánh giá hệ thống phân lớp..............................................................................................................................33
IV. Tiếng anh chuyên ngành.......................................................................................................................................35
3
I. Sơ đồ
1. Phân loại học máy
4
2. Regression
3. Cách sử dụng scikit learn
5
6
II. Những kiến thức cơ bản
1. Maximum - Giá trị lớn nhất
2. Average – Trung bình
3. Minimum - Giá trị nhỏ nhất
4. Large
5. Medium – Trung bình
6. Small
7. Mean – Trung bình cộng
Hay còn gọi là điểm cân bằng. Là sự san bằng bù trừ chênh lệch tất cả các giá trị trong tập dữ
liệu, là đại diện cho độ tập trung của dữ liệu (Nguồn)
8. Median - Giá trị của ở giữa của dãy khi được sắp xếp
 Là đứng giữa vị trí trung tâm (Nguồn). Ví dụ : Cho dãy : 21, 21, 21.3, 22.8, 23, 23, 23
 Median = (22.8+23)/2 = 22.9
 Thể hiện mức độ tập trung chính xác hơn mean và không bị ảnh hưởng bởi các giá trị
đột biến hay ngoại lệ
9. Mode – giá trị được lặp lại nhiều nhất trong 1 mẫu
10. Range = Max(xi) - Min(xi)
Thể hiện mức phân tán cao hay thấp
11. Inter Quartile Range(IQR)
12. Khoảng cách Euclide
n
d ( x , y )=||x− y||= √∑
i=1
(x i− y i )2
Hoặc khoảng cách từ 1 điểm z tới một điểm x i :

¿|z−x i|∨¿22=( z−x i )T ( z−x i ) =¿|z|∨¿ 22+¿|x i|∨¿22−2 x iT z ¿ ¿ ¿
13. Kì vọng – Expectation E(x)

a. Định nghĩa :
 Trong Lý thuyết xác suất, giá trị kỳ vọng, giá trị mong đợi (hoặc kỳ vọng toán học),
hoặc trung bình (mean) của một biến ngẫu nhiên là trung bình có trọng số của tất
cả các giá trị cụ thể của biến đó, hay là được tính bằng tổng các tích giữa xác suất
xảy ra của mỗi giá trị có thể của biến với giá trị đó.
 Kỳ vọng toán học (hay trung bình, còn được gọi là kỳ vọng) là tổng xác suất của
mỗi kết quả có thể có trong thử nghiệm nhân với kết quả.
b. Ý nghĩa : Nó phản ánh giá trị trung bình của các biến ngẫu nhiên
14. Variance – Phương Sai
a. Định nghĩa :
 Phương sai Var(X) là trung bình của bình phương khoảng cách từ biến ngẫu
nhiên X tới giá trị trung bình.
b. Ý nghĩa :
 Là một độ đo sự phân tán thống kê của biến đó.
7
 Thể hiện mức độ phân tán dữ liệu. Phương sai lớn phản ánh khuynh hướng
phân tán nhiều, và độ biến thiên cao của dữ liệu.
 Chúng ta có thể thấy rằng phương sai luôn là một giá trị không âm và
phương sai càng lớn thì nó thể hiện mức độ phân tán dữ liệu càng rộng hay
nói cách khác mức độ ổn định càng nhỏ
c. Công thức :
 CT1:
2
n=1
(xi −x)2
s =∑
1 n
 CT2:
2
Var ( X )=E ( ( x−E ( x ) ) )=E ( x 2 ) −E2 (x)
15. Standard Deviation – Độ lệch chuẩn

a. Định nghĩa : Độ lệch tiêu chuẩn là đại lượng thường được sử dụng để phản ánh mức
độ phân tán của một biến số xung quanh số bình quân. Nói cách khác, độ lệch chuẩn
dùng để đo mức độ phân tán của một tập dữ liệu đã được lập thành bảng tần số. Có
thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai.
b. Ý nghĩa :
 Độ lệch chuẩn đo tính biến động của giá trị mang tính thống kê. Nó cho thấy sự
chênh lệch về giá trị của từng thời điểm đánh giá so với giá trị trung bình. Tính
biến động cũng như độ lệch chuẩn sẽ cao hơn nếu giá đóng cửa và giá đóng cửa
trên trung bình khác nhau đáng kể.
 Nếu sự chênh lệch không đáng kể thì độ lệch chuẩn và tính biến động ở mức
thấp. Sự đảo chiều xu thế tạo các vùng đáy hoặc đỉnh của thị trường được xác
định thời cơ bằng các mức độ biến động cao. Những xu thế mới của giá sau thời
kỳ thoái trào của thị trường (tức là giai đoạn điều chỉnh) thường được xác định
thời cơ bằng những mức độ biến động thấp. Sự thay đổi đáng kể về dữ liệu giá
đem lại giá trị độ lệch chuẩn cao và dữ liệu giá ổn định hình thành độ lệch chuẩn
ở mức thấp.
c. Deviation ( Độ lệch)
Deviation=( x i−μ)
d. Population Variance
N
1
σ 2= ∑ ( x −μ)2
N i=1 i
e. Sample Variance
N
1
s2= ∑ (x − x)2
n−1 i=1 i
f. Standard Deviation
8
N
σ=
√
1
∑ ( x −μ)2
N i=1 i
16. Quan hệ phương sai và độ lệch

a. Ý nghĩa :
 Độ lệch: Độ lệch giữa trung bình của mô hình ước lượng được và trung bình thực
tế của dữ liệu. Độ lệch càng lớn thì mô hình và giá trị thực của ta sẽ càng không
khớp nhau.
 Phương sai: Độ phân tán của kết quả ước lượng được của mô hình. Phương sai
càng lớn thì khả năng giá trị dự đoán sẽ dao động quanh càng mạnh dẫn tới có
thể lệch xa giá trị thực tế.
b. Mối quan hệ
Khi mà phương sai lớn (Hight Variance) mô hình của ta sẽ bị quá khớp (Overfitting),
còn độ lệch lớn (Hight Bias) thì mô hình của ta sẽ bị chưa khớp (Underfitting). Dựa vào
sự biến thiên của phương sai và độ lệch chuẩn ta có được độ biến thiên của lỗi. Tại nơi
mà đồ thị của lỗi đổi chiều ta sẽ có được điểm tối ưu cho mô hình.
17. Softmax
exp ⁡(x i )
y= C
∀ j=1,2 ,… , C
∑ exp ⁡( x i)
j=1
18. Entropy
9
N
H ( S )=−∑ pi log 2 p i
i=1
19. Information Gain(IG)

v
|S j|
Gain ( A , S )=H (S)−∑ . H (¿ S j )=H ( S)−H (S , A)¿
j=1 |S|
20. Confusion Matrix
True Positive +True Negatives

True Positive ( TP ) +True Negatives ( TN ) + False Positives ( FP )+ False Negatives ( FN )
21. Các loại phân phối

a. Phân phối đều X U(a,b)
 Biến ngẫu nhiên có phân phối đều liên tục nhận giá trị trên đoạn [a,b]. Xác suất
1
X nhận bất kì giá trị nào thuộc khoảng (a,b) đều bằng
b−a
. Kí hiệu X có phân
phối đều trên khoảng (a,b) là X U(a,b).
1
 Hàm mật độ : f ( x )=
b−a
; x ∈(a , b)
a+ b
 Trung bình : μ= 2
(b−a)2
 Phương sai : σ 2=
12
b. Phân phối Bernoulli X Bern(p):
 Một biến ngẫu nhiên X có phân phối Bernoulli nhận một trong 2 giá trị: 1 (thành
công) hoặc 0 (thất bại).
Xác suất thành công P(X = 1) = p, và xác suất thất bại P(X = 0) = q = 1-p.
 Hàm mật độ : f ( 1 ) =p ; f ( 0 )=1− p

 Trung bình : μ= p
 Phương sai : σ 2=p ( 1−p )= pq
c. Phân phối nhị thức X Bin(n, p):
 Phân phối nhị thức với tham số p và n là tổng của n phép thử Bernoulli với xác
suất p độc lập với nhau. Biến ngẫu nhiên có phân phối nhị thức nhận giá trị từ 0
đến n và xác suất để chọn ra x phần tử mong muốn trong n phần tử là
n
( ) pk (1− p)n−k với k = 0, 1, 2,…, n
k
 Hàm mật độ :
f ( x )= ( nk ) p ( 1− p)
k n−k n
; k=0 ,1 , 2 ,… , n ; =
n!
k k ! ( n−k ) !
10
 Trung bình : μ=n p
 Phương sai : σ 2=np ( 1− p )=npq
d. Phân phối Poision ( Poa-xông ) X Poi( λ ):

 Trong lý thuyết xác suất và thống kê, phân phối Poisson là một phân phối xác
suất rời rạc. Nó khác với các phân phối xác suất rời rạc khác ở chỗ thông tin biết
không phải là xác suất để một sự kiện xảy ra thành công trong một lần thử như
trong phân phối Bernoulli hay là số lần mà sự kiện đó xảy ra trong n lần thử như
trong phân phối nhị thức, mà chính là trung bình số lần xảy ra thành công của
một sự kiện trong một khoảng thời gian nhất định. Gía trị trung bình này được
gọi là lambda, kí hiệu là λ . Phân phối Poisson còn được dùng cho khoảng mà
đơn vị khác thời gian như: khoảng cách, diện tích hay thể tích. Một ví dụ cổ điển
là sự phân rã hạt nhân của các nguyên tử.
Khi những sự kiện xảy ra một cách ngẫu nhiên đều đặn với tỷ lệ là λ sự kiện
trên một đơn vị thời gian, khi đó biến ngẫu nhiên X đếm số sự kiện xảy ra trong
khoảng thời gian độ dài t, có phân phối Poisson.
1
 Hàm mật độ : f ( x )=
k!
(λt )k e− λt ; k =0 , 1, 2 , … , n
 Trung bình : μ= λt
 Phương sai : σ 2=λt
e. Normal Distribution (Standard Normal Distribution) – Phân phối chuẩn, phân phối
Gauss) X N( μ , σ 2 ¿:
 Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì
quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống
nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ 2).
Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối chuẩn
với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ trong
hình bên phải). Phân phối chuẩn còn được gọi là đường cong chuông (bell
curve) vì đồ thị của mật độ xác suất có dạng chuông.
2
−( x− μ)
1

2
2.σ
Hàm mật độ : f ( x )= .e ;x ∈R
σ √2 П
 Trung bình : μ
 Phương sai : σ 2
 Note: phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ)
bằng 1
f. Phân phối mũ (Exponential Distribution) X exp( β ):
11
 Phân phối mũ (Exponential Distribution) hoặc phân phối mũ phủ định đại diện
cho một phân phối xác suất giúp mô tả thời gian giữa hai sự kiện trong một quá
trình Poisson. Trong quá trình Poisson, các sự kiện xảy ra liên tục và độc lập
theo một tần suất trung bình không đổi. Phân phối mũ là một trường hợp đặc
biệt của phân phối gamma.
 Hàm mật độ :
λ . e−λx ,if x ≥ 0
{ 0 if x <0
Với λ = bằng biến tỷ lệ

X là biến ngẫu nhiên
 Trung bình : μ
 Phương sai : σ 2
22. Định lý Bayes
P ( BA )∗P( A) = P ( AB )∗P(B)
P ( BA )= P( B) P( A)
23. The Estimates

a. Method of Moments
b. Maximum of Likelihood
c. Bayes’ Estimator
d. Best Unbiased Estimator
24. Vector norm – Chuẩn norm.
a. Chuẩn 1 – norm1:
N
¿|⃗x|∨¿1=∑ ¿ x i∨¿ ¿ ¿
i=1
b. Chuẩn 2– norm2:
N
¿|⃗x|∨¿2= √ ∑ ¿ x i∨¿2 ¿ ¿
i=1
c. Chuẩn p– norm p:
N
L p=¿|⃗x|∨¿ p= √∑
p
i=1
¿ x i∨¿ p ¿ ¿
d. Chuẩn giới hạn âm - negative infinite norm :

¿|⃗x|∨¿1=min ¿ x i∨¿ ¿ ¿
12
e. Chuẩn giới hạn dương – positive infinite norm :
¿|⃗x|∨¿1=max ¿ x i∨¿ ¿ ¿
25. Đạo hàm .

f ( x ) −f ( xo )
f ' ( x o ) =lim
x → x0 x−x o
Hoặc:
∆y
y ' ( x o ) =lim
x →0 ∆x
Hoặc :
f ( x + ε )−f ( x) f ( x +ε )−f (x−ε )
f ' ( x )=lim ≈
ε→ 0 ε 2ε
26. Margin of Error E.
a. Định nghĩa : Biên độ sai số là một thống kê biểu thị số lượng lỗi lấy mẫu ngẫu nhiên
trong kết quả khảo sát. Biên độ sai số càng lớn, người ta càng ít tin tưởng rằng các kết
quả được báo cáo của cuộc thăm dò gần với con số "thật" (nguồn Wiki)
σ
E=Z .
√n
27. Rsquare
 Định nghĩa : Đây là một thước đo được sử dụng trong thống kê và nó cho chúng ta biết
mức độ phù hợp của mô hình nghiên cứu với ý nghĩa là các nhân tố (hay còn gọi là các
biến). Đồng thời, hệ số này giải thích nhân tố phụ thuộc đó đạt bao nhiêu phần trăm trong
quá trình nghiên cứu.
 Ý nghĩa:
R square hay r bình phương được sử dụng nhiều trong kinh tế lượng. Vậy ý nghĩa của r
bình phương trong kinh tế lượng là gì? R bình phương được sử dụng trong thống kê và
được thực hiện bởi phương pháp gọi là hồi quy tuyến tính.
- R bình phương cho biết mô hình đó hợp với dữ liệu ở mức bao nhiêu %.
Ví dụ: r bình phương = 0,65. Vậy mô hình hồi quy tuyến tính đang được thống kê sẽ
phù hợp với dữ liệu (hoặc biến) ở mức 65%.
- R bình phương cũng cho biết độ phù hợp của mô hình, người ta nghiên cứu
được rằng, với r bình phương > 50% thì một mô hình được đánh giá là phù
hợp.
Tất nhiên, không phải tất cả các mô hình đều phải có r bình phương > 50%, ta có thể
loại trừ một số mô hình có sự biến động lớn như giá vàng hay giá cổ phiếu…
13
-
Đặc biệt, giá trị r2 càng cao thì mối quan hệ giữa nhân tố độc lập (biến độc lập)
và nhân tố phụ thuộc càng chặt chẽ. Vì thế mà r bình phương còn được biết
tới với cái tên hệ số tương quan r bình phương.
Qua đó có thể thấy ý nghĩa hệ số xác định r2 là vô cùng quan trọng trong thống kê và
nghiên cứu, đặc biệt là trong phương pháp hồi quy tuyến tính.
 Công thức 1 :
ESS
R2=1−
TSS
Trong đó:
- Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi
quy
- Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư
- Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ

 Công thức 2 :
R 2=
∑ ( ^y − ý )2
∑ ( y− ý )2
 Link chi tiết:

- http://phantichspss.com/r-binh-phuong-r-binh-phuong-hieu-chinh-cong-thuc-y-nghia-cach-tinh-
thu-cong-va-cach-tinh-bang-spss.html
- https://dinhnghia.vn/r-square-la-gi-cong-thuc-r-square.html
28. Định thức
Định thức của ma trận vuông A n x n là det A hay |A|:
a. Định nghĩa :
 Cho ma trận A=[aij ] vuông cấp n. Phần phụ đại số (phần bù đại số ) của aij ký hiệu
là Aij , được xác định như sau :
i+ j
Aij ¿(−1) det ⁡(M ij )
trong đó Mij là ma trận có được từ ma trận A bằng cách bỏ đi hàng i, cột j.
 Nếu n = 1 thì |A| = det|A| = a11

 Nếu n>1 thì :
A= [a 11 a12 … a1 n
¿ ¿ ]
→ det ( A )=| A|=a11 A11 + a12 A 12+…+ a1 n A 1n
(Đây khai triển theo hàng – còn có thể khai theo cột)
29. Ma trận nghịch đảo

a. Ma trận phụ hợp PA: Từ phần bù đại số lập ma trận phụ hợp
14
b. Tính :
1
A−1= .P
detA A
30. Trị riêng của ma trận A n x n
det |A− λI|=0 với λlà trị riêng
31. Maximum Likelihood Estimation (MLE) :

Ý tưởng của MLE là tìm tham số sao cho đầu ra của mô hình là khớp với tập dữ liệu quan sát
được. (Nguồn)
32. Maximum A Posteriori (MAP) :
MAP là tìm tham số sao cho gần với tham số thực tế của tập dữ liệu nhất có thể. (Nguồn)
33. Bag of Words (BoW) :
Mô hình túi từ (bag-of-words) là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ
tự nhiên và truy vấn thông tin (IR). Trong mô hình này, một văn bản (chẳng hạn như một câu
hoặc một tài liệu) được thể hiện dưới dạng túi (multiset) chứa các từ của nó, không quan tâm
đến ngữ pháp và thậm chí trật tự từ nhưng vẫn giữ tính đa dạng.
34. Chuẩn hóa dữ liệu :
a. Z-core
x−x́
z=
s
Có giá trị nằm trong khoảng -3 đến 3
b. Rescaling
15
Đưa tất cả các đặc trưng về cùng một khoảng, chẳng hạn [0,1] hoặc [−1,1] tùy thuộc
vào ứng dụng. Nếu muốn đưa đặc trưng thứ i của một vector đặc trưng x về khoảng
[0,1], công thức sẽ là:
' x i−min ⁡( xi )
x i=
max ( xi ) −min ⁡( x i )
c. Standardization
Mỗi đặc trưng đều có phân phối chuẩn với kỳ vọng là 0 và phương sai là 1.
x i− x́ i
x 'i =
σi
Với x́ i , σ i lần lượt là kỳ vọng và độ lệch chuẩn
d. Scaling to unit length :

x
x'=
¿| x|∨¿2 ¿
35. Kỹ thuật tránh overfitting
a. Validation
 Validation :
- Trích từ training set ra một lượng nhỏ và thực hiện đánh giá mô hình trên
tập con nhỏ.
- Tập con nhỏ được trích ra từ traning set mới được gọi là validation set.
Lúc này phần còn lại của training set ban đầu.
- Để chọn ra mô hình tốt ta quan sat validation error.
 Cross Validation (k-fold cross validation) :
- Giải quyết vấn đề training set quá ít dữ liệu để huấn luyện hoặc khi
validation set quá nhỏ , overfitting có thể xảy ra.
- Chia training set ra k tập con không giao nhau, có kích thước gần bằng
nhau. Tại mỗi lần (được gọi là 1 run), một trong số k tập con được lấy ra
làm vadidation set. Nhiều mô hình khác nhau sẽ được xây trên k-1 tập
hợp con còn lại. Mô hình cuối cùng xác định dựa vào trung bình của các
traning error và validation error.
b. Regularization
 Early stoping
 Thêm số hạng vào hàm mất mát
Lreg ( θ )=L ( θ )+ λR(θ)
R(θ) là số hạng regularization chỉ phụ thuộc vào θ. Số vô hướng λ thường là một
số dương nhỏ, còn được gọi là tham số regularization (regularization
parameter). Hai hàm regularization phổ biến là l1 norm và l2 norm
regularization (viết gọn là l1 regularization và l2 regularization).
c. Khác :
16
 L1 regularization : Hàm mất mát cộng thêm số hạng : λ .|w|
1 2
 L2 regularization (weight decay) : Hàm mất mát cộng thêm số hạng : 2 λ .‖w‖2
 Dropout (Sử dụng trong deep learning)
36. Gradient descent

a. Biến sau đạo hàm :
x t +1=x t−η f ' ( x t ) với η>0 là tốc độ học (learning rate)
Hoặc
v t+1=θt−η ∇θ f (θt )
b. GD với momentum
v t=γv t−1−η ∇θ J (θ)
θ ←θ−v t=θ−η ∇ θ J (θ−γv t−1 )
c. Những cách đạo hàm trong GD

 Batch gradient descent: khi cập nhật các tham số θ, chúng ta sử dụng tất cả các
điểm dữ liệu x i hay dùng tất cả dữ liệu trong traning set cho mỗi lần thực hiện
bước tính đạo hàm.
 Stochastic gradient descent : tại một thời điểm (vòng lặp–iteration), ta chỉ tính
đạo hàm của hàm mất mát dựa trên chỉ một điểm dữ liệu x i rồi cập nhật θ dựa
trên đạo hàm này - Mỗi lần duyệt một lượt qua tất cả các điểm trên toàn bộ dữ
liệu được gọi là một epoch. Hay chỉ dùng một dữ liệu trong traning set cho mỗi
lần thực hiện bước tính đạo hàm.
 Mini – batch gradient descent : sử dụng một số lượng k lớn hơn một (nhưng vẫn
nhỏ hơn tổng số điểm dữ liệu N rất nhiều) để cập nhật ở mỗi iteration.Hay dùng
một phần dữ liệu trong traning set cho mỗi lần bước tính đạo hàm.
d. Lưu ý:
 Nếu learning rate quá nhỏ: mỗi lần hàm số giảm rất ít nên cần nhiều vòng lặp để
hàm số đạt giá trị nhỏ nhất.
 Nếu learning rate hợp lý: sau một số lần lặp thì hàm số sẽ đạt giá trị đủ nhỏ.
 Nếu learning rate quá lớn: sẽ gây hiện tượng overshoot và hàm số không bao
giờ đạt giá trị cần tìm.
37. Hàm mất mát L hoặc J
a. Linear Regression
N N
1 1
L (w)= ∑ (^y − y )2= ∑ ( y i−x iT w)2
2 N i=1 2 N i=1
→ w=argminw L(w)
17
→ w=( X X T )−1 Xy
→ y=x T w+ b
b. Ridge regression
N
1 2 2
L (w)= ∑ (‖ y −X T w‖2 + λ‖w‖2)
2 N i=1
→ w=argminw L(w)
→ w=( X X T + λ)−1 Xy
c. K – means clustering
N K
1 2
L ( Y , M )= ∑ ∑ y ‖x −m j‖2
N i=1 j=1 ij i
K
thỏa mãn y ij ∈ {0,1 } , ∀ i, j ; ∑ y ij =1 , ∀ i
j=1
→ m j=argminm L(w) j
 Cố định M, tìm Y : Giả sử đã tìm được các centroid, hãy tìm các label
vector để hàm mất mát đạt giá trị nhỏ nhất.
 Cố định Y, tìm M : Giả sử đã tìm được cluster cho từng điểm, hãy tìm
centroid mới cho mỗi cluster để hàm mất mát đạt giá trị nhỏ nhất.
N
2
N N N ∑ y ij x i
∇ m l ( m j ) = ∑ y ij ( m j−x i) =0 ↔ m j ∑ y ij=∑ y ij x i ↔ m j= i=1N
j
N i=1 i=1 i=1
∑ y ij
i=1
d. Perceptron Learning Algorithm (PCA)

J ( w )= ∑ (− y i sgn ( wT x i ) )=¿ ∑ (− y i wT x i ) ¿
x i ∈M xi ∈ M
→ w=argmin w L(w)
→ w=w+ η y i x i
Trong PCA : chọn η=1
→ w=w+ yi x i
e. Logistic Regression
 Một điểm dữ liệu x rơi vào lớp thứ nhất là z i=¿f(w T x) và rơi vào lớp còn lại là 1−f(w T
x).
 Xây dựng hàm mất mát:
p ( y i|xi ) = p ( y i| xi ; w )=z i y (1−z i)1− y
i i
18
Logarit ta có:
N
−1 −1
J ( w )= log p ( y| X ; w )= ∑ ¿¿
N N i=1
 Tìm tham số :
∇ w J ( w , xi , y i )=( z i− y i ) x i=(σ ( w T x i) − y i ) x i với σ là hàm sigmoid
→ w=w−η ( z i− y i ) xi =w−η(σ ( wT x i ) − y i) x i
f. Softmax regression
−1
N
exp ( z i ) T
J ( W ; X ,Y )= ∑ log (a y ¿ ¿ ,i) với ai= C và z i=w i x ¿ ¿
N i=1 i
∑ exp ( z i )
j=1
N
1 1
∇ w J ( w )=
∑ x i eTi = X ET với e=a− y ;
N i=1 N
η
→ w=w− X b ETb với N b làkích thước của mỗi batch
Nb
g. Support Vector Machine
* Support Vector Machine:
 Margin:
y n (w T x n+ b)
margin=min n
‖w‖2
 Bài toán tối ưu của SVM chính là việc tìm w và b sao cho margin này đạt giá trị lớn
nhất:
y n(wT x n +b)
{
( w ,b )=argmax w , b minn
‖w‖2 }
=argmax w ,b
1
‖w‖2 {
minn y n (w T xn +b)
}
1 2
→ ( w , b ) =argminw ,b ‖w‖2
2
thỏa mãn1− y n ( wT x n+ b ) ≤ 0 , ∀ n=1,2 , … , N
* Soft-margin support vector machine:

N
1 2
→ ( w , b ) =argminw ,b ‖w‖2 +C ∑ ξ n
2 n=1
thỏa mãn1−ξ n− y n ( wT x n +b ) ≤ 0 , ∀ n=1,2 , … , N

−ξ n ≤0 , ∀ n=1,2 , … , N
 ξ nlà sự hi sinh :
ξ n=|wT x i +b− y i|
- ξ n=0 không có sự mất mát nào xảy ra.
- ξ n >0 với mỗi điểm nằm trong vùng không an toàn
38. Hàm kích hoạt – activation functions
a. Sgn
19
T
label ( x )= 1 nếu w x
{−1 nếu 0. w
Hay nói cách khác label(x) = sgn(w T x) với sgn là hàm xác định dấu.
b. Sigmoid
- Hàm này nhận giá trị từ 0 ->1
- Được sử dụng để phân lớp nhị phân - binary classification.
- Công thức :
1
σ ( x )=
1+e−x
→ σ ' ( x )=σ ( x ) .(1−σ ( x ) )
- Đồ thị
c. Tanh
- Hàm này nhận giá trị từ [-1;1]
- Công thức :
s −s
e −e
tanh ( s )= s −s
e +e
20
d. ReLU - Rectified Linear Unit
- Công thức :
f ( x )=max ( 0 , x )= 0 khi x ≤ 0
{ 1 khi x >0
- Đánh giá :
Hàm ReLu activation đơn giản dễ tính => thời gian training model nhanh hơn
Đạo hàm bằng 1 với x ≥ 0 .
39. Phương pháp đánh giá mô hình phân lớp ( classification)
(Nguồn: machinelearningcoban.com)
a. Accuracy (Độ chính xác ) :
Cách đánh giá này đơn giản tính tỉ lệ giữa số điểm được dự đoán đúng và tổng
số điểm trong tập dữ liệu kiểm thử.
b. Confusion matrix (Ma trận nhầm lẫn ) :
c. Nó là một ma trận vuông với kích thước mỗi chiều bằng số lượng lớp dữ liệu. Giá trị tại
hàng thứ i, cột thứ j là số lượng điểm lẽ ra thuộc vào class i nhưng lại được dự đoán là
thuộc vào class j. Như vậy, nhìn vào hàng thứ nhất (0), ta có thể thấy được rằng trong
số bốn điểm thực sự thuộc lớp 0, chỉ có hai điểm được phân loại đúng, hai điểm còn lại
bị phân loại nhầm vào lớp 1 và lớp 2.
21
d. True/False Positive/Negative
 True/ False Positibe/ Negative
- True Positive (TP): số lượng điểm của lớp positive được phân loại đúng là
positive.
- True Negative (TN): số lượng điểm của lớp negative được phân loại đúng
là negative.
- False Positive (FP): số lượng điểm của lớp negative bị phân loại nhầm
thành positive.
- False Negative (FN): số lượng điểm của lớp positiv bị phân loại nhầm
thành negative
- True positive rate (TPR), false negative rate (FNR), false positive rate
(FPR), true negative rate (TNR)
 Receiver Operating Characteristic curve (ROC curve)
 Area Under the Curve (AUC)
e. Precision và Recall
 Định nghĩa :
TP
Precision=
TP+ FP
TP
Recall=
TP+ FN
 Precision-Recall curve và Average precision

 F1-score
1 precision . recall
F 1=2. =2.
1 1 precision+ recall
+
precison recall
 Precision-recall cho bài toán phân lớp nhiều lớp
- Micro-average
- Macro-average
40. Mô hình chung của bài toán trong Deep Learning
 Thiết lập model
 Thiết lập loss function
 Tìm tham số bằng việc tối ưu loss function
 Dự đoán dữ liệu mới bằng model vừa tìm được
41. Khác
a. Linear Regression
 y = mx+c
∑ ( x−x́)( y− ý)
 m=
∑ ( x− x́)
b. Naivie Bayes classifier
22
p ( x|c ) p (c)
c=argmax c∈ {1 ,… ,C } p ( c|x )=argmax c =argmax c p ( x|c ) . p (c)
p( x )
d
với p ( x|c )= p ( x 1 , x 2 ,… , x d|c ) =∏ p ( x i|c )
i=1
→ c=argmax c ¿
→ c=argmax c ¿
 Các loại phân phối thường dùng :
o Gaussian naïve Bayes :Với θ = { μci , σ 2ci }
2
−( x− μ ci)
2 1 2.σ
2
p ( x i|c )= p ( x i|μci , σ ci ) = .e ci
√2 П σ 2ci
o Multimomial naïve Bayes
N ci N +α
λ ci= p ( x i|c )= hoặc λci = ci
Nc N c + dα
- N ci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c.
Nó chính là tổng của tất cả các đặc trưng thứ i của các vector đặc
trưng ứng với class c.
- N c là tổng số từ (kể cả lặp) xuất hiện trong class c
o Bernoulli Naïve Bayes
p ( x i|c )= p ( i|c ) x i+(1− p ( i|c ) )(1−x i)
c. Decision Tree:
 Cây quyết định bao gồm:
o Root node : điểm ngọn chứa giá trị của biến đầu tiên được dùng để phân
nhánh
o Internal node: các điểm bên trong thân cây là các biến chứa các thuộc
tính, giá trị dữ liệu được dùng để xét cho các phân nhánh tiếp theo.
o Leaf node : là các lá cây chứa giá trị của biến phân loại sau cùng
o Branch : là quy luật phân nhánh, nói đơn giản là mối quan hệ giữa giá trị
của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node)
d. Perceptron learning algorithm
 Tại một thời điểm, giả sử ta tìm được ranh giới là một siêu phẳng có phương trình
:
f w ( x )=w1 x1 +…+ wd x d + w0 =wT x + w0
 Gán nhán :
T
label ( x )=sgn ( w x ) = 1 nếu w x> 0
T
{
−1nếu 0. w
e. Support vector machine
Neural Network Support vector machine Tính chất chung
23
PLA Hard-margin SVM Hai lớp là linearly separable
Logistic regression Soft margin SVM Hai lớp gần linearly
separable
Softmax regression Multi-class SVM Nhiều lớp dữ liệu (ranh giới
là các siêu phẳng)
Multi layer perception Kernel SVM Bài toán phân lớp với biên
không linear separable
III. Phần thảo luận sách Machine learning cơ bản

1. Maximum Likelihood và Maximum A Posteriori
 Khi sử dụng các mô hình thống kê machine learning, chúng ta thường xuyên phải ước
lượng các tham số của mô hình θ, đại diện cho các tham số của các phân phối xác suất.
Có hai phương pháp phổ biến được sử dụng để ước lượng θ là Maximum Likelihood
Estimation (MLE) và Maximum A Posterior Estimation (MAP).
 Với MLE, việc xác định tham số θ được thực hiện bằng cách đi tìm các tham số sao cho
xác suất của tập huấn luyện, hay còn gọi là likelihood, là lớn nhất:
θ=argmax θ p( x 1 , … , x N ∨θ)
 Để giải bài toán tối ưu này, giả thiết các dữ liệu x i độc lập thường được sử dụng. Và bài
toán MLP trở thành:
N
θ=argmax θ ∏ p( x i∨θ)
i=1
 Với MAP, các tham số được đánh giá bằng cách tối đa posterior:
θ=argmax θ p(θ∨x 1 ,… , x N )
 Quy tắc Bayes và giả thiết về sự độc lập của dữ liệu thường được sử dụng:
N
θ=argmax θ [∏i=1
p(x i∨θ) p (θ) ]
Hàm mục tiêu ở đây chính là tích của likelihood và prior.
 Prior thường được chọn dựa trên các thông tin biết trước của tham số, và phân phối
được chọn thường là các conjugate distribution với likelihood, tức các phân phối khiến
việc nhân thêm prior vẫn giữ được cấu trúc giống như likelihood.
 MAP có thể được coi là một phương pháp giúp tránh overfitting. MAP thường mang lại
hiệu quả cao hơn MLE với trường hợp có ít dữ liệu huấn luyện.
2. Linear Regression
a. Các bài toán có thể giải bằng linear regression
 Hàm số y ≈ f(x) = x T w là một hàm tuyến tính theo cả w và x. Trên thực tế, linear
regression có thể áp dụng cho các mô hình chỉ cần tuyến tính theo w. Ví dụ:
y ≈ w1 x 1+ w2 x 2 +w 3 x 21 +w 4 sin ( x2 ) + ¿ w5 x1 x 2+ w0 ¿
là một hàm tuyến tính theo w và vì vậy cũng có thể được giải bằng linear
regression. Với mỗi vector đặc trưng x=[x 1 , x 2 ]T , chúng ta tính toán vector đặc
24
2 T
trưng mới mới~x=[ x1 , x2 , x1 , sin ( x 2) , x 1 x 2 ] rồi áp dụng linear regression với dữ liệu
mới này. Tuy nhiên, việc tìm ra các hàm số sin( x 2) hay x 1 x 2 là tương đối không tự
nhiên. Hồi quy đa thức (polynomial regression) thường được sử dụng nhiều hơn với
các vector đặc trưng mới có dạng[ x1 , x21 , …]T
b. Hạn chế của linear regression
 Hạn chế đầu tiên của linear regression là nó rất nhạy cảm với nhiễu (sensitive to
noise). Trong ví dụ về mối quan hệ giữa chiều cao và cân nặng bên trên, nếu có chỉ
một cặp dữ liệu nhiễu (150 cm, 90kg) thì kết quả sẽ sai khác đi rất nhiều.
Vì vậy, trước khi thực hiện linear regression, các nhiễu cần phải được loại bỏ. Bước
này được gọi là tiền xử lý (pre-processing). Hoặc hàm mất mát có thể thay đổi một
chút để tránh việc tối ưu các nhiễu bằng cách sử dụng Huber loss
(https://goo.gl/TBUWzg). Linear regression với Huber loss được gọi là Huber
regression, được khẳng định là robust to noise (ít bị ảnh hưởng hơn bởi nhiễu).
Xem thêm Huber Regressor, scikit learn (https://goo.gl/h2rKu5).
 Hạn chế thứ hai của linear regression là nó không biễu diễn được các mô hình phức
tạp. Mặc dù trong phần trên, chúng ta thấy rằng phương pháp này có thể được áp
dụng nếu quan hệ giữa outcome và input không nhất thiết phải là tuyến tính,
nhưng mối quan hệ này vẫn đơn giản nhiều so với các mô hình thực tế. Hơn nữa,
2
việc tìm ra các đặc trưng x 1 , sin ( x 2 ) , x 1 x2 như ở trên thì ít khả thi.
c. Ridge regression
Ngoài việc giúp cho phương trình đạo hàm theo hệ số bằng không có nghiệm duy nhất,
ridge regression còn giúp cho mô hình tránh được overfitting.
d. Phương pháp tối ưu khác
Linear regression là một mô hình đơn giản, lời giải cho phương trình đạo hàm bằng không
cũng khá đơn giản. Trong hầu hết các trường hợp, chúng ta không thể giải được phương
trình đạo hàm bằng không. Tuy nhiên, nếu một hàm mất mát có đạo hàm không quá phức
tạp, nó có thể được giải bằng một phương pháp rất hữu dụng có tên là gradient descent.
Trên thực tế, một vector đặc trưng có thể có kích thước rất lớn, dẫn đến ma trận X X T
cũng có kích thước lớn và việc tính ma trận nghịch đảo có thể không lợi về mặt tính toán.
Gradient descent sẽ giúp tránh được việc tính ma trận nghịch đảo.
3. K-Nearest Neighbors
 KNN cho Regression
Với bài toán regression, chúng ta cũng hoàn toàn có thể sử dụng phương pháp
tương tự: đầu ra của một điểm được xác định dựa trên đầu ra của các điểm lân cận
và khoảng cách tới chúng. Giả sử x 1 , … , x K là K điểm lân cận của một điểm dữ liệu z
với đầu ra tương ứng là y 1 , … , y K Giả sử các trọng số ứng với các lân cận này tính
được là w 1 , … , w K . Kết quả dự đoán đầu ra của z có thể được xác định bởi :
w1 y 1+ w2 y 2+ …+w k y k
w 1+ w2 +…+ w K
25
Ta có thể thấy rằng weights = ’distance’ có xu hướng gây ra overfitting.
 Ưu điểm của KNN

1. Độ phức tạp tính toán của quá trình huấn luyện là bằng 0.
2. Việc dự đoán kết quả của dữ liệu mới rất đơn giản (sau khi đã xác định được
các điểm lân cận).
3. Không cần giả sử về phân phối của các class.
 Nhược điểm của KNN
1. KNN rất nhạy cảm với nhiễu khi K nhỏ.
2. Như đã nói, KNN là một thuật toán mà mọi tính toán đều nằm ở khâu kiểm
thử. Trong đó việc tính khoảng cách tới từng điểm dữ liệu trong tập huấn
luyện tốn rất nhiều thời gian, đặc biệt là với các cơ sở dữ liệu có số chiều lớn
và có nhiều điểm dữ liệu. Với K càng lớn thì độ phức tạp cũng sẽ tăng lên.
Ngoài ra, việc lưu toàn bộ dữ liệu trong bộ nhớ cũng ảnh hưởng tới hiệu
năng của KNN.
4. K-means clustering
 Hạn chế của K-means clustering
- Số lượng cluster K cần được xác định trước. Trong thực tế, nhiều trường hợp
chúng ta không xác định được giá trị này. Bạn đọc có thể tham khảo một cách
giúp xác định giá trị K này có tên là elbow method.
- Nghiệm cuối cùng phụ thuộc vào các centroid được khởi tạo ban đầu. Trong
thuật toán này, hàm khởi tạo kmeans_init_centroids chọn ngẫu nhiên K điểm từ
tập dữ liệu làm các centroid ban đầu. Thêm nữa, thuật toán K-means clustering
không đảm bảo tìm được nghiệm tối ưu toàn cục, nên nghiệm cuối cùng phụ
thuộc rất nhiều vào các centroid được khởi tạo ban đầu. Hình 10.10 thể hiện các
kết quả khác nhau khi các centroid được khởi tạo khác nhau. Ta cũng thấy rằng
trường hợp (a) và (b) cho kết quả tốt, trong khi kết quả thu được ở trường hợp
(c) không thực sự tốt. Một điểm nữa có thể rút ra là số lượng vòng lặp tới khi
thuật toán hội tụ cũng khác nhau. Trường hợp (a) và (b) cùng cho kết quả tốt
nhưng (b) chạy trong thời gian gần gấp đôi. Một kỹ thuật giúp hạn chế nghiệm
xấu như trường hợp (c) là chạy thuật toán K-means clustering nhiều lần với các
centroid được khởi tạo khác nhau và chọn ra lần chạy cho giá trị hàm mất mát
thấp nhất4. Ngoài ra, [KA04], Kmeans++ [AV07,BMV+12] cũng là một vài thuật
toán nổi tiếng giúp chọn các centroid ban đầu.
- Các cluster cần có số lượng điểm gần bằng nhau. Hình 10.11a minh hoạ kết quả
khi các cluster có số lượng điểm chênh lệch. Trong trường hợp này, nhiều điểm
lẽ ra thuộc cluster xanh lam đã bị phân nhầm vào cluster xanh lục.
- Các cluster cần có dạng hình tròn (cầu) Khi các cluster vẫn tuân theo phân phối
chuẩn nhưng ma trận hiệp phương sai không tỉ lệ với ma trận đơn vị, các cluster
sẽ có dạng không phải là tròn (hoặc cầu trong không gian nhiều chiều). Khi đó,
26
K-means clustering cũng không hoạt động hiệu quả. Lý do chính là vì K-means
clustering quyết định cluster của một điểm dữ liệu dựa trên khoảng cách Euclid
của nó tới các centroid. Trong trường hợp này, Gaussian mixture models (GMM)
[Rey15] có thể cho kết quả tốt hơn5. Trong GMM, mỗi cluster được giả sử tuân
theo một phân phối chuẩn với ma trận hiệp phương sai không nhất thiết tỉ lệ
với ma trận đơn vị. Ngoài các centroid, các ma trận hiệp phương sai cũng là các
biến cần tối ưu trong GMM.
- Khi một cluster bị bao bọc bởi một cluster khác Hình 10.12 là một ví dụ kinh
điển về việc K-means clustering không thể phân cụm dữ liệu. Một cách tự nhiên,
chúng ta sẽ phân dữ liệu ra thành bốn cluster: mắt trái, mắt phải, miệng, xung
quanh mặt. Nhưng vì mắt và miệng nằm trong khuôn mặt nên K-means
clustering cho kết quả không chính xác. Với dữ liệu như trong ví dụ này, spectral
clustering [VL07,NJW02] sẽ cho kết quả tốt hơn. Spectral clustering cũng coi các
điểm gần nhau tạo thành một cluster, nhưng không giả sử về một centroid
chung cho cả cluster. Spectral clustering được thực hiện dựa trên một đồ thị vô
hướng với đỉnh là các điểm dữ liệu và cạnh được nối giữa các điểm gần nhau,
mỗi cạnh được đánh trọng số là một hàm của khoảng cách giữa hai điểm.
 Các ứng dụng khác của K-means clustering
Mặc dù có những hạn chế, K-means clustering vẫn cực kỳ quan trọng trong
machine learning và là nền tảng cho nhiều thuật toán phức tạp khác. Dưới đây là một
vài ứng dụng khác của K-means clustering.
- Cách thay một điểm dữ liệu bằng centroid tương ứng là một trong số các kỹ
thuật có tên chung là Vector Quantization – VQ [AM93]). Không chỉ trong
nén dữ liệu, VQ còn được kết hợp với Bag-of-Words [LSP06] áp dụng rộng rãi
trong các thuật toán xây dựng vector đặc trưng cho các bài toán phân loại.
- Ngoài ra, VQ còn được áp dụng trong các bài toán tìm kiếm trong cơ sở dữ
liệu lớn. Khi lượng điểm dữ liệu rất lớn, việc tìm kiếm trở nên cực kỳ quan
trọng. Khó khăn chính của việc này là làm thế nào có thể tìm kiếm một cách
nhanh chóng trong lượng dữ liệu khổng lồ đó. Ý tưởng cơ bản là sử dụng các
thuật toán clustering để phân các điểm dữ liệu thành nhiều nhóm nhỏ và
xấp xỉ mỗi điểm dữ liệu bằng centroid tương ứng. Khi tìm điểm gần nhất của
một điểm truy vấn (query), thay vì tính khoảng cách giữa điểm truy vấn đó
đến từng điểm trong cơ sở dữ liệu, ta sẽ chỉ cần tính khoảng cách từ điểm
đó tới các centroid (số lượng nhỏ hơn). Sau đó trả về các điểm được phân
vào centroid đó. Bạn đọc có thể đọc thêm các bài báo nổi tiếng gần đây về
vấn đề này: Product Quantization [JDS11], Cartesian k-means [NF13, JDJ17],
Composite Quantization [ZDW14], Additive Quantization [BL14].
5. Naïve bayes classification
27
 Naive Bayes classifiers (NBC) thường được sử dụng trong các bài toán phân loại văn
bản.
 NBC có thời gian huấn luyện và kiểm thử rất nhanh. Điều này có được là do giả sử
về tính độc lập giữa các thành phần.
 Nếu giả sử về tính độc lập được thoả mãn (dựa vào bản chất của dữ liệu), NBC
được cho là cho kết quả tốt hơn so với support vector machine (Phần VIII) và
logistic regression (Chương 14) khi có ít dữ liệu huấn luyện.
 NBC có thể hoạt động với các vector đặc trưng mà một phần là liên tục (sử dụng
Gaussian Naive Bayes), phần còn lại ở dạng rời rạc (sử dụng Multinomial hoặc
Bernoulli). Chính sự độc lập giữa các đặc trưng khiến NBC có khả năng này.
 Khi sử dụng Multinomial Naive Bayes, Laplace smoothing thường được sử dụng để
tránh trường hợp một từ trong dữ liệu kiểm thử chưa xuất hiện trong training set.
6. Gradient descent
 Điều kiện dừng thuật toán :
1. Giới hạn số vòng lặp. Một nhược điểm của cách làm này là có thể thuật toán
dừng lại trước khi nghiệm đủ tốt. Tuy nhiên, đây là phương pháp phổ biến nhất
và cũng để đảm bảo rằng chương trình chạy không quá lâu.
2. So sánh gradient của nghiệm tại hai lần cập nhật liên tiếp, khi nào giá trị này đủ
nhỏ thì dừng lại. Phương pháp này cũng có một nhược điểm lớn là việc tính đạo
hàm đôi khi trở nên quá phức tạp.
3. So sánh giá trị của hàm mất mát của nghiệm tại hai lần cập nhật liên tiếp, khi
nào giá trị này đủ nhỏ thì dừng lại. Nhược điểm của phương pháp này là nếu tại
một thời điểm, đồ thị hàm số có dạng bẳng phẳng tại một khu vực nhưng khu
vực đó không chứa điểm local minimum, thuật toán cũng dừng lại trước khi đạt
giá trị mong muốn.
4. Vừa chạy gradient descent, vừa kiểm tra kết quả. Một kỹ thuật thường được sử
dụng nữa là cho thuật toán chạy với số lượng vòng lặp cực lớn. Trong quá trình
chạy, chương trình thường xuyên kiểm tra chất lượng mô hình bằng cách áp
dụng nó lên dữ liệu tập huấn luyện và/hoặc validation. Đồng thời, mô hình sau
một vài vòng lặp được lưu lại trong bộ nhớ. Mô hình tốt nhất có thể không phải
là mô hình với số vòng lặp lớn hơn.
7. Perceptron learning algorithm
 PLA có thể cho vô số nghiệm khác nhau. Nếu hai lớp dữ liệu là linearly separable thì có
vô số đường thằng ranh giới của hai lớp dữ liệu đó như trên Hình 13.6a. Tất cả các
đường thẳng màu đen đều có thể đóng vài trò là đường ranh giới. Tuy nhiên, các
đường khác nhau sẽ quyết định điểm hình tam giác thuộc các lớp khác nhau.
 PLA đòi hỏi hai lớp dữ liệu phải linearly separable. Hình 13.6b mô tả hai lớp dữ liệu
tương đối linearly separable. Mỗi lớp có một điểm coi như nhiễu nằm lẫn trong các
điểm của lớp kia. PLA sẽ không làm việc, tức không bao giờ dừng lại, trong trường hợp
này vì với mọi đường thẳng ranh giới, luôn có ít nhất hai điểm bị phân lớp lỗi.
28
 Trong một chừng mực nào đó, đường thẳng màu đen vẫn có thể coi là một nghiệm tốt
vì nó đã giúp phân loại chính xác hầu hết các điểm. Việc không hội tụ với dữ liệu gần
linearly separable chính là một nhược điểm lớn của PLA.
 Nhược điểm này có thể được khắc phục bằng pocket algorithm dưới đây:
Pocket algorithm [AMMIL12]: một cách tự nhiên, nếu có một vài nhiễu, ta sẽ đi
tìm một đường thẳng phân chia hai class sao cho có ít điểm bị phân lớp lỗi nhất.
Việc này có thể được thực hiện thông qua PLA với một chút thay đổi nhỏ:
- Giới hạn số lượng vòng lặp của PLA. Đặt nghiệm w sau vòng lặp đầu tiên
và số điểm bị phân lớp lỗi vào trong túi quần (pocket).
- Mỗi lần cập nhật nghiệm wt mới, ta đếm xem có bao nhiêu điểm bị phân
lớp lỗi. So sánh số điểm bị phân lớp lỗi này với số điểm bị phân lớp lỗi
trong pocket, nếu nhỏ hơn thì lấy nghiệm cũ ra, đặt nghiệm mới này vào.
Lặp lại bước này đến khi hết số vòng lặp.
Thuật toán này giống với thuật toán tìm phần tử nhỏ nhất trong một mảng
một chiều.
8. Logistic regression
a. Kết hợp các phương án trên
Trong nhiều trường hợp, ta cần phải kết hợp hai hoặc ba trong số bốn kỹ thuật đã
đề cập. Xét ba ví dụ trong Hình 14.8.
 Hình 14.8a: cả 4 phương pháp trên đây đều có thể áp dụng được.
 Hình 14.8b: one-vs-rest không phù hợp vì lớp màu lục và hợp của lớp lam và lớp
đỏ là không (gần) linearly separable. Lúc này, one-vs-one hoặc hierarchical phù
hợp hơn.
 Hình 14.8c: Tương tự như trên, ba lớp lam, lục, đỏ thẳng hàng nên sẽ không
dùng được one-vs-rest. Trong khi đó, one-vs-one vẫn hiệu quả vì từng cặp lớp
dữ liệu là linearly separable. Tương tự hierarchical cũng làm việc nếu ta phân
chia các nhóm một cách hợp lý. Hoặc chúng ta có thể kết hợp nhiều phương
pháp. Ví dụ: dùng one-vs-rest để tìm đỏ với không đỏ. Nếu một điểm dữ liệu là
không đỏ, với ba lớp còn lại, ta lại quay lại trường hợp Hình 14.8a và có thể
29
dùng các phương pháp khác. Nhưng khó khăn vẫn nằm ở việc phân nhóm như
thế nào, liệu rằng những lớp nào có thể cho vào cùng một nhóm?
Với bài toán phân lớp đa lớp, nhìn chung các kỹ thuật sử dụng các bộ phân lớp nhị
phân đã trở nên ít hiệu quả hơn so với các phương pháp mới.
b. Biểu diễn các kỹ thuật đã nêu dưới dạng neural network

9. Softmax regression
a. Logistic regression là một trường hợp đặt biệt của softmax regression
Khi C = 2, softmax regression và logistic regression là giống nhau. Thật vậy, với C = 2,
đầu ra của hàm softmax cho một đầu vào x là
exp ⁡(wT1 x ) 1
a 1= = ; a2=1−a1
T T
exp ( w x ) + exp ⁡(w x)
1 2
1+exp ⁡( (w 2−w 1)T x )
Từ đây ta thấy rằng, a1 có dạng là một hàm sigmoid với vector hệ số w = −(w 2−w 1). Khi
C = 2, bạn đọc cũng có thể thấy rằng hàm mất mát của logistic regression và softmax
regression là như nhau. Hơn nữa, mặc dù có hai outputs, softmax regression có thể
biểu diễn bởi một output vì tổng của hai outputs luôn luôn bằng 1.
Softmax regression còn có các tên gọi khác là multinomial logistic regression, hay
maximum entropy classifier. Giống như logistic regression, softmax regression được sử
dụng trong các bài toán classification. Các tên gọi này được giữ lại vì vấn đề lịch sử.
b. Ranh giới tạo bởi softmax regression là một mặt tuyến tính
Thật vậy, dựa vào hàm softmax thì một điểm dữ liệu x được dự đoán là rơi vào class j
nếu a j ≥a k , ∀ k ≠ j . Bạn đọc có thể chứng minh được rằng
a j ≥a k ↔ z j ≥ z k ↔ wTj x ≥ w Tk x ↔ ( w j−wk )T x ≥0
T
Như vậy, một điểm thuộc lớp thứ j nếu và chỉ nếu ( w j −w k ) x ≥ 0 , ∀ k ≠ j. Như vậy, lãnh
thổ của mỗi lớp dữ liệu là giao của các nửa không gian. Nói cách khác, đường ranh giới
giữa các lớp là các mặt tuyến tính.
c. Softmax Regression là một trong hai classifiers phổ biến nhất
Softmax regression cùng với multi-class support vector machine (Chương 29) là hai bộ
phân lớp phổ biến nhất được dùng hiện nay. Softmax regression đặc biệt được sử
dụng nhiều trong các deep neural network với rất nhiều hidden layer. Những layer
phía trước có thể được coi như một bộ tạo vector đặc trưng, layer cuối cùng thường là
một softmax regression.
10. Support vector machine
a. Support vector machine
 Với bài toán phân lớp nhị phân mà hai lớp dữ liệu là linearly separable, có vô số
các mặt phân cách phẳng giúp phân chia hai lớp đó. Khoảng cách gần nhất từ
một điểm dữ liệu tới mặt phân cách ấy được gọi là margin của bộ phân lớp với
ranh giới là mặt phẳng đó.
30
 Support vector machine là bài toán đi tìm mặt phân cách sao cho margin có
được là lớn nhất, đồng nghĩa với việc các điểm dữ liệu có một khoảng cách an
toàn tới mặt phân cách.
 Bài toán tối ưu trong SVM là một bài toán convex với hàm mục tiêu là stricly
convex, vì vậy, local optimum cũng là global optimum của bài toán. Hơn nữa, bài
toán tối ưu đó là một quadratic programming (QP).
 Mặc dù có thể trực tiếp giải SVM qua bài toán primal, thông thường người ta
thường giải bài toán dual. Bài toán dual cũng là một QP nhưng nghiệm là sparse
nên có những phương pháp giải hiệu quả hơn.
b. Soft-margin support vector machine
 SVM thuần (hard-margin SVM) hoạt động không hiệu quả khi có nhiễu ở gần
ranh giới hoặc thậm chí khi dữ liệu giữa hai lớp gần linearly separable. Soft-
margin SVM có thể giúp khắc phục điểm này.
 Trong soft-margin SVM, chúng ta chấp nhận lỗi xảy ra ở một vài điểm dữ liệu.
Lỗi này được xác định bằng khoảng cách từ điểm đó tới đường margin tương
ứng. Bài toán tối ưu sẽ tối thiểu lỗi này bằng cách sử dụng thêm các biến được
gọi là slack varaibles. Để giải bài toán tối ưu, có hai cách khác nhau.
 Cách thứ nhất là giải bài toán đối ngẫu. Bài toán đối ngẫu của soft margin SVM
rất giống với bài toán đối ngẫu của hard-margin SVM, chỉ khác ở ràng buộc chặn
trên của các nhân tử Laggrange. Ràng buộc này còn được gọi là box costraint.
 Cách thứ hai là đưa bài toán về dạng không ràng buộc dựa trên một hàm mới
gọi là hinge loss. Với cách này, hàm mất mát thu được là một hàm lồi và có thể
giải được một cách hiệu quả bằng các phương pháp gradient descent.
 Soft-margin SVM yêu cầu chọn hằng số C. Hướng tiếp cận này còn được gọi là C-
SVM. Ngoài ra, còn có một hướng tiếp cận khác cũng hay được sử dụng, gọi là ν-
SVM
c. Kernel support vector machine
 Trong bài toán phân lớp nhị phân, nếu dữ liệu của hai lớp là không linearly
section, chúng ta có thể tìm cách biến đổi dữ liệu sang một không gian mới sao
cho trong không gian mới ấy, dữ liệu của hai lớp là (gần) linearly separable.
 Việc tính toán trực tiếp hàm Φ() đôi khi phức tạp và tốn nhiều bộ nhớ. Thay vào
đó, ta có thể sử dụng kernel trick. Trong cách tiếp cận này, ta chỉ cần tính tích vô
hướng của hai vector bất kỳ trong không gian mới: k(x,z) = Φ(x)TΦ(z). Thông
thường, các hàm k(.,.) thỏa mãn điều kiện Merrcer, và được gọi là kernel. Cách
giải bài toán SVM với kernel hoàn toàn giống với cách giải bài toán soft-margin
SVM.
 Có bốn loại kernel thông dụng: linear, poly, rbf, sigmoid. Trong đó, rbf được sử
dụng nhiều nhất và là lựa chọn mặc định trong các thư viện SVM.
d. Multi class support vector machine
31
 Giống như softmax regression, multi-class SVM vẫn được coi là một bộ phân lớp
tuyến tính vì đường ranh giới giữa các lớp là các đường tuyến tính.
 Kernel SVM cũng hoạt động khá tốt, nhưng việc tính toán ma trận kernel có thể
tốn nhiều thời gian và bộ nhớ. Hơn nữa, việc mở rộng nó ra cho bài toán multi-
class classification thường không hiệu quả bằng multi-class SVM vì kỹ thuật
được sử dụng vẫn là one-vs-rest. Một ưu điểm nữa của multi-class SVM là nó có
thể được tối ưu bằng các phương pháp gradient descent, phù hợp với các bài
toán với dữ liệu lớn. Việc đường ranh giới giữa các lớp là tuyến tính có thể được
giải quyết bằng cách kết hợp nó với các deep neurel network.
 Có một cách nữa mở rộng hinge loss cho bài toán multi-class classification là
dùng loss:max ⁡¿ . Đây chính là vi phạm lớn nhất, so với tổng vi pham mà chúng
ta sử dụng trong bài này.
11. Decision Tree (ID3)
 Nếu một thuộc tính có thể nhận rất nhiều giá trị, decision tree thu được có thể sẽ có rất nhiều
node. Xét một ví dụ về các triệu chứng của các bệnh nhân trong một bệnh viện và đầu ra là
mắc bệnh hay không. Mỗi bệnh nhân có một mã số (id) khác nhau. Nếu ta sử dụng thuộc tính
này cho việc huấn luyện, ta rất có thể sẽ thu được mộ decision tree mà mỗi leaf node ứng với
một bệnh nhân. Lúc đó mô hình này là vô dụng, vì không thể dự đoán được việc mắc bệnh
hay không của một bệnh nhân mới.
 Khi một thuộc tính nhận giá trị liên tục, chẳng hạn temperature không còn là hot, mild,
cool nữa mà là các giá trị thực liên tục, vẫn có một cách để áp dụng ID3. Ta có thể chia
khoảng giá trị của thuộc tính này thành nhiều phần, mỗi phần có số lượng điểm tương đương,
hoặc cũng có thể dùng các thuật toán clustering đơn giản cho một chiều dữ liệu để chia thuộc
tính thành các cluster nhỏ. Lúc này, thuộc tính liên tục được chuyển về thuộc tính dạng
categorical.
 Hạn chế lớn nhất của ID3 và decision tree nói chung là việc nếu một điểm dữ liệu mới rơi
vào nhầm nhánh ở ngay những lần phân chia đầu tiên, kết quả cuối cùng sẽ khác đi rất nhiều.
Việc rơi vào nhầm nhánh này rất dễ xảy ra trong trường hợp thuộc tính liên tục được chia
thành nhiều nhóm nhỏ, vì hai điểm có thuộc tính tương ứng rất gần nhau có thể rơi vào hai
nhóm khác nhau.
12. Đánh giá hệ thống phân lớp
 Accuracy là tỉ lệ giữa số điểm được phân loại đúng và tổng số điểm. Accuracy chỉ phù
hợp với các bài toán mà kích thước các lớp dữ liệu là tương đối như nhau.
 Confusion matrix giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại
đúng/sai như thế nào.
 True Positive (TP): số lượng điểm của lớp positive được phân loại đúng là positive.
 True Negative (TN): số lượng điểm của lớp negative được phân loại đúng là negative.
 False Positive (FP): số lượng điểm của lớp negative bị phân loại nhầm thành positive.
 False Negative (FN): số lượng điểm của lớp positiv bị phân loại nhầm thành negative.
 True positive rate (TPR), false negative rate (FNR), false positive rate (FPR), true
negative rate (TNR):
Predicted as Positive Predicted as Negative
32
Actual : Positive TPR =TP/(TP+FN) FNR =FN/(TP+FN)
Actual : Negative FPR = FP/(FP+TN) TNP =TN /(FP+TN)
 Khi kích thước các lớp dữ liệu là chênh lệch (imbalanced data hay skew data), precision và
recall thường được sử dụng:
TP
Precision=
TP+ FP
TP
Recall=
TP+ FN
 F1 score:
1 precision . recall
F 1=2. =2.
1 1 precision+ recall
+
precison recall
 Micro-average precision, macro-average recall là trung bình cộng của các precision, recall cho
từng lớp. Micro-average (macro-average) F1 scores cũng được tính dựa trên các micro-
average (macro-average) precision, recall tương ứng.
33
IV. Tiếng anh chuyên ngành
Từ Tiếng Anh Từ Tiếng Việt Viết tắt STT

activation function Hàm kích hoạt 1
acyclic graph Đồ thị không chứa chu trình kín 2
almost everywhere differentiable có đạo hàm tại gần như mọi nơi 3
anomaly detection Dò điểm bất thường 4
artificial intelligence Trí tuệ nhân tạo AI 5
attribute Thuộc tính 6
auxiliary function hàm hỗ trợ 7
axis Trục 8
binary classification Phân lớp nhị phân 9
boundary Ranh giới 10
Centering data Trung tâm hóa dữ liệu 11
centroid Điểm đại diện 12
chain Chuỗi 13
class Lớp 14
classification Phân lớp 15
clustering Phân nhóm 16
collaborative filtering khuyến nghị sản phẩm dựa trên sự tương quan CF 17
column Cột 18
concave lõm 19
conditional probability Điều kiện xắc suất 20
confidence Độ chắc chắn/ tin cậy 21
conjugate transpose Chuyển vị liên hợp 22
constraints Ràng buộc 23
content-based system khuyến nghị dựa trên đặc tính của sản phẩm 24
continuous Liên tục 25
contour / level set Đường đồng mức 26
convex Lồi 27
convex combination tổ hợp lồi 28
convex hull Bao lồi 29
convex optimization Tối ưu lồi 30
convex optimization problems Bài toán tối ưu lồi 31
Correlation Matrix Ma trận tương quan 32
cost function Hàm mất mát 33
covariance matrix Ma trận hiệp phương sai 34
data normalization chuẩn hoá dữ liệu 35
data point Điểm dữ liệu 36
34
deep learning Học Sâu 37
degree of preference Mức độ quan tâm 38
denoising Giảm nhiễu 39
density estimation ước lượng một phân phối 40
determinant Định Thức 41
Deviation Độ lệch 42
diagonal matrix Ma trận đường chéo 43
diagonalizable Chéo hóa 44
dimension Chiều 45
dimensionality/dimension reduction Giảm chiều dữ liệu 46
dimentionality reduction Giảm số chiều dữ liệu 47
discrete Rời rạc 48
discriminant những thông tin đặc trưng cho mỗi lớp,

khiến nó không bị lẫn với các classes khác 49
distribution Phân phối 50

domain Tập xác định / dom f 51
dual problem bài toán đối ngẫu 52
eigenspace Không gian riêng 53
eigenvector Vector riêng 54
encoding categorical variables mã hóa các biến nhóm 55
epoch 1 lần lướt qua tất cả toàn bộ dữ liệu 56
equality constraint đẳng thức ràng buộ 57
estimate Ước lượng 58
expectation Kỳ vọng 59
feature Đặc trưng 60
feature engineering Trích chọn đặc trưng 61
feature extraction Trích chọn đặc trưng 62
feature extraction Tạo ra các đặc trưng mới từ đặc trưng cũ 63
feature selection Đặc trưng quan trọng 64
feedforward Data đi thẳng từ đầu đến cuối không back 65
fine-tuning Tinh chỉnh 66
fluctuate Nhảy lên nhảy xuống 67
full information dữ liệu có sẵn 68
generalization Tính tổng quát 69
global minimum Hàm số đạt giá trị nhỏ nhất 70
gradient Đạo hàm 71
halfspace Nửa không gian 72
35
hand-crafted feature feature được tạo thủ công 73
hidden Ẩn 74
hierarchical Phân tầng 75
hierarchical clustering Clustering phân tầng 76
hyperparameters Siêu tham số 77
hyperplane Siêu mặt phẳng 78
hyperpolygon Siêu đa diện 79
incrementally Từ từ 80
inequality constraint bất đẳng thức ràng buộc 81
infeasible vô nghiệm 82
information retrieval Thu thập thông tin 83
inverse matrix Ma trận nghịch đảo 84
item-item collaborative filtering item-item C 85
iteration Vòng lặp 86
joint probability function hàm xác suất chung 87
label Nhãn, lớp 88
Lagrange multiplier nhân tử Lagrange 89
latent feature Đặc trưng ẩn 90
learning rate Tốc độ học 91
level sets Đường đồng mức 92
likelihood Hàm mục tiêu 93
linear combination Tổ hợp tuyến tính 94
Linear discriminant analysis LDA 95
linear independence Độc lập tuyến tính 96
Linear Interpolation Nội suy tuyến tính 97
linearly separable Hai lớp phân chia bằng 1 siêu phẳng 98
local minimum Điểm cực tiểu 99
local optimal Các điểm cực trị 100
loss function Hàm mất mát 101
lower triangular matrix Ma trận tam giác dưới 102
low-training Huấn luyện nhỏ 103
machine learning Học Máy ML 104
major voting Bầu chọn theo đa số 105
margin /soft-margin / hard-margin Biên, lề / Biên mềm / Biên cứng 106
matrix completion Hoàn thiện ma trận 107
matrix factorization Phân tích ma trận thành nhân tử 108
maximum a posteriori MAP estimati
109
estimation
36
maximum likelihood estimation MLE 110
mean Trung bình cộng 111
mean normalization Co giãn trung bình 112
mean squared error MSE 113
Median Trung vị 114
misclassified Phân lớp lỗi 115
Missing at Random Khuyết ngẫn nhiên MAR 116
Missing Completely at Random Khuyết hoàn toàn ngẫu nhiên MCAR 117
missing data xử lý dữ liệu bị khuyết 118
Missing not at Random Khuyết không ngẫu nhiên 119
mix-integer programming điều kiện biến là số nguyên 120
multilayer perceptrons multilayer neural networ MLPs 121
naive Ngây thơ 122
naive bayes classifiers NBC 123
natural language processing Xử lý ngôn ngữ tư nhiên NLP 124
neighborhood-based collaborative filtering NBCF 125
nesterov accelerated gradient NAG 126
nguyên lý Pareto Quy tắc 20/80 127
nominal categorical features các đặc trưng định danh 128
nonconvex không lồi 129
non-graphical exploring data analysis Phân tích khám phá phi hình ảnh 130
nonlinear transformation phép biến đổi phi tuyến 131
norm chuẩn 132
Numeric Encoding Mã hóa số 133
numerically more stable ổn định hơn trong tính toán 134
object detection Xác định vị trí vật thể 135
object segmentation Tách vật thể 136
objective function Hàm mục tiêu 137
observation Quan sát 138
optimal duality gap khoảng cách đối ngẫu tối ưu 139
optimization variable Biến tối ưu 140
oridinal categorical features các đặc trưng nhóm có thứ tự 141
outliers Sự tồn tại của các ngoại vi, ngoại lệ 142
overfitting Quá khớp 143
Parallel Coordinate Hệ tọa độ song song 144
parameter Tham số 145
partial derivative Đạo hàm riếng 146
37
perceptron learning algorithm PLA 147
performance measure Phép đánh giá 148
phase Bước 149
pocket Túi quần 150
poly-nomial regression Hồi quy đa thức 151
posynomial function / posynomial đa thức 152
predicted rating dự đoán mức độ quan tâm 153
pre-processing Tiền xử lý 154
Principle component analysis PCA 155
probability Xắc suất 156
probability density function Hàm mật độ xắc suất pdf 157
probability density function hàm mật độ xác suất 158
projection matrix Ma trận chiếu 159
pseudo inverse Giả khả nghịch/ numpy.linalg.pinv(A) 160
quadratic form Dạng toàn phương 161
quadratic programming QP 162
query Truy vấn 163
random projection chiếu ngẫu nhiên 164
rank Hạng của ma trận 165
ranking Xếp hạng 166
raw data Dữ liệu thô 167
recommendation system Hệ thống khuyến nghị RS 168
recommender system Hệ thống khuyến nghị 169
regression Hồi quy, tiên lượng 170
Regularization parameter Tham số regularization 171
reinforcement learning Học củng cố 172
rescaling Chuẩn hóa min-max 173
Root Mean Squared Error căn bậc 2 của trung bình cộng bình RMSE 174
phương của lỗi
samples các mẫu dữ liệu 175
scaling data co giãn dữ liệu 176
scatter plot Địa đồ phân tán 177
sensitive to noise Nhảy cảm với nhiễu 178
sequential minimal optimization SMO 179
shuffle Xáo trộn 180
similarity Sự tương quan/ Sự giống nhau 181
singular value decomposition SVD 182
sparse Thưa 183
38
spatial information Thông tin về không gian 184
spectrum Phổ 185
standard deviation Độ lệc chuẩn 186
standard form dạng tiêu chuẩn 187
standardisation Chính quy hóa 188
standardizing data chuẩn hóa dữ liệu 189
statistical Thống kê 190
stochastic Ngẫu nhiên 191
stochastic gradient descent SGD 192
strictly convex lồi chặt 193
supervised learning Học giám sát 194
surface Bề mặt 195
task Nhiệm vụ 196
test set Tập kiểm thử 197
the first principal component Thành phấn chính thứ nhất 198
trace Vết của ma trận 199
training set Tập huấn luyện 200
transpose Chuyển vị 201
trapped Bẫy 202
true model Mô hình thực 203
unbounded below hàm mục tiêu không bị chặn dưới 204
unconstrained optimization problems Các bài toán tối ưu không ràng buộc 205
underfitting 206
unstable không ổn đinh 207
unsupervised learning Học không giám sát 208
upper triangular matrix Ma trận tam giác trên 209
variability Độ phân tán 210
variance Phương sai 211
vectorization Vector hóa 212
weight matrix Ma trận trọng số 213
zero-corrected data Dữ liệu đã được chuẩn hóa 214
Artificial neural network Mạng nơron ANN 215
216
217
218
Meaning
API Application Programming Interface

39
AE Auto encoder
AD Automatic differentiation
ARD Automatic Relevance Determination
ASR Automatic Speech Recognition
BPTT Back propagation through time
BPTS Backpropagation through structure
BNN Binary Neural Net
COCO Common Objects in Context [Image Library]
CPPN Compositional Pattern-Producing Network
CTC connectionist temporal classification
CNN Convolutional Neural network
DBN Deep Belief Network
DCGAN deep convolutional generative adversarial networks
DNN Deep Neural Network
EBM Energy Based Model
ESP Enforced SubPopulations
ELU Exponential Linear Unit
GRU Gated Recurrent Unit
GMM Gaussian Mixture Model
GAN Generative Adversarial Network
GA Genetic algorithm
HTM Heirarchal temporal memory
HMM Hidden Markov Model
HAM Hierarchical Attentive Memory
KNN k-Nearest Neighbors
LReLU Leaky ReLU
LTU Linear Threshold Unit
LSTM Long short-term memory
MCMC Markov chain Monte Carlo
MDP Markov Decision Processes
MNIST Modified National Institute of Standards and Technology (database used a lot in ML)
MLP Multi-layer Perceptrons

40
NLP Natural Language Processing
NMT neural machine translation
NTM Neural Turing Machine
NE NeuroEvolution
NEAT NeuroEvolution of Augmenting Topologies
OLS Ordinary Least Squares Regression
PReLU Paramaterized ReLU
PCA Principal component analysis
PAC-MDP Probably Approximately Correct in Markov Decision Processes
RTRL Real Time Recurrent Learning
ReLU Rectified Linear Unit
RNN Recurrent Neural Network
RNTN Recursive Neural Tensor Network
RL Reinforcement Learning
RVM Relevance Vector Machine
ResNet Residual Neural Network
RProp resilient backpropagation
RBM Restricted Boltzmann Machines
SIFT Scale-Invariant Feature Transform
SRN Simple Recurrent Network
SVD singular value decomposition
SGD Stochastic Gradient Descent
SVM Support Vector Machine
SANE Symbiotic Adaptive NeuroEvolution
TF TensorFlow
TFIDF Term Frequency Inverse Document Frequency
VLAD Vector of Locally Aggregated Descriptors
WFST Weighted Finite-State Transducers
41

Những kiến thức tóm tắt về toán học, xắc suất và ý nghĩa thuật toán trong Machine Learning

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Những kiến thức tóm tắt về toán học, xắc suất và ý nghĩa thuật toán trong Machine Learning

Uploaded by

Copyright:

Available Formats

Mục lục

3. Cách sử dụng scikit learn

Hoặc khoảng cách từ 1 điểm z tới một điểm x i :

13. Kì vọng – Expectation E(x)

15. Standard Deviation – Độ lệch chuẩn

16. Quan hệ phương sai và độ lệch

19. Information Gain(IG)

20. Confusion Matrix

True Positive +True Negatives

21. Các loại phân phối

 Hàm mật độ : f ( 1 ) =p ; f ( 0 )=1− p

d. Phân phối Poision ( Poa-xông ) X Poi( λ ):

Với λ = bằng biến tỷ lệ

23. The Estimates

d. Chuẩn giới hạn âm - negative infinite norm :

25. Đạo hàm .

- Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ

 Link chi tiết:

trong đó Mij là ma trận có được từ ma trận A bằng cách bỏ đi hàng i, cột j.

 Nếu n = 1 thì |A| = det|A| = a11

29. Ma trận nghịch đảo

31. Maximum Likelihood Estimation (MLE) :

Với x́ i , σ i lần lượt là kỳ vọng và độ lệch chuẩn

d. Scaling to unit length :

Lreg ( θ )=L ( θ )+ λR(θ)

36. Gradient descent

v t=γv t−1−η ∇θ J (θ)

θ ←θ−v t=θ−η ∇ θ J (θ−γv t−1 )

c. Những cách đạo hàm trong GD

d. Perceptron Learning Algorithm (PCA)

Trong PCA : chọn η=1

* Soft-margin support vector machine:

thỏa mãn1−ξ n− y n ( wT x n +b ) ≤ 0 , ∀ n=1,2 , … , N

 Precision-Recall curve và Average precision

p ( x i|c )= p ( i|c ) x i+(1− p ( i|c ) )(1−x i)

Neural Network Support vector machine Tính chất chung

III. Phần thảo luận sách Machine learning cơ bản

 Ưu điểm của KNN

a. Kết hợp các phương án trên

b. Biểu diễn các kỹ thuật đã nêu dưới dạng neural network

Predicted as Positive Predicted as Negative

Từ Tiếng Anh Từ Tiếng Việt Viết tắt STT

discriminant những thông tin đặc trưng cho mỗi lớp,

distribution Phân phối 50

API Application Programming Interface

ARD Automatic Relevance Determination

ASR Automatic Speech Recognition

BPTT Back propagation through time

BPTS Backpropagation through structure

BNN Binary Neural Net

COCO Common Objects in Context [Image Library]

CPPN Compositional Pattern-Producing Network

CTC connectionist temporal classification

CNN Convolutional Neural network

DBN Deep Belief Network

DCGAN deep convolutional generative adversarial networks

DNN Deep Neural Network

EBM Energy Based Model

ESP Enforced SubPopulations

ELU Exponential Linear Unit

GRU Gated Recurrent Unit

GMM Gaussian Mixture Model

GAN Generative Adversarial Network

HTM Heirarchal temporal memory