Professional Documents
Culture Documents
Những kiến thức tóm tắt về toán học, xắc suất và ý nghĩa thuật toán trong Machine Learning
Những kiến thức tóm tắt về toán học, xắc suất và ý nghĩa thuật toán trong Machine Learning
I. Sơ đồ...........................................................................................................................................................................4
1. Phân loại học máy...................................................................................................................................................4
2. Regression..............................................................................................................................................................5
3. Cách sử dụng scikit learn........................................................................................................................................5
II. Những kiến thức cơ bản............................................................................................................................................7
1. Maximum - Giá trị lớn nhất.....................................................................................................................................7
2. Average – Trung bình..............................................................................................................................................7
3. Minimum - Giá trị nhỏ nhất....................................................................................................................................7
4. Large....................................................................................................................................................................... 7
5. Medium – Trung bình.............................................................................................................................................7
6. Small.......................................................................................................................................................................7
7. Mean – Trung bình cộng.........................................................................................................................................7
8. Median - Giá trị của ở giữa của dãy khi được sắp xếp............................................................................................7
9. Mode – giá trị được lặp lại nhiều nhất trong 1 mẫu...............................................................................................7
10. Range = Max(xi) - Min(xi).....................................................................................................................................7
11. Inter Quartile Range(IQR)...................................................................................................................................7
12. Khoảng cách Euclide...........................................................................................................................................7
13. Kì vọng – Expectation E(x)...................................................................................................................................7
14. Variance – Phương Sai........................................................................................................................................7
15. Standard Deviation – Độ lệch chuẩn...................................................................................................................8
16. Quan hệ phương sai và độ lệch..........................................................................................................................9
17. Softmax.............................................................................................................................................................10
18. Entropy.............................................................................................................................................................10
19. Information Gain(IG).........................................................................................................................................10
20. Confusion Matrix..............................................................................................................................................10
21. Các loại phân phối.............................................................................................................................................10
22. Định lý Bayes.....................................................................................................................................................12
23. The Estimates....................................................................................................................................................12
24. Vector norm – Chuẩn norm..............................................................................................................................13
25. Đạo hàm ...........................................................................................................................................................13
26. Margin of Error E...............................................................................................................................................13
27. R square............................................................................................................................................................13
28. Định thức..........................................................................................................................................................15
1
29. Ma trận nghịch đảo...........................................................................................................................................15
30. Trị riêng của ma trận A n x n.............................................................................................................................15
31. Maximum Likelihood Estimation (MLE) :..........................................................................................................16
32. Maximum A Posteriori (MAP) :.........................................................................................................................16
33. Bag of Words (BoW) :........................................................................................................................................16
34. Chuẩn hóa dữ liệu :...........................................................................................................................................16
35. Kỹ thuật tránh overfitting..................................................................................................................................17
a. Validation..........................................................................................................................................................17
b. Regularization...................................................................................................................................................17
36. Gradient descent..............................................................................................................................................17
37. Hàm mất mát L hoặc J.......................................................................................................................................18
38. Hàm kích hoạt – activation functions................................................................................................................20
a. Sgn.................................................................................................................................................................... 20
b. Sigmoid.............................................................................................................................................................20
c. Tanh.................................................................................................................................................................. 21
d. ReLU - Rectified Linear Unit..............................................................................................................................22
39. Phương pháp đánh giá mô hình phân lớp ( classification)................................................................................22
a. Accuracy (Độ chính xác ) :.................................................................................................................................22
b. Confusion matrix (Ma trận nhầm lẫn ) :............................................................................................................22
d. True/False Positive/Negative............................................................................................................................23
e. Precision và Recall.............................................................................................................................................23
40. Mô hình chung của bài toán trong Deep Learning............................................................................................23
41. Khác.................................................................................................................................................................. 23
a. Linear Regression..............................................................................................................................................23
b. Naivie Bayes classifier.......................................................................................................................................23
c. Perceptron learning algorithm..........................................................................................................................24
d. Support vector machine....................................................................................................................................24
III. Phần thảo luận sách Machine learning cơ bản.....................................................................................................25
1. Maximum Likelihood và Maximum A Posteriori...................................................................................................25
2. Linear Regression..................................................................................................................................................25
3. K-Nearest Neighbors.............................................................................................................................................26
4. K-means clustering................................................................................................................................................27
5. Naïve bayes classification.....................................................................................................................................28
6. Gradient descent..................................................................................................................................................29
7. Perceptron learning algorithm..............................................................................................................................29
8. Logistic regression................................................................................................................................................30
2
9. Softmax regression...............................................................................................................................................31
10. Support vector machine....................................................................................................................................31
11. Decision Tree (ID3)............................................................................................................................................33
12. Đánh giá hệ thống phân lớp..............................................................................................................................33
IV. Tiếng anh chuyên ngành.......................................................................................................................................35
3
I. Sơ đồ
1. Phân loại học máy
4
2. Regression
5
6
II. Những kiến thức cơ bản
1. Maximum - Giá trị lớn nhất
2. Average – Trung bình
3. Minimum - Giá trị nhỏ nhất
4. Large
5. Medium – Trung bình
6. Small
7. Mean – Trung bình cộng
Hay còn gọi là điểm cân bằng. Là sự san bằng bù trừ chênh lệch tất cả các giá trị trong tập dữ
liệu, là đại diện cho độ tập trung của dữ liệu (Nguồn)
8. Median - Giá trị của ở giữa của dãy khi được sắp xếp
Là đứng giữa vị trí trung tâm (Nguồn). Ví dụ : Cho dãy : 21, 21, 21.3, 22.8, 23, 23, 23
Median = (22.8+23)/2 = 22.9
Thể hiện mức độ tập trung chính xác hơn mean và không bị ảnh hưởng bởi các giá trị
đột biến hay ngoại lệ
9. Mode – giá trị được lặp lại nhiều nhất trong 1 mẫu
10. Range = Max(xi) - Min(xi)
Thể hiện mức phân tán cao hay thấp
11. Inter Quartile Range(IQR)
12. Khoảng cách Euclide
n
d ( x , y )=||x− y||= √∑
i=1
(x i− y i )2
f. Standard Deviation
8
N
σ=
√
1
∑ ( x −μ)2
N i=1 i
Khi mà phương sai lớn (Hight Variance) mô hình của ta sẽ bị quá khớp (Overfitting),
còn độ lệch lớn (Hight Bias) thì mô hình của ta sẽ bị chưa khớp (Underfitting). Dựa vào
sự biến thiên của phương sai và độ lệch chuẩn ta có được độ biến thiên của lỗi. Tại nơi
mà đồ thị của lỗi đổi chiều ta sẽ có được điểm tối ưu cho mô hình.
17. Softmax
exp (x i )
y= C
∀ j=1,2 ,… , C
∑ exp ( x i)
j=1
18. Entropy
9
N
H ( S )=−∑ pi log 2 p i
i=1
a+ b
Trung bình : μ= 2
(b−a)2
Phương sai : σ 2=
12
b. Phân phối Bernoulli X Bern(p):
Một biến ngẫu nhiên X có phân phối Bernoulli nhận một trong 2 giá trị: 1 (thành
công) hoặc 0 (thất bại).
Xác suất thành công P(X = 1) = p, và xác suất thất bại P(X = 0) = q = 1-p.
f ( x )= ( nk ) p ( 1− p)
k n−k n
; k=0 ,1 , 2 ,… , n ; =
n!
k k ! ( n−k ) !
10
Trung bình : μ=n p
Phương sai : σ 2=np ( 1− p )=npq
Trung bình : μ= λt
Phương sai : σ 2=λt
e. Normal Distribution (Standard Normal Distribution) – Phân phối chuẩn, phân phối
Gauss) X N( μ , σ 2 ¿:
Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì
quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống
nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ 2).
Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối chuẩn
với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ trong
hình bên phải). Phân phối chuẩn còn được gọi là đường cong chuông (bell
curve) vì đồ thị của mật độ xác suất có dạng chuông.
2
−( x− μ)
1
2
2.σ
Hàm mật độ : f ( x )= .e ;x ∈R
σ √2 П
Trung bình : μ
Phương sai : σ 2
Note: phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ)
bằng 1
f. Phân phối mũ (Exponential Distribution) X exp( β ):
11
Phân phối mũ (Exponential Distribution) hoặc phân phối mũ phủ định đại diện
cho một phân phối xác suất giúp mô tả thời gian giữa hai sự kiện trong một quá
trình Poisson. Trong quá trình Poisson, các sự kiện xảy ra liên tục và độc lập
theo một tần suất trung bình không đổi. Phân phối mũ là một trường hợp đặc
biệt của phân phối gamma.
Hàm mật độ :
λ . e−λx ,if x ≥ 0
{ 0 if x <0
Trung bình : μ
Phương sai : σ 2
22. Định lý Bayes
P ( BA )∗P( A) = P ( AB )∗P(B)
P ( BA )= P( B) P( A)
b. Chuẩn 2– norm2:
N
¿|⃗x|∨¿2= √ ∑ ¿ x i∨¿2 ¿ ¿
i=1
c. Chuẩn p– norm p:
N
L p=¿|⃗x|∨¿ p= √∑
p
i=1
¿ x i∨¿ p ¿ ¿
- R bình phương cho biết mô hình đó hợp với dữ liệu ở mức bao nhiêu %.
Ví dụ: r bình phương = 0,65. Vậy mô hình hồi quy tuyến tính đang được thống kê sẽ
phù hợp với dữ liệu (hoặc biến) ở mức 65%.
- R bình phương cũng cho biết độ phù hợp của mô hình, người ta nghiên cứu
được rằng, với r bình phương > 50% thì một mô hình được đánh giá là phù
hợp.
Tất nhiên, không phải tất cả các mô hình đều phải có r bình phương > 50%, ta có thể
loại trừ một số mô hình có sự biến động lớn như giá vàng hay giá cổ phiếu…
13
-
Đặc biệt, giá trị r2 càng cao thì mối quan hệ giữa nhân tố độc lập (biến độc lập)
và nhân tố phụ thuộc càng chặt chẽ. Vì thế mà r bình phương còn được biết
tới với cái tên hệ số tương quan r bình phương.
Qua đó có thể thấy ý nghĩa hệ số xác định r2 là vô cùng quan trọng trong thống kê và
nghiên cứu, đặc biệt là trong phương pháp hồi quy tuyến tính.
Công thức 1 :
ESS
R2=1−
TSS
Trong đó:
- Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi
quy
- Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư
R 2=
∑ ( ^y − ý )2
∑ ( y− ý )2
A= [a 11 a12 … a1 n
¿ ¿ ]
→ det ( A )=| A|=a11 A11 + a12 A 12+…+ a1 n A 1n
(Đây khai triển theo hàng – còn có thể khai theo cột)
15
Đưa tất cả các đặc trưng về cùng một khoảng, chẳng hạn [0,1] hoặc [−1,1] tùy thuộc
vào ứng dụng. Nếu muốn đưa đặc trưng thứ i của một vector đặc trưng x về khoảng
[0,1], công thức sẽ là:
' x i−min ( xi )
x i=
max ( xi ) −min ( x i )
c. Standardization
Mỗi đặc trưng đều có phân phối chuẩn với kỳ vọng là 0 và phương sai là 1.
x i− x́ i
x 'i =
σi
R(θ) là số hạng regularization chỉ phụ thuộc vào θ. Số vô hướng λ thường là một
số dương nhỏ, còn được gọi là tham số regularization (regularization
parameter). Hai hàm regularization phổ biến là l1 norm và l2 norm
regularization (viết gọn là l1 regularization và l2 regularization).
c. Khác :
16
L1 regularization : Hàm mất mát cộng thêm số hạng : λ .|w|
1 2
L2 regularization (weight decay) : Hàm mất mát cộng thêm số hạng : 2 λ .‖w‖2
Dropout (Sử dụng trong deep learning)
Hoặc
v t+1=θt−η ∇θ f (θt )
b. GD với momentum
Nếu learning rate quá nhỏ: mỗi lần hàm số giảm rất ít nên cần nhiều vòng lặp để
hàm số đạt giá trị nhỏ nhất.
Nếu learning rate hợp lý: sau một số lần lặp thì hàm số sẽ đạt giá trị đủ nhỏ.
Nếu learning rate quá lớn: sẽ gây hiện tượng overshoot và hàm số không bao
giờ đạt giá trị cần tìm.
37. Hàm mất mát L hoặc J
a. Linear Regression
N N
1 1
L (w)= ∑ (^y − y )2= ∑ ( y i−x iT w)2
2 N i=1 2 N i=1
→ w=argminw L(w)
17
→ w=( X X T )−1 Xy
→ y=x T w+ b
b. Ridge regression
N
1 2 2
L (w)= ∑ (‖ y −X T w‖2 + λ‖w‖2)
2 N i=1
→ w=argminw L(w)
→ w=( X X T + λ)−1 Xy
c. K – means clustering
N K
1 2
L ( Y , M )= ∑ ∑ y ‖x −m j‖2
N i=1 j=1 ij i
K
thỏa mãn y ij ∈ {0,1 } , ∀ i, j ; ∑ y ij =1 , ∀ i
j=1
→ m j=argminm L(w) j
Cố định M, tìm Y : Giả sử đã tìm được các centroid, hãy tìm các label
vector để hàm mất mát đạt giá trị nhỏ nhất.
Cố định Y, tìm M : Giả sử đã tìm được cluster cho từng điểm, hãy tìm
centroid mới cho mỗi cluster để hàm mất mát đạt giá trị nhỏ nhất.
N
2
N N N ∑ y ij x i
∇ m l ( m j ) = ∑ y ij ( m j−x i) =0 ↔ m j ∑ y ij=∑ y ij x i ↔ m j= i=1N
j
N i=1 i=1 i=1
∑ y ij
i=1
→ w=argmin w L(w)
→ w=w+ η y i x i
→ w=w+ yi x i
e. Logistic Regression
Một điểm dữ liệu x rơi vào lớp thứ nhất là z i=¿f(w T x) và rơi vào lớp còn lại là 1−f(w T
x).
Xây dựng hàm mất mát:
p ( y i|xi ) = p ( y i| xi ; w )=z i y (1−z i)1− y
i i
18
Logarit ta có:
N
−1 −1
J ( w )= log p ( y| X ; w )= ∑ ¿¿
N N i=1
Tìm tham số :
∇ w J ( w , xi , y i )=( z i− y i ) x i=(σ ( w T x i) − y i ) x i với σ là hàm sigmoid
→ w=w−η ( z i− y i ) xi =w−η(σ ( wT x i ) − y i) x i
f. Softmax regression
−1
N
exp ( z i ) T
J ( W ; X ,Y )= ∑ log (a y ¿ ¿ ,i) với ai= C và z i=w i x ¿ ¿
N i=1 i
∑ exp ( z i )
j=1
N
1 1
∇ w J ( w )=
∑ x i eTi = X ET với e=a− y ;
N i=1 N
η
→ w=w− X b ETb với N b làkích thước của mỗi batch
Nb
g. Support Vector Machine
* Support Vector Machine:
Margin:
y n (w T x n+ b)
margin=min n
‖w‖2
Bài toán tối ưu của SVM chính là việc tìm w và b sao cho margin này đạt giá trị lớn
nhất:
y n(wT x n +b)
{
( w ,b )=argmax w , b minn
‖w‖2 }
=argmax w ,b
1
‖w‖2 {
minn y n (w T xn +b)
}
1 2
→ ( w , b ) =argminw ,b ‖w‖2
2
thỏa mãn1− y n ( wT x n+ b ) ≤ 0 , ∀ n=1,2 , … , N
ξ nlà sự hi sinh :
ξ n=|wT x i +b− y i|
- ξ n=0 không có sự mất mát nào xảy ra.
- ξ n >0 với mỗi điểm nằm trong vùng không an toàn
38. Hàm kích hoạt – activation functions
a. Sgn
19
T
label ( x )= 1 nếu w x
{−1 nếu 0. w
Hay nói cách khác label(x) = sgn(w T x) với sgn là hàm xác định dấu.
b. Sigmoid
- Hàm này nhận giá trị từ 0 ->1
- Được sử dụng để phân lớp nhị phân - binary classification.
- Công thức :
1
σ ( x )=
1+e−x
→ σ ' ( x )=σ ( x ) .(1−σ ( x ) )
- Đồ thị
c. Tanh
- Hàm này nhận giá trị từ [-1;1]
- Công thức :
s −s
e −e
tanh ( s )= s −s
e +e
20
d. ReLU - Rectified Linear Unit
- Công thức :
f ( x )=max ( 0 , x )= 0 khi x ≤ 0
{ 1 khi x >0
- Đánh giá :
Hàm ReLu activation đơn giản dễ tính => thời gian training model nhanh hơn
Đạo hàm bằng 1 với x ≥ 0 .
39. Phương pháp đánh giá mô hình phân lớp ( classification)
(Nguồn: machinelearningcoban.com)
a. Accuracy (Độ chính xác ) :
Cách đánh giá này đơn giản tính tỉ lệ giữa số điểm được dự đoán đúng và tổng
số điểm trong tập dữ liệu kiểm thử.
b. Confusion matrix (Ma trận nhầm lẫn ) :
c. Nó là một ma trận vuông với kích thước mỗi chiều bằng số lượng lớp dữ liệu. Giá trị tại
hàng thứ i, cột thứ j là số lượng điểm lẽ ra thuộc vào class i nhưng lại được dự đoán là
thuộc vào class j. Như vậy, nhìn vào hàng thứ nhất (0), ta có thể thấy được rằng trong
số bốn điểm thực sự thuộc lớp 0, chỉ có hai điểm được phân loại đúng, hai điểm còn lại
bị phân loại nhầm vào lớp 1 và lớp 2.
21
d. True/False Positive/Negative
True/ False Positibe/ Negative
- True Positive (TP): số lượng điểm của lớp positive được phân loại đúng là
positive.
- True Negative (TN): số lượng điểm của lớp negative được phân loại đúng
là negative.
- False Positive (FP): số lượng điểm của lớp negative bị phân loại nhầm
thành positive.
- False Negative (FN): số lượng điểm của lớp positiv bị phân loại nhầm
thành negative
- True positive rate (TPR), false negative rate (FNR), false positive rate
(FPR), true negative rate (TNR)
Receiver Operating Characteristic curve (ROC curve)
Area Under the Curve (AUC)
e. Precision và Recall
Định nghĩa :
TP
Precision=
TP+ FP
TP
Recall=
TP+ FN
22
p ( x|c ) p (c)
c=argmax c∈ {1 ,… ,C } p ( c|x )=argmax c =argmax c p ( x|c ) . p (c)
p( x )
d
với p ( x|c )= p ( x 1 , x 2 ,… , x d|c ) =∏ p ( x i|c )
i=1
→ c=argmax c ¿
→ c=argmax c ¿
Các loại phân phối thường dùng :
o Gaussian naïve Bayes :Với θ = { μci , σ 2ci }
2
−( x− μ ci)
2 1 2.σ
2
p ( x i|c )= p ( x i|μci , σ ci ) = .e ci
√2 П σ 2ci
o Multimomial naïve Bayes
N ci N +α
λ ci= p ( x i|c )= hoặc λci = ci
Nc N c + dα
- N ci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c.
Nó chính là tổng của tất cả các đặc trưng thứ i của các vector đặc
trưng ứng với class c.
- N c là tổng số từ (kể cả lặp) xuất hiện trong class c
o Bernoulli Naïve Bayes
c. Decision Tree:
Cây quyết định bao gồm:
o Root node : điểm ngọn chứa giá trị của biến đầu tiên được dùng để phân
nhánh
o Internal node: các điểm bên trong thân cây là các biến chứa các thuộc
tính, giá trị dữ liệu được dùng để xét cho các phân nhánh tiếp theo.
o Leaf node : là các lá cây chứa giá trị của biến phân loại sau cùng
o Branch : là quy luật phân nhánh, nói đơn giản là mối quan hệ giữa giá trị
của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node)
d. Perceptron learning algorithm
Tại một thời điểm, giả sử ta tìm được ranh giới là một siêu phẳng có phương trình
:
f w ( x )=w1 x1 +…+ wd x d + w0 =wT x + w0
Gán nhán :
T
label ( x )=sgn ( w x ) = 1 nếu w x> 0
T
{
−1nếu 0. w
e. Support vector machine
23
PLA Hard-margin SVM Hai lớp là linearly separable
Logistic regression Soft margin SVM Hai lớp gần linearly
separable
Softmax regression Multi-class SVM Nhiều lớp dữ liệu (ranh giới
là các siêu phẳng)
Multi layer perception Kernel SVM Bài toán phân lớp với biên
không linear separable
Với MAP, các tham số được đánh giá bằng cách tối đa posterior:
θ=argmax θ p(θ∨x 1 ,… , x N )
Quy tắc Bayes và giả thiết về sự độc lập của dữ liệu thường được sử dụng:
N
θ=argmax θ [∏i=1
p(x i∨θ) p (θ) ]
Hàm mục tiêu ở đây chính là tích của likelihood và prior.
Prior thường được chọn dựa trên các thông tin biết trước của tham số, và phân phối
được chọn thường là các conjugate distribution với likelihood, tức các phân phối khiến
việc nhân thêm prior vẫn giữ được cấu trúc giống như likelihood.
MAP có thể được coi là một phương pháp giúp tránh overfitting. MAP thường mang lại
hiệu quả cao hơn MLE với trường hợp có ít dữ liệu huấn luyện.
2. Linear Regression
a. Các bài toán có thể giải bằng linear regression
Hàm số y ≈ f(x) = x T w là một hàm tuyến tính theo cả w và x. Trên thực tế, linear
regression có thể áp dụng cho các mô hình chỉ cần tuyến tính theo w. Ví dụ:
y ≈ w1 x 1+ w2 x 2 +w 3 x 21 +w 4 sin ( x2 ) + ¿ w5 x1 x 2+ w0 ¿
là một hàm tuyến tính theo w và vì vậy cũng có thể được giải bằng linear
regression. Với mỗi vector đặc trưng x=[x 1 , x 2 ]T , chúng ta tính toán vector đặc
24
2 T
trưng mới mới~x=[ x1 , x2 , x1 , sin ( x 2) , x 1 x 2 ] rồi áp dụng linear regression với dữ liệu
mới này. Tuy nhiên, việc tìm ra các hàm số sin( x 2) hay x 1 x 2 là tương đối không tự
nhiên. Hồi quy đa thức (polynomial regression) thường được sử dụng nhiều hơn với
các vector đặc trưng mới có dạng[ x1 , x21 , …]T
b. Hạn chế của linear regression
Hạn chế đầu tiên của linear regression là nó rất nhạy cảm với nhiễu (sensitive to
noise). Trong ví dụ về mối quan hệ giữa chiều cao và cân nặng bên trên, nếu có chỉ
một cặp dữ liệu nhiễu (150 cm, 90kg) thì kết quả sẽ sai khác đi rất nhiều.
Vì vậy, trước khi thực hiện linear regression, các nhiễu cần phải được loại bỏ. Bước
này được gọi là tiền xử lý (pre-processing). Hoặc hàm mất mát có thể thay đổi một
chút để tránh việc tối ưu các nhiễu bằng cách sử dụng Huber loss
(https://goo.gl/TBUWzg). Linear regression với Huber loss được gọi là Huber
regression, được khẳng định là robust to noise (ít bị ảnh hưởng hơn bởi nhiễu).
Xem thêm Huber Regressor, scikit learn (https://goo.gl/h2rKu5).
Hạn chế thứ hai của linear regression là nó không biễu diễn được các mô hình phức
tạp. Mặc dù trong phần trên, chúng ta thấy rằng phương pháp này có thể được áp
dụng nếu quan hệ giữa outcome và input không nhất thiết phải là tuyến tính,
nhưng mối quan hệ này vẫn đơn giản nhiều so với các mô hình thực tế. Hơn nữa,
2
việc tìm ra các đặc trưng x 1 , sin ( x 2 ) , x 1 x2 như ở trên thì ít khả thi.
c. Ridge regression
Ngoài việc giúp cho phương trình đạo hàm theo hệ số bằng không có nghiệm duy nhất,
ridge regression còn giúp cho mô hình tránh được overfitting.
d. Phương pháp tối ưu khác
Linear regression là một mô hình đơn giản, lời giải cho phương trình đạo hàm bằng không
cũng khá đơn giản. Trong hầu hết các trường hợp, chúng ta không thể giải được phương
trình đạo hàm bằng không. Tuy nhiên, nếu một hàm mất mát có đạo hàm không quá phức
tạp, nó có thể được giải bằng một phương pháp rất hữu dụng có tên là gradient descent.
Trên thực tế, một vector đặc trưng có thể có kích thước rất lớn, dẫn đến ma trận X X T
cũng có kích thước lớn và việc tính ma trận nghịch đảo có thể không lợi về mặt tính toán.
Gradient descent sẽ giúp tránh được việc tính ma trận nghịch đảo.
3. K-Nearest Neighbors
KNN cho Regression
Với bài toán regression, chúng ta cũng hoàn toàn có thể sử dụng phương pháp
tương tự: đầu ra của một điểm được xác định dựa trên đầu ra của các điểm lân cận
và khoảng cách tới chúng. Giả sử x 1 , … , x K là K điểm lân cận của một điểm dữ liệu z
với đầu ra tương ứng là y 1 , … , y K Giả sử các trọng số ứng với các lân cận này tính
được là w 1 , … , w K . Kết quả dự đoán đầu ra của z có thể được xác định bởi :
w1 y 1+ w2 y 2+ …+w k y k
w 1+ w2 +…+ w K
25
Ta có thể thấy rằng weights = ’distance’ có xu hướng gây ra overfitting.
26
K-means clustering cũng không hoạt động hiệu quả. Lý do chính là vì K-means
clustering quyết định cluster của một điểm dữ liệu dựa trên khoảng cách Euclid
của nó tới các centroid. Trong trường hợp này, Gaussian mixture models (GMM)
[Rey15] có thể cho kết quả tốt hơn5. Trong GMM, mỗi cluster được giả sử tuân
theo một phân phối chuẩn với ma trận hiệp phương sai không nhất thiết tỉ lệ
với ma trận đơn vị. Ngoài các centroid, các ma trận hiệp phương sai cũng là các
biến cần tối ưu trong GMM.
- Khi một cluster bị bao bọc bởi một cluster khác Hình 10.12 là một ví dụ kinh
điển về việc K-means clustering không thể phân cụm dữ liệu. Một cách tự nhiên,
chúng ta sẽ phân dữ liệu ra thành bốn cluster: mắt trái, mắt phải, miệng, xung
quanh mặt. Nhưng vì mắt và miệng nằm trong khuôn mặt nên K-means
clustering cho kết quả không chính xác. Với dữ liệu như trong ví dụ này, spectral
clustering [VL07,NJW02] sẽ cho kết quả tốt hơn. Spectral clustering cũng coi các
điểm gần nhau tạo thành một cluster, nhưng không giả sử về một centroid
chung cho cả cluster. Spectral clustering được thực hiện dựa trên một đồ thị vô
hướng với đỉnh là các điểm dữ liệu và cạnh được nối giữa các điểm gần nhau,
mỗi cạnh được đánh trọng số là một hàm của khoảng cách giữa hai điểm.
Các ứng dụng khác của K-means clustering
Mặc dù có những hạn chế, K-means clustering vẫn cực kỳ quan trọng trong
machine learning và là nền tảng cho nhiều thuật toán phức tạp khác. Dưới đây là một
vài ứng dụng khác của K-means clustering.
- Cách thay một điểm dữ liệu bằng centroid tương ứng là một trong số các kỹ
thuật có tên chung là Vector Quantization – VQ [AM93]). Không chỉ trong
nén dữ liệu, VQ còn được kết hợp với Bag-of-Words [LSP06] áp dụng rộng rãi
trong các thuật toán xây dựng vector đặc trưng cho các bài toán phân loại.
- Ngoài ra, VQ còn được áp dụng trong các bài toán tìm kiếm trong cơ sở dữ
liệu lớn. Khi lượng điểm dữ liệu rất lớn, việc tìm kiếm trở nên cực kỳ quan
trọng. Khó khăn chính của việc này là làm thế nào có thể tìm kiếm một cách
nhanh chóng trong lượng dữ liệu khổng lồ đó. Ý tưởng cơ bản là sử dụng các
thuật toán clustering để phân các điểm dữ liệu thành nhiều nhóm nhỏ và
xấp xỉ mỗi điểm dữ liệu bằng centroid tương ứng. Khi tìm điểm gần nhất của
một điểm truy vấn (query), thay vì tính khoảng cách giữa điểm truy vấn đó
đến từng điểm trong cơ sở dữ liệu, ta sẽ chỉ cần tính khoảng cách từ điểm
đó tới các centroid (số lượng nhỏ hơn). Sau đó trả về các điểm được phân
vào centroid đó. Bạn đọc có thể đọc thêm các bài báo nổi tiếng gần đây về
vấn đề này: Product Quantization [JDS11], Cartesian k-means [NF13, JDJ17],
Composite Quantization [ZDW14], Additive Quantization [BL14].
5. Naïve bayes classification
27
Naive Bayes classifiers (NBC) thường được sử dụng trong các bài toán phân loại văn
bản.
NBC có thời gian huấn luyện và kiểm thử rất nhanh. Điều này có được là do giả sử
về tính độc lập giữa các thành phần.
Nếu giả sử về tính độc lập được thoả mãn (dựa vào bản chất của dữ liệu), NBC
được cho là cho kết quả tốt hơn so với support vector machine (Phần VIII) và
logistic regression (Chương 14) khi có ít dữ liệu huấn luyện.
NBC có thể hoạt động với các vector đặc trưng mà một phần là liên tục (sử dụng
Gaussian Naive Bayes), phần còn lại ở dạng rời rạc (sử dụng Multinomial hoặc
Bernoulli). Chính sự độc lập giữa các đặc trưng khiến NBC có khả năng này.
Khi sử dụng Multinomial Naive Bayes, Laplace smoothing thường được sử dụng để
tránh trường hợp một từ trong dữ liệu kiểm thử chưa xuất hiện trong training set.
6. Gradient descent
Điều kiện dừng thuật toán :
1. Giới hạn số vòng lặp. Một nhược điểm của cách làm này là có thể thuật toán
dừng lại trước khi nghiệm đủ tốt. Tuy nhiên, đây là phương pháp phổ biến nhất
và cũng để đảm bảo rằng chương trình chạy không quá lâu.
2. So sánh gradient của nghiệm tại hai lần cập nhật liên tiếp, khi nào giá trị này đủ
nhỏ thì dừng lại. Phương pháp này cũng có một nhược điểm lớn là việc tính đạo
hàm đôi khi trở nên quá phức tạp.
3. So sánh giá trị của hàm mất mát của nghiệm tại hai lần cập nhật liên tiếp, khi
nào giá trị này đủ nhỏ thì dừng lại. Nhược điểm của phương pháp này là nếu tại
một thời điểm, đồ thị hàm số có dạng bẳng phẳng tại một khu vực nhưng khu
vực đó không chứa điểm local minimum, thuật toán cũng dừng lại trước khi đạt
giá trị mong muốn.
4. Vừa chạy gradient descent, vừa kiểm tra kết quả. Một kỹ thuật thường được sử
dụng nữa là cho thuật toán chạy với số lượng vòng lặp cực lớn. Trong quá trình
chạy, chương trình thường xuyên kiểm tra chất lượng mô hình bằng cách áp
dụng nó lên dữ liệu tập huấn luyện và/hoặc validation. Đồng thời, mô hình sau
một vài vòng lặp được lưu lại trong bộ nhớ. Mô hình tốt nhất có thể không phải
là mô hình với số vòng lặp lớn hơn.
7. Perceptron learning algorithm
PLA có thể cho vô số nghiệm khác nhau. Nếu hai lớp dữ liệu là linearly separable thì có
vô số đường thằng ranh giới của hai lớp dữ liệu đó như trên Hình 13.6a. Tất cả các
đường thẳng màu đen đều có thể đóng vài trò là đường ranh giới. Tuy nhiên, các
đường khác nhau sẽ quyết định điểm hình tam giác thuộc các lớp khác nhau.
PLA đòi hỏi hai lớp dữ liệu phải linearly separable. Hình 13.6b mô tả hai lớp dữ liệu
tương đối linearly separable. Mỗi lớp có một điểm coi như nhiễu nằm lẫn trong các
điểm của lớp kia. PLA sẽ không làm việc, tức không bao giờ dừng lại, trong trường hợp
này vì với mọi đường thẳng ranh giới, luôn có ít nhất hai điểm bị phân lớp lỗi.
28
Trong một chừng mực nào đó, đường thẳng màu đen vẫn có thể coi là một nghiệm tốt
vì nó đã giúp phân loại chính xác hầu hết các điểm. Việc không hội tụ với dữ liệu gần
linearly separable chính là một nhược điểm lớn của PLA.
Nhược điểm này có thể được khắc phục bằng pocket algorithm dưới đây:
Pocket algorithm [AMMIL12]: một cách tự nhiên, nếu có một vài nhiễu, ta sẽ đi
tìm một đường thẳng phân chia hai class sao cho có ít điểm bị phân lớp lỗi nhất.
Việc này có thể được thực hiện thông qua PLA với một chút thay đổi nhỏ:
- Giới hạn số lượng vòng lặp của PLA. Đặt nghiệm w sau vòng lặp đầu tiên
và số điểm bị phân lớp lỗi vào trong túi quần (pocket).
- Mỗi lần cập nhật nghiệm wt mới, ta đếm xem có bao nhiêu điểm bị phân
lớp lỗi. So sánh số điểm bị phân lớp lỗi này với số điểm bị phân lớp lỗi
trong pocket, nếu nhỏ hơn thì lấy nghiệm cũ ra, đặt nghiệm mới này vào.
Lặp lại bước này đến khi hết số vòng lặp.
Thuật toán này giống với thuật toán tìm phần tử nhỏ nhất trong một mảng
một chiều.
8. Logistic regression
Trong nhiều trường hợp, ta cần phải kết hợp hai hoặc ba trong số bốn kỹ thuật đã
đề cập. Xét ba ví dụ trong Hình 14.8.
Hình 14.8a: cả 4 phương pháp trên đây đều có thể áp dụng được.
Hình 14.8b: one-vs-rest không phù hợp vì lớp màu lục và hợp của lớp lam và lớp
đỏ là không (gần) linearly separable. Lúc này, one-vs-one hoặc hierarchical phù
hợp hơn.
Hình 14.8c: Tương tự như trên, ba lớp lam, lục, đỏ thẳng hàng nên sẽ không
dùng được one-vs-rest. Trong khi đó, one-vs-one vẫn hiệu quả vì từng cặp lớp
dữ liệu là linearly separable. Tương tự hierarchical cũng làm việc nếu ta phân
chia các nhóm một cách hợp lý. Hoặc chúng ta có thể kết hợp nhiều phương
pháp. Ví dụ: dùng one-vs-rest để tìm đỏ với không đỏ. Nếu một điểm dữ liệu là
không đỏ, với ba lớp còn lại, ta lại quay lại trường hợp Hình 14.8a và có thể
29
dùng các phương pháp khác. Nhưng khó khăn vẫn nằm ở việc phân nhóm như
thế nào, liệu rằng những lớp nào có thể cho vào cùng một nhóm?
Với bài toán phân lớp đa lớp, nhìn chung các kỹ thuật sử dụng các bộ phân lớp nhị
phân đã trở nên ít hiệu quả hơn so với các phương pháp mới.
Softmax regression còn có các tên gọi khác là multinomial logistic regression, hay
maximum entropy classifier. Giống như logistic regression, softmax regression được sử
dụng trong các bài toán classification. Các tên gọi này được giữ lại vì vấn đề lịch sử.
b. Ranh giới tạo bởi softmax regression là một mặt tuyến tính
Thật vậy, dựa vào hàm softmax thì một điểm dữ liệu x được dự đoán là rơi vào class j
nếu a j ≥a k , ∀ k ≠ j . Bạn đọc có thể chứng minh được rằng
a j ≥a k ↔ z j ≥ z k ↔ wTj x ≥ w Tk x ↔ ( w j−wk )T x ≥0
T
Như vậy, một điểm thuộc lớp thứ j nếu và chỉ nếu ( w j −w k ) x ≥ 0 , ∀ k ≠ j. Như vậy, lãnh
thổ của mỗi lớp dữ liệu là giao của các nửa không gian. Nói cách khác, đường ranh giới
giữa các lớp là các mặt tuyến tính.
c. Softmax Regression là một trong hai classifiers phổ biến nhất
Softmax regression cùng với multi-class support vector machine (Chương 29) là hai bộ
phân lớp phổ biến nhất được dùng hiện nay. Softmax regression đặc biệt được sử
dụng nhiều trong các deep neural network với rất nhiều hidden layer. Những layer
phía trước có thể được coi như một bộ tạo vector đặc trưng, layer cuối cùng thường là
một softmax regression.
10. Support vector machine
a. Support vector machine
Với bài toán phân lớp nhị phân mà hai lớp dữ liệu là linearly separable, có vô số
các mặt phân cách phẳng giúp phân chia hai lớp đó. Khoảng cách gần nhất từ
một điểm dữ liệu tới mặt phân cách ấy được gọi là margin của bộ phân lớp với
ranh giới là mặt phẳng đó.
30
Support vector machine là bài toán đi tìm mặt phân cách sao cho margin có
được là lớn nhất, đồng nghĩa với việc các điểm dữ liệu có một khoảng cách an
toàn tới mặt phân cách.
Bài toán tối ưu trong SVM là một bài toán convex với hàm mục tiêu là stricly
convex, vì vậy, local optimum cũng là global optimum của bài toán. Hơn nữa, bài
toán tối ưu đó là một quadratic programming (QP).
Mặc dù có thể trực tiếp giải SVM qua bài toán primal, thông thường người ta
thường giải bài toán dual. Bài toán dual cũng là một QP nhưng nghiệm là sparse
nên có những phương pháp giải hiệu quả hơn.
b. Soft-margin support vector machine
SVM thuần (hard-margin SVM) hoạt động không hiệu quả khi có nhiễu ở gần
ranh giới hoặc thậm chí khi dữ liệu giữa hai lớp gần linearly separable. Soft-
margin SVM có thể giúp khắc phục điểm này.
Trong soft-margin SVM, chúng ta chấp nhận lỗi xảy ra ở một vài điểm dữ liệu.
Lỗi này được xác định bằng khoảng cách từ điểm đó tới đường margin tương
ứng. Bài toán tối ưu sẽ tối thiểu lỗi này bằng cách sử dụng thêm các biến được
gọi là slack varaibles. Để giải bài toán tối ưu, có hai cách khác nhau.
Cách thứ nhất là giải bài toán đối ngẫu. Bài toán đối ngẫu của soft margin SVM
rất giống với bài toán đối ngẫu của hard-margin SVM, chỉ khác ở ràng buộc chặn
trên của các nhân tử Laggrange. Ràng buộc này còn được gọi là box costraint.
Cách thứ hai là đưa bài toán về dạng không ràng buộc dựa trên một hàm mới
gọi là hinge loss. Với cách này, hàm mất mát thu được là một hàm lồi và có thể
giải được một cách hiệu quả bằng các phương pháp gradient descent.
Soft-margin SVM yêu cầu chọn hằng số C. Hướng tiếp cận này còn được gọi là C-
SVM. Ngoài ra, còn có một hướng tiếp cận khác cũng hay được sử dụng, gọi là ν-
SVM
c. Kernel support vector machine
Trong bài toán phân lớp nhị phân, nếu dữ liệu của hai lớp là không linearly
section, chúng ta có thể tìm cách biến đổi dữ liệu sang một không gian mới sao
cho trong không gian mới ấy, dữ liệu của hai lớp là (gần) linearly separable.
Việc tính toán trực tiếp hàm Φ() đôi khi phức tạp và tốn nhiều bộ nhớ. Thay vào
đó, ta có thể sử dụng kernel trick. Trong cách tiếp cận này, ta chỉ cần tính tích vô
hướng của hai vector bất kỳ trong không gian mới: k(x,z) = Φ(x)TΦ(z). Thông
thường, các hàm k(.,.) thỏa mãn điều kiện Merrcer, và được gọi là kernel. Cách
giải bài toán SVM với kernel hoàn toàn giống với cách giải bài toán soft-margin
SVM.
Có bốn loại kernel thông dụng: linear, poly, rbf, sigmoid. Trong đó, rbf được sử
dụng nhiều nhất và là lựa chọn mặc định trong các thư viện SVM.
d. Multi class support vector machine
31
Giống như softmax regression, multi-class SVM vẫn được coi là một bộ phân lớp
tuyến tính vì đường ranh giới giữa các lớp là các đường tuyến tính.
Kernel SVM cũng hoạt động khá tốt, nhưng việc tính toán ma trận kernel có thể
tốn nhiều thời gian và bộ nhớ. Hơn nữa, việc mở rộng nó ra cho bài toán multi-
class classification thường không hiệu quả bằng multi-class SVM vì kỹ thuật
được sử dụng vẫn là one-vs-rest. Một ưu điểm nữa của multi-class SVM là nó có
thể được tối ưu bằng các phương pháp gradient descent, phù hợp với các bài
toán với dữ liệu lớn. Việc đường ranh giới giữa các lớp là tuyến tính có thể được
giải quyết bằng cách kết hợp nó với các deep neurel network.
Có một cách nữa mở rộng hinge loss cho bài toán multi-class classification là
dùng loss:max ¿ . Đây chính là vi phạm lớn nhất, so với tổng vi pham mà chúng
ta sử dụng trong bài này.
11. Decision Tree (ID3)
Nếu một thuộc tính có thể nhận rất nhiều giá trị, decision tree thu được có thể sẽ có rất nhiều
node. Xét một ví dụ về các triệu chứng của các bệnh nhân trong một bệnh viện và đầu ra là
mắc bệnh hay không. Mỗi bệnh nhân có một mã số (id) khác nhau. Nếu ta sử dụng thuộc tính
này cho việc huấn luyện, ta rất có thể sẽ thu được mộ decision tree mà mỗi leaf node ứng với
một bệnh nhân. Lúc đó mô hình này là vô dụng, vì không thể dự đoán được việc mắc bệnh
hay không của một bệnh nhân mới.
Khi một thuộc tính nhận giá trị liên tục, chẳng hạn temperature không còn là hot, mild,
cool nữa mà là các giá trị thực liên tục, vẫn có một cách để áp dụng ID3. Ta có thể chia
khoảng giá trị của thuộc tính này thành nhiều phần, mỗi phần có số lượng điểm tương đương,
hoặc cũng có thể dùng các thuật toán clustering đơn giản cho một chiều dữ liệu để chia thuộc
tính thành các cluster nhỏ. Lúc này, thuộc tính liên tục được chuyển về thuộc tính dạng
categorical.
Hạn chế lớn nhất của ID3 và decision tree nói chung là việc nếu một điểm dữ liệu mới rơi
vào nhầm nhánh ở ngay những lần phân chia đầu tiên, kết quả cuối cùng sẽ khác đi rất nhiều.
Việc rơi vào nhầm nhánh này rất dễ xảy ra trong trường hợp thuộc tính liên tục được chia
thành nhiều nhóm nhỏ, vì hai điểm có thuộc tính tương ứng rất gần nhau có thể rơi vào hai
nhóm khác nhau.
12. Đánh giá hệ thống phân lớp
Accuracy là tỉ lệ giữa số điểm được phân loại đúng và tổng số điểm. Accuracy chỉ phù
hợp với các bài toán mà kích thước các lớp dữ liệu là tương đối như nhau.
Confusion matrix giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại
đúng/sai như thế nào.
True Positive (TP): số lượng điểm của lớp positive được phân loại đúng là positive.
True Negative (TN): số lượng điểm của lớp negative được phân loại đúng là negative.
False Positive (FP): số lượng điểm của lớp negative bị phân loại nhầm thành positive.
False Negative (FN): số lượng điểm của lớp positiv bị phân loại nhầm thành negative.
True positive rate (TPR), false negative rate (FNR), false positive rate (FPR), true
negative rate (TNR):
32
Actual : Positive TPR =TP/(TP+FN) FNR =FN/(TP+FN)
Actual : Negative FPR = FP/(FP+TN) TNP =TN /(FP+TN)
Khi kích thước các lớp dữ liệu là chênh lệch (imbalanced data hay skew data), precision và
recall thường được sử dụng:
TP
Precision=
TP+ FP
TP
Recall=
TP+ FN
F1 score:
1 precision . recall
F 1=2. =2.
1 1 precision+ recall
+
precison recall
Micro-average precision, macro-average recall là trung bình cộng của các precision, recall cho
từng lớp. Micro-average (macro-average) F1 scores cũng được tính dựa trên các micro-
average (macro-average) precision, recall tương ứng.
33
IV. Tiếng anh chuyên ngành
34
deep learning Học Sâu 37
degree of preference Mức độ quan tâm 38
denoising Giảm nhiễu 39
density estimation ước lượng một phân phối 40
determinant Định Thức 41
Deviation Độ lệch 42
diagonal matrix Ma trận đường chéo 43
diagonalizable Chéo hóa 44
dimension Chiều 45
dimensionality/dimension reduction Giảm chiều dữ liệu 46
dimentionality reduction Giảm số chiều dữ liệu 47
discrete Rời rạc 48
35
hand-crafted feature feature được tạo thủ công 73
hidden Ẩn 74
hierarchical Phân tầng 75
hierarchical clustering Clustering phân tầng 76
hyperparameters Siêu tham số 77
hyperplane Siêu mặt phẳng 78
hyperpolygon Siêu đa diện 79
incrementally Từ từ 80
inequality constraint bất đẳng thức ràng buộc 81
infeasible vô nghiệm 82
information retrieval Thu thập thông tin 83
inverse matrix Ma trận nghịch đảo 84
item-item collaborative filtering item-item C 85
iteration Vòng lặp 86
joint probability function hàm xác suất chung 87
label Nhãn, lớp 88
Lagrange multiplier nhân tử Lagrange 89
latent feature Đặc trưng ẩn 90
learning rate Tốc độ học 91
level sets Đường đồng mức 92
likelihood Hàm mục tiêu 93
linear combination Tổ hợp tuyến tính 94
Linear discriminant analysis LDA 95
linear independence Độc lập tuyến tính 96
Linear Interpolation Nội suy tuyến tính 97
linearly separable Hai lớp phân chia bằng 1 siêu phẳng 98
local minimum Điểm cực tiểu 99
local optimal Các điểm cực trị 100
loss function Hàm mất mát 101
lower triangular matrix Ma trận tam giác dưới 102
low-training Huấn luyện nhỏ 103
machine learning Học Máy ML 104
major voting Bầu chọn theo đa số 105
margin /soft-margin / hard-margin Biên, lề / Biên mềm / Biên cứng 106
matrix completion Hoàn thiện ma trận 107
matrix factorization Phân tích ma trận thành nhân tử 108
maximum a posteriori MAP estimati
109
estimation
36
maximum likelihood estimation MLE 110
mean Trung bình cộng 111
mean normalization Co giãn trung bình 112
mean squared error MSE 113
Median Trung vị 114
misclassified Phân lớp lỗi 115
Missing at Random Khuyết ngẫn nhiên MAR 116
Missing Completely at Random Khuyết hoàn toàn ngẫu nhiên MCAR 117
missing data xử lý dữ liệu bị khuyết 118
Missing not at Random Khuyết không ngẫu nhiên 119
mix-integer programming điều kiện biến là số nguyên 120
multilayer perceptrons multilayer neural networ MLPs 121
naive Ngây thơ 122
naive bayes classifiers NBC 123
natural language processing Xử lý ngôn ngữ tư nhiên NLP 124
neighborhood-based collaborative filtering NBCF 125
nesterov accelerated gradient NAG 126
nguyên lý Pareto Quy tắc 20/80 127
nominal categorical features các đặc trưng định danh 128
nonconvex không lồi 129
non-graphical exploring data analysis Phân tích khám phá phi hình ảnh 130
nonlinear transformation phép biến đổi phi tuyến 131
norm chuẩn 132
Numeric Encoding Mã hóa số 133
numerically more stable ổn định hơn trong tính toán 134
object detection Xác định vị trí vật thể 135
object segmentation Tách vật thể 136
objective function Hàm mục tiêu 137
observation Quan sát 138
optimal duality gap khoảng cách đối ngẫu tối ưu 139
optimization variable Biến tối ưu 140
oridinal categorical features các đặc trưng nhóm có thứ tự 141
outliers Sự tồn tại của các ngoại vi, ngoại lệ 142
overfitting Quá khớp 143
Parallel Coordinate Hệ tọa độ song song 144
parameter Tham số 145
partial derivative Đạo hàm riếng 146
37
perceptron learning algorithm PLA 147
performance measure Phép đánh giá 148
phase Bước 149
pocket Túi quần 150
poly-nomial regression Hồi quy đa thức 151
posynomial function / posynomial đa thức 152
predicted rating dự đoán mức độ quan tâm 153
pre-processing Tiền xử lý 154
Principle component analysis PCA 155
probability Xắc suất 156
probability density function Hàm mật độ xắc suất pdf 157
probability density function hàm mật độ xác suất 158
projection matrix Ma trận chiếu 159
pseudo inverse Giả khả nghịch/ numpy.linalg.pinv(A) 160
quadratic form Dạng toàn phương 161
quadratic programming QP 162
query Truy vấn 163
random projection chiếu ngẫu nhiên 164
rank Hạng của ma trận 165
ranking Xếp hạng 166
raw data Dữ liệu thô 167
recommendation system Hệ thống khuyến nghị RS 168
recommender system Hệ thống khuyến nghị 169
regression Hồi quy, tiên lượng 170
Regularization parameter Tham số regularization 171
reinforcement learning Học củng cố 172
rescaling Chuẩn hóa min-max 173
Root Mean Squared Error căn bậc 2 của trung bình cộng bình RMSE 174
phương của lỗi
samples các mẫu dữ liệu 175
scaling data co giãn dữ liệu 176
scatter plot Địa đồ phân tán 177
sensitive to noise Nhảy cảm với nhiễu 178
sequential minimal optimization SMO 179
shuffle Xáo trộn 180
similarity Sự tương quan/ Sự giống nhau 181
singular value decomposition SVD 182
sparse Thưa 183
38
spatial information Thông tin về không gian 184
spectrum Phổ 185
standard deviation Độ lệc chuẩn 186
standard form dạng tiêu chuẩn 187
standardisation Chính quy hóa 188
standardizing data chuẩn hóa dữ liệu 189
statistical Thống kê 190
stochastic Ngẫu nhiên 191
stochastic gradient descent SGD 192
strictly convex lồi chặt 193
supervised learning Học giám sát 194
surface Bề mặt 195
task Nhiệm vụ 196
test set Tập kiểm thử 197
the first principal component Thành phấn chính thứ nhất 198
trace Vết của ma trận 199
training set Tập huấn luyện 200
transpose Chuyển vị 201
trapped Bẫy 202
true model Mô hình thực 203
unbounded below hàm mục tiêu không bị chặn dưới 204
unconstrained optimization problems Các bài toán tối ưu không ràng buộc 205
underfitting 206
unstable không ổn đinh 207
unsupervised learning Học không giám sát 208
upper triangular matrix Ma trận tam giác trên 209
variability Độ phân tán 210
variance Phương sai 211
vectorization Vector hóa 212
weight matrix Ma trận trọng số 213
zero-corrected data Dữ liệu đã được chuẩn hóa 214
Artificial neural network Mạng nơron ANN 215
216
217
218
Meaning
AD Automatic differentiation
GA Genetic algorithm
MNIST Modified National Institute of Standards and Technology (database used a lot in ML)
NE NeuroEvolution
RL Reinforcement Learning
TF TensorFlow
41