GK Toán AI Bản Thuyết Trình Official

Entropy Thông Tin Và Ứng Dụng
Lê Phạm Hoàng Trung, Nguyễn Thế Phong

Trần Ngọc Bảo, Võ Thu Trang
Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Ngày 17 tháng 5 năm 2023
Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 1 / 80

Mục Lục
1 Entropy trong lý thuyết thông tin
2 Entropy cho một số phân phối xác suất
3 Entropy trong bài toán Decision Tree
4 Entropy trong bài toán Logistic Regression

Entropy trong lý thuyết thông tin
Entropy trong lý thuyết thông tin
1 Entropy trong lý thuyết thông tin

Sơ lược về thông tin và lượng tin
Định nghĩa Entropy và ý nghĩa
Thông tin tương hỗ
Phân kỳ Kullback-Leibler
Entropy chéo (Cross entropy)

Entropy trong lý thuyết thông tin Sơ lược về thông tin và lượng tin
Định nghĩa thông tin và lượng tin
Định nghĩa 1
Thông tin được định nghĩa là một khái niệm định lượng trừu tượng, biểu
thị cho sự khác biệt giữa các trạng thái hoặc tình huống khác nhau.
Định nghĩa 2
Lượng tin là thuật ngữ dùng để đo lường mức độ bất ngờ, sự khác biệt
giữa các sự kiện. Nó được định nghĩa là số bit cần thiết để đưa ra một
quyết định hoặc giải thích một sự kiện.
Lượng tin có 2 loại:

Lượng tin đã biết: sự kiện đã xảy ra.
Lượng tin chưa biết: sự kiện chưa xảy ra.

Entropy trong lý thuyết thông tin Sơ lược về thông tin và lượng tin
Công thức lượng tin
Định nghĩa 3
Lượng tin của sự kiện x với xác suất p(x) được tính bằng công thức:
I (x) = − logb p(x),
lượng tin luôn dương.
b = e : đơn vị nat
b = 10 : đơn vị ban
b = 2 : đơn vị bit

Entropy trong lý thuyết thông tin Định nghĩa Entropy và ý nghĩa
Định nghĩa Entropy
Định nghĩa 4
Entropy mô tả mức độ hỗn loạn trong một tín hiệu lấy từ sự kiện ngẫu
nhiên. Nói cách khác, entropy chỉ ra có bao nhiêu thông tin trong tín hiệu,
với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.
Nguồn tin có trật tự, ổn định có entropy thấp.

Nguồn tin mất trật tự, bất định có entropy cao.

Công thức tổng quát Entropy
Định nghĩa 5
Cho biến ngẫu
P nhiên rời rạc X và phân phối rời rạc p = (p1 , p2 , ..., pn )
thoả mãn ni=1 pi = 1 và pi ≥ 0 với pi là xác suất của biến cố X = xi ,
i = 1, n, khi đó entropy của phân phối p được tính bằng:
n
X
H(p) = − pi log pi .
i=1
Trong trường hợp X là biến ngẫu nhiên liên tục với hàm mật độ xác suất
f (X ). Khi đó công thức entropy liên tục là:
Z
H(f ) = − f (x) log f (x)dx.
I

Entropy - Ví dụ
Ví dụ 6
Tung một đồng xu có hai mặt sấp và ngửa. Gọi X là biến ngẫu nhiên số
lần mặt sấp xuất hiện. Giả sử X có bảng phân phối xác suất như sau:
X 0 1
P 1−p p
Entropy của X là: H = −(1 − p) log(1 − p) − p log p.
Hình 1: Đồ thị hàm H(p).

Tính chất của Entropy
Tính chất 7
Entropy có tính không âm.
H(p) ≥ 0.
Đẳng thức xảy ra khi và chỉ khi trong p tồn tại một pi = 1 (các thành
phần còn lại bằng 0).
Tính chất 8
H(p1 , p2 , ...pn ) ≤ log n.
Đẳng thức xảy ra khi và chỉ khi pi = 1/n với i = 1, n.

Tính chất của Entropy
Tính chất 9
 
   
m n m  p
X X X 1 p m 

H(p1 , p2 , ..., pn ) =H  pi , pi  + pi .H  m , ..., m


X X 
i=1 i=m+1 i=1  pi pi 
i=1 i=1
 
 
n  p
X  m+1 pn 
+ pi .H  n , ..., n .

 X X 
i=m+1  pi pi 
i=m+1 i=m+1

Ví dụ tính chất 10
Ví dụ 10
Tung một đồng xu 2 mặt, nếu là mặt ngửa thì x = 0, nếu là mặt sấp,
tung một lần nữa, nếu được mặt ngửa thì x = 1, nếu được mặt sấp x = 2.
Hàm tính entropy có thể được viết là

1 1 1 1 1 1 1 1
H , , =H , + H , .
2 4 4 2 2 2 2 2

Entropy trong lý thuyết thông tin Thông tin tương hỗ
Entropy hợp
Định nghĩa 11
Cho X và Y là hai biến ngẫu nhiên rời rạc, ký hiệu
p(X , Y ) = P(X = x, Y = y ). Entropy hợp của (X , Y ) được biểu diễn như
sau:
XX
H(X , Y ) = EX ,Y [log(p(X , Y ))] = − p(x, y ) log p(x, y ).
x∈X y ∈Y
Tính chất 12

max H(X ), H(Y ) ≤ H(X , Y ) ≤ H(X ) + H(Y ).

Entropy có điều kiện
Định nghĩa 13
Cho X và Y là hai biến ngẫu nhiên rời rạc. Khi đó entropy của X với điều
kiện Y là:
H(X |Y ) = H(X , Y ) − H(Y )

   
XX X
= − p(x, y ) log p(x, y ) − − p(y ) log p(y ) .
x∈X y ∈Y y ∈Y
Entropy có điều kiện có thể được sử dụng để đo lường sự phụ thuộc hoặc
độc lập có điều kiện giữa X và Y .

Entropy có điều kiện - Ví dụ
Ví dụ 14
Cho hai biến ngẫu nhiên X và Y , trong đó X đại diện cho các điều kiện thời
tiết và Y đại diện cho các hoạt động ngoài trời có bảng phân bố xác suất như
dưới. Tính entropy có điều kiện của Y dựa trên X .
Bơi Leo núi Thể thao Phân phối lề

Nắng 0.1 0.3 0.2 0.6
Mây mù 0.2 0.1 0.1 0.4
Mưa 0.05 0.05 0.1 0.2
Phân phối lề 0.35 0.45 0.4
Bảng 1: Bảng phân phối của điều kiện thời tiết và hoạt động ngoài trời.

Entropy có điều kiện - Ví dụ
Ta tính xác suất có điều kiện của Y dựa trên X đã có theo bảng như sau:
Bơi Leo núi Thể thao

Nắng 0.1/0.6 0.3/0.6 0.2/0.6
Mây mù 0.2/0.4 0.1/0.4 0.1/0.4
Mưa 0.05/0.2 0.05/0.2 0.1/0.2
Áp dụng công thức tính entropy có điều kiện, ta được:
H(Y |X ) ≈ 1.48.

Thông tin tương hỗ

Định nghĩa 15
Thông tin tương hỗ I (X , Y ) giữa 2 biến ngẫu nhiên X và Y là lượng tin
trung bình mà mỗi giá trị của biến X cung cấp cho biến Y .
XX p(x, y )
I (X ; Y ) = p(x, y ) log .
p(x)p(y )
x∈X y ∈Y
Hình 2: Mối quan hệ giữa entropy, entropy có điều kiện và thông tin tương hỗ.

Thông tin tương hỗ - Tính chất
Tính chất 16
I (X ; Y ) = H(X ) − H(X |Y ) = H(Y ) − H(Y |X ).
Tính chất 17
I (X ; Y ) = I (Y ; X ) = H(X ) + H(Y ) − H(X , Y ).
Tính chất 18
I (X ; X ) = H(X ) − H(X |X ) = H(X ).

Entropy trong lý thuyết thông tin Phân kỳ Kullback-Leibler
Khái niệm Phân kỳ Kullback-Leibler
Định nghĩa 19
Phân kỳ Kullback-Leibler thể hiện mức độ khác nhau giữa hai phân phối
xác suất, còn được gọi là phân kỳ tương đối Entropy hoặc phân kỳ thông
tin.
X P1 (x)
DKL P1 (x), P2 (x) = P1 (x) log
x
P2 (x)
Tính chất 20
DKL (P1 (x), P2 (x)) ≥ 0.

DKL P1 (x), P2 (x) = 0 ⇔ P1 (x) = P2 (x).

DKL P1 (x), P2 (x) 6≡ DKL P2 (x), P1 (x) .

Phân kỳ Kullback-Leibler - Ví dụ
Ví dụ 21
Cho biến ngẫu nhiên x có những phân phối xác suất P1 (x), P2 (x), P3 (x)
với:
P1 (x) và P2 (x) có cùng phân phối xác suất.
P1 (x) và P3 (x) không cùng phân phối xác suất.
Tính giá trị phân kỳ KL cho cặp {P1 , P2 } và {P1 , P3 }? Nhận xét?
Hình 3: Ví dụ phân kỳ Kullback-Leibler

Phân kỳ Kullback-Leibler - Ví dụ
Tính giá trị phân kỳ KL cho hai cặp {P1 , P2 } và {P1 , P3 }:

0.1 0.4 0.4 0.1
DKL (P1 , P2 ) = 0.1 log2 + 0.4 log2 + 0.4 log2 + 0.1 log2
0.1 0.5 0.3 0.1
= 0.037.
0.1 0.4 0.4 0.1
DKL (P1 , P3 ) = 0.1 log2 + 0.4 log2 + 0.4 log2 + 0.1 log2
0.4 0.1 0.1 0.4
= 1.200.
Nhận xét: Giá trị của cặp 1 nhỏ hơn so với cặp 2 (0.037 < 1.200).

Entropy trong lý thuyết thông tin Entropy chéo (Cross entropy)
Entropy chéo
Định nghĩa 22
Entropy chéo dùng để xác định sự khác biệt giữa hai phân phối xác suất.
Với hai phân phối rời rạc p(x), q(x) thì entropy chéo của hai phân phối
này là:
X
H(p, q) = − p(x) log q(x).
x∈X
Nói cách khác, Entropy chéo xác định sự khác biệt khi tín hiệu có phân
phối P lại được mã hoá dựa vào phân phối Q.

Entropy chéo - Tính chất
Tính chất 23
Entropy chéo không có tính đối xứng H(p, q) 6= H(q, p)
Tính chất 24
Mối liên hệ giữa Entropy, Entropy chéo và phân kì Kullback - Leibler:
H(p, q) = H(p) + DKL (p||q).

Entropy chéo - Ví dụ
Ví dụ 25
Cài đặt cho máy tính C1 tạo những đoạn văn bất kỳ từ bộ ký tự {A, B, C,
D, E} sau đó mã hoá đoạn văn này.
Nếu các ký tự có xác suất xuất hiện như nhau thì entropy là
H(X ) = log(5) ≈ 2.32.
Do đó cần trung bình 3 bits cho mỗi ký tự. Ví dụ
Ký tự A B C D E
Hệ nhị phân 000 001 010 011 100

Tuy nhiên xét trường hợp xác suất xuất hiện của các ký tự khác nhau như
sau.
Hình 4: Xác suất xuất hiện các ký tự của máy C1 .
Entropy là H(p) ≈ 1.995.

Giả sử các ký tự được mã hoá để tối ưu kích thước đoạn văn, theo mã
Huffman thì các ký tự được biểu diễn như sau:
Ký tự A B C D E
Hệ nhị phân 0 10 110 1110 1111
Như vậy bộ mã này là tối ưu đối với máy C1 , tuy nhiên có máy C2 với
chức năng tương tự lại có xác suất xuất hiện các ký tự như sau
Hình 5: Xác suất xuất hiện các ký tự của máy C2 .

Entropy là H(q) ≈ 2.009.

Nếu máy C2 sử dụng bộ mã của C1 thì rõ ràng đoạn văn tạo ra sẽ không
tối ưu về kích thước. Để đo sự khác biệt này thì ta sẽ tính entropy chéo.
Entropy chéo giữa phân phối q và phân phối ban đầu p:
H(q, p) = −0.4 log 0.45 − 0.05 log 0.2 − 0.15 log 0.2 − 0.1 log 0.1−
0.3 log 0.05 ≈ 2.554.
Như vậy khi máy tính C2 sử dụng bộ mã của C1 thì cần trung bình 2.554
bits, trong khi sử dụng bộ mã tối ưu của chính nó thì chỉ cần trung bình
2.009 bits cho một ký tự.
Từ đó có thể thấy entropy chéo luôn có giá trị lớn hơn hoặc bằng entropy.

Entropy chéo - Tính chất
Tính chất 26
H(p, q) ≥ H(p).
Đẳng thức xảy ra khi pi = qi với mọi i.

Entropy cho một số phân phối xác suất
Entropy cho một số phân phối xác suất
2 Entropy cho một số phân phối xác suất

Phân phối Bernoulli
Phân phối chuẩn (Gaussian Distribution)
Phân phối nhị thức
Phân phối đều liên tục

Entropy cho một số phân phối xác suất Phân phối Bernoulli
Phân phối Bernoulli - Định nghĩa
Định nghĩa 27
Với biến ngẫu nhiên X , tuân theo phân phối Bernoulli: X ∼ Bernoulli(p).
Khi đó, entropy của phân phối này là:
H(X ) = −q log q − p log p (với q = 1 − p).
Chứng minh
X
H(X ) = − P(X = x) log P(X = x)
x∈{0;1}

= −P(X = 0) log P(X = 0) − P(X = 1) log P(X = 1)
= −(1 − p) log(1 − p) − p log p
( do P(X = 1) = 1 − P(X = 0) = 1 − q = p.)
= −q log q − p log p.

Entropy cho một số phân phối xác suất Phân phối Bernoulli
Phân phối Bernoulli - Định nghĩa
Hàm này còn được gọi là hàm entropy nhị phân (binary entropy
function), kí hiệu là H(p), H2 (p), h(p) hoặc h2 (p). Quy ước
0 log 0 = 0.
Kí hiệu của hàm entropy nhị phân thường bị nhầm lẫn với H(X ) -
hàm entropy của một phân phối xác suất X hoặc một biến ngẫu
nhiên X .
Hàm entropy nhị phân được sử dụng trong khá nhiều hàm entropy
cho các phân phối khác, thường với mục đích rút gọn biểu thức.

Entropy cho một số phân phối xác suất Phân phối chuẩn (Gaussian Distribution)
Phân phối chuẩn - Định nghĩa
Định nghĩa 28
Gọi X là biến ngẫu nhiên tuân theo phân phối chuẩn X ∼ N (µ, σ 2 ), với
trung bình µ và độ lệch chuẩn σ. Theo đó, entropy của biến ngẫu nhiên X
được tính bằng
1 1
H(X ) = log(2πσ 2 ) + .
2 2

Entropy cho một số phân phối xác suất Phân phối nhị thức
Phân phối nhị thức - Định nghĩa
Định nghĩa 29
Cho một biến ngẫu nhiên X có phân phối nhị thức: X ∼ B(n; p), ta có

n k
P(X = k) = p (1 − p)n−k với mọi k = 0, 1, 2..., n, khi đó:
k
n
" #
X n k n
H(X ) = − p (1 − p)n−k log p k (1 − p)n−k .
k k
k=0
Ta xấp xỉ nó về dạng entropy phân phối chuẩn khi n lớn, p không quá gần
0 và 1:
√

1 1
H(X ) ≈ log(σ 2π) + + O ,
2 n

1
với σ = np(1 − p) và O thể hiện sai số khi xấp xỉ về phân phối chuẩn.
n
Entropy cho một số phân phối xác suất Phân phối đều liên tục
Phân phối đều - Định nghĩa
Định nghĩa 30
Với X là biến ngẫu nhiên tuân theo phân phối đều liên tục (Continuous
Uniform Distribution): X ∼ U[a..b], với a, b ∈ R, a 6= b. Theo đó, entropy
của biến ngẫu nhiên X được tính bằng:
H(X ) = log(b − a).
Chứng minh.
Giả sử X ∼ U[a..b]. Hàm mật độ xác suất của X là

 1 , a ≤ x ≤ b,

fX (x) = b − a
 0,

otherwise.

Entropy cho một số phân phối xác suất Phân phối đều liên tục
Phân phối đều - Định nghĩa
Ta áp dụng công thức entropy của biến rời rạc và thay thế bởi xác suất
của từng giá trị của biến liên tục, ta có:
Z b
1 1
H(X ) = − . log dx
a b − a b − a
Z b
1 1
=− . log dx
b−a a b−a

1
= − log
b−a
= log(b − a).

Entropy trong bài toán Decision Tree
Entropy trong bài toán Decision Tree
3 Entropy trong bài toán Decision Tree

Giới thiệu
Vấn đề Overfitting
Mô tả
Giải pháp Pruning
Xây dựng Cây quyết định
Information Gain
Thuật toán ID3
Thuật toán C4.5
Cài đặt Cây quyết định trong Python

Entropy trong bài toán Decision Tree Giới thiệu
Giới thiệu
Cây quyết định là thuật toán học có giám sát phi tham số.
Cây phân loại (classification tree).
Cây hồi quy (regression tree).
Hình 6: Đồ thị biểu diễn tập huấn luyện phân loại đỏ - đen.

Entropy trong bài toán Decision Tree Giới thiệu
Giới thiệu
Dự đoán điểm thuộc vùng (x > 6 và y > 6) là đen (Black), thuộc vùng
còn lại là đỏ (Red).
Hình 7: Cây quyết định cho tập huấn luyện phân loại đỏ - đen.

Entropy trong bài toán Decision Tree Vấn đề Overfitting
Overfitting - Mô tả
Hiện tượng mô hình có kết quả dự đoán quá dựa vào tập dữ liệu huấn
luyện, dẫn đến không mang tính tổng quát và sai khác nhiều so với thực tế.
Hình 8: Đồ thị biểu diễn tập huấn luyện có thể gây quá khớp.

Dựa hoàn toàn vào tập huấn luyện thì hình dạng cây quyết định khá phức
tạp so với hình 7.
Hình 9: Cây quyết định bị quá khớp bởi tập huấn luyện.

Kiểm tra mô hình trong hình 9 bằng tập validation sau.
Hình 10: Đồ thị biểu diễn tập kiểm tra mô hình.

Mô hình dự đoán sai ba chấm đỏ trong khung màu xanh là Black. Vì cây
bị phân chia thành nhiều nhánh hơn mong đợi nên cần tiến hành tỉa cây.

Overfitting - Giải pháp Pruning
Để tiến hành tỉa cây, chuyển cây con cần thay thành node lá (từ dưới lên).
Node lá được chọn dựa vào số lượng quan sát.
Một vài quy tắc có thể áp dụng để tỉa cây:
Số lượng quan sát trong node lá cần đạt một giá trị tối thiểu.
Độ sâu của cây không vượt quá giá trị tối đa cho phép.
Dựa vào tập validation, tiến hành tỉa cây nếu mô hình tốt hơn (số lỗi
giảm) hoặc gọn hơn (dù số lỗi vẫn như ban đầu), thực hiện đến khi
mô hình không thể cải thiện thêm.
Số lượng node lá hoặc node trong không vượt quá giá trị tối đa cho
phép.

Overfitting - Giải pháp Pruning - Ví dụ
Tỉa cây với quy tắc "cần ít nhất 3 quan sát trong node lá".
Hình 11: Cắt tỉa cây.
Dừng tỉa cây vì tất cả node lá đều đáp ứng được quy tắc đặt ra.

Entropy trong bài toán Decision Tree Xây dựng Cây quyết định
Information Gain
Information Gain là phép đo những thay đổi trong entropy sau khi phân
đoạn tập dữ liệu dựa trên một thuộc tính.
Định nghĩa 31
Xét tại node cần phân chia bất kỳ có tập dữ liệu là S có |S| = N quan
sát. Cho C là số class cần phân loại, Nc là số phần tử thuộc class c với
c = 1, C . Khi đó entropy tại node này là
C
X Nc Nc
H(S) = − log .
N N
c=1

Information Gain
Định nghĩa 32
Gọi x là thuộc tính được chọn để phân chia, nếu sau khi phân chia được K
nhánh với số quan sát trong mỗi node con là mk , k = 1, K thì định nghĩa
K
X mk
H(x, S) = H(Sk ).
N
k=1
Định nghĩa 33 (Information Gain)

Công thức tính Information Gain cho thuộc tính x là
G (x, S) = H(S) − H(x, S).
Cần chọn x sao cho

x ∗ = arg max G (x, S) = arg min H(x, S).
x x

Thuật toán ID3

Được sử dụng để phân loại trên tập dữ liệu có các thuộc tính category.
Ví dụ 34
Cho bảng dữ liệu gồm 14 loại thời tiết khác nhau. Cần dự đoán một đội
bóng quyết định chơi hay không dựa vào thời tiết của ngày hôm đó.
Id Outlook Temperature Humidity Wind Play

1 sunny hot high weak no
2 sunny hot high strong no
... ... ... ... ... ...
13 overcast hot normal weak yes
14 rainy mild high strong no
Bảng 2: Bảng dữ liệu dự đoán quyết định dựa trên 4 thuộc tính.

Thuật toán ID3 - Ví dụ
Giải.
Giá trị đầu ra của bảng dữ liệu gồm 9 yes và 5 no, entropy tại node gốc là

5 5 9 9
H(S) = − log − log ≈ 0.940.
14 14 14 14
Xét thuộc tính Outlook thì bảng dữ liệu được tách ra thành ba nhánh:
5 sunny với 2 yes và 3 no.
4 overcast với 4 yes và 0 no.
5 rainy với 3 yes và 2 no.

2 2 3 3
H(Ssunny ) = − log − log ≈ 0.971,
5 5 5 5

4 4 0 0
H(Sovercast ) = − log − log = 0,
4 4 4 4

Giải. (tiếp)

3 3 2 2
H(Srainy ) = − log − log ≈ 0.971,
5 5 5 5
5 4 5
H(Outlook, S) = H(Ssunny ) + H(Sovercast ) + H(Srainy ) ≈ 0.694.
14 14 14
Tính toán tương tự với các thuộc tính khác.
Information Gain của thuộc tính x là G (x, S) = H(S) − H(x, S) thì
G (Outlook, S) ≈ 0.246.
G (Temperature, S) ≈ 0.029.
G (Humidity, S) ≈ 0.152.
G (Wind, S) ≈ 0.048.

Outlook là thuộc tính đầu tiên được phân chia.
Hình 12: Minh họa bảng dữ liệu bị phân chia theo thuộc tính Outlook.
Các quan sát trong nhánh Overcast đã tinh khiết nên có thể kết luận đây
là node lá yes.


Kết thúc thuật toán ta được cây quyết định có hình dạng như sau.
Hình 13: Cây quyết định hoàn chỉnh với thuật toán ID3.
Tuy nhiên, không phải khi nào bảng dữ liệu cũng chỉ thuần những thuộc
tính category hoặc non-numeric. Trong thực tế thì cần làm việc với những
thuộc tính nhận giá trị số (numeric).
Thuật toán ID3 - Xử lý với thuộc tính numeric
Minh hoạ với bảng dữ liệu cũ nhưng thay các giá trị của thuộc tính
Humidity thành số.
Sử dụng 1R (1-rule), sắp xếp tăng dần các giá trị này thì được dãy
65 70 70 70 75 78 80 80 80 85 90 90 95 96
yes no yes yes yes yes yes yes no no no yes no yes
Giả sử quy định trong một cụm phải có ít nhất 4 giá trị cùng loại.
yes no yes yes yes yes yes yes no no no yes no yes
Chia các giá trị trong Humidity thành ba kiểu rời rạc: ≤ 82.5
> 82.5 và ≤ 95.5
> 95.5

Thuật toán C4.5
Thuật toán cải tiến từ ID3 với tốc độ chạy nhanh hơn, xử lý được thuộc
tính liên tục và các giá trị bị khuyết thiếu (missing values).
Định nghĩa 35 (Split Info và Gain Ratio)

Xét node cần phân chia bất kỳ với tập dữ liệu S có |S| = N quan sát. Gọi
x là thuộc tính được chọn để phân chia thành K nhánh với số quan sát
trong mỗi node con là mk , k = 1, K thì Split Info được định nghĩa là
K
X mk mk
SI (x, S) = log
N N
k=1
và Gain Ratio được định nghĩa là

G (x, S)
GR(x, S) = .
SI (x, S)

Thuật toán C4.5 - Ví dụ
Ví dụ 36
Sử dụng bảng dữ liệu với thuộc tính Humidity nhận giá trị số trong tài
liệu. Xây dựng cây quyết định bằng thuật toán C4.5.
Giải.
Xét các giá trị của thuộc tính Outlook gồm 5 sunny, 4 overcast, 5 rainy và
G (Outlook, S) ≈ 0.246 đã tính ở ID3. Tính được

5 5 4 4 5 5
SI (Outlook, S) = − log − log − log ≈ 1.577
14 14 14 14 14 14
,
G (Outlook, S)
GR(Outlook, S) = ≈ 0.156.
SI (Outlook, S)

Giải. (tiếp)
Tương tự tính được GR(Temperature, S) ≈ 0.019
GR(Wind, S) ≈ 0.049
Với thuộc tính Humidity, cần chọn ra một giá trị thuộc tập giá trị để phân
tập này thành hai nhóm là (≤) và (>). Giả sử chọn 65, có 1 giá trị ≤ 65
(1 yes 0 no) và 13 giá trị > 65 (8 yes 5 no). Tính toán giống ID3 thì

1 1 0 0
H(S≤ ) = − log − log = 0,
1 1 1 1

8 8 5 5
H(S> ) = − log − log ≈ 0.961,
13 13 13 13
1 13
H(65, S) = H(S≤ ) + H(S> ) ≈ 0.892,
14 14
G (65, S) = H(S) − H(65, S) ≈ 0.048.

Giải. (tiếp)
Làm tương tự với các giá trị khác ta được
G (70, S) ≈ 0.015, G (75, S) ≈ 0.045,
G (78, S) ≈ 0.090, G (80, S) ≈ 0.102,
G (85, S) ≈ 0.025, G (90, S) ≈ 0.011,
G (95, S) ≈ 0.048, G (96, S) = 0.
Chọn giá trị 80 có Gain Ratio lớn nhất là 0.102 để phân chia.

9 9 5 5
SI (80, S) = − log − log ≈ 0.940,
14 14 14 14
G (80, S)
GR(80, S) = ≈ 0.109.
SI (80, S)

So sánh giá trị Gain Ratio của các thuộc tính thì node đầu tiên vẫn là
Outlook. Các bước tiếp theo thực hiện tương tự, mô hình cuối cùng là
Hình 14: Cây quyết định hoàn chỉnh với thuật toán C4.5.
Cài đặt Cây quyết định trong Python: đọc thêm trong tài liệu.

Entropy trong bài toán Logistic Regression
Entropy trong bài toán Logistic Regression
4 Entropy trong bài toán Logistic Regression

Giới thiệu
Logit Regression Model
Maximum Likelihood và Minimum Cross Entropy
Binary Cross Entropy Loss - BCE
Thuật toán tối ưu Gradient Descent

Entropy trong bài toán Logistic Regression Thuật toán tối ưu Gradient Descent
Giới thiệu
Logistic Regression là một thuật toán học có giám sát trong lĩnh vực
Machine Learning, thường được sử dụng để dự đoán xác suất của một sự
kiện xảy ra hay không, dựa trên các biến đầu vào. Không gian đầu ra của
mô hình Logistic Regression bị giới hạn trong phạm vi [0, 1]. Thuật toán
này thường được áp dụng trong các bài toán phân loại nhị phân, tức là
phân loại dữ liệu thành 2 lớp. Ví dụ như xác định một email có phải là
spam hay không, dự đoán một bệnh nhân có mắc bệnh ung thư hay
không, hoặc dự đoán một khách hàng có mua sản phẩm hay không. Giả
sử ta được cung cấp dữ liệu được gắn nhãn D như sau:
x1 , ..., xn ∈ Rm (datapoints).
y1 , ..., yn ∈ {0, 1} (labels).

Giới thiệu
Dựa trên dữ liệu, mục tiêu của Logistic Regression là xác định hàm
f : Rm → [0, 1] sao cho f (x) xấp xỉ xác suất Pr (Y = 1|X = x). Có rất
nhiều cách để xác định hàm này, nhưng trong Logistic Regression hàm cần
tìm được gọi là Logistic Function và thường được tham số hoá theo
θ ∈ Rm+1 và có dạng
T
eθ x
f (x, θ) = .
1 + e θT x
Hàm này còn gọi là hàm Sigmoid, là một hàm thông dụng trong Logistic
Regression với θT x = θ0 + θ1 x1 + ... + θk xk .

Giới thiệu
Hàm Sigmoid thường được chọn làm hàm kích hoạt trong Logistic
Regression là vì hàm sigmoid giới hạn giá trị đầu ra trong khoảng từ 0
đến 1, điều này tương ứng với việc biểu diễn xác suất. Bên cạnh đó hàm
Sigmoid cũng có đạo hàm rất dễ tính. Trong bài này chúng ta chỉ tìm
hiểu Logistic Regression với hàm Sigmoid.
Hình 15
Giới thiệu
Bên cạnh hàm Sigmoid thì hàm Tanh cũng là một hàm thường được xài
trong Logistic Regresison. Hàm Tanh cũng có các tính chất tương tự
hàm Sigmoid, khác ở chỗ giới hạn của hàm Tanh là từ −1 đến 1, nhưng
ta có thể dễ dàng đưa về từ 0 đến 1.
Hình 16

Giới thiệu
Trong logistic regression, chúng ta thường muốn dự đoán xác suất thuộc
vào một nhãn cụ thể dựa trên các đặc trưng đầu vào. Một cách thông
thường để làm điều này là sử dụng hàm sigmoid để biểu diễn xác suất và
ánh xạ đầu vào sang đầu ra trong khoảng từ 0 đến 1. Tuy nhiên, trong
quá trình tối ưu hóa mô hình logistic regression, việc làm việc với hàm
sigmoid có thể gặp một số khó khăn. Để giải quyết vấn đề này, ta có thể
biến đổi hàm sigmoid thành dạng tuyến tính. Việc biến đổi hàm sigmoid
thành dạng tuyến tính trong logistic regression có hai lợi ích chính:
Thuận tiện tính toán
Tính hiệu quả của mô hình

Giới thiệu
Biến đổi hàm Sigmoid thành dạng tuyến tính

T
eθ x
f (x, θ) =
1 + e θT x
Tx Tx
⇔ f (x, θ) + f (x, θ)e θ = eθ
Tx
⇔ f (x, θ) = [1 − f (x, θ)]e θ
f (x, θ) Tx
⇔ = eθ .
1 − f (x, θ)

Giới thiệu
f (x, θ)
Đặt ODDS = . Dễ nhận thấy rằng biểu thức ODDS giống như
1 − f (x, θ)
một tỉ lệ, hay còn gọi là tỉ lệ cược:
ODDS
f (x, θ) Pr (getting ) Pr (Y = 1|x) T
ODDS = = = = eθ x .
1 − f (x, θ) Pr (notgetting ) Pr (Y = 0|x)
Ví dụ: Tính ODDS của mặt ngửa (head) khi tung đồng xu đồng chất 2
mặt.
Giải
1
P(head) = .
2
1
P(tail) = 1 − P(head) = .
2
1 1
⇒ ODDS = : = 1 : 1
2 2
Logit Regression Model
Khi ta nói "Logistic Regression" nghĩa là ta đang đề cập đến "Logit

Regression", một biến thể khi chúng ta lấy logarit tự nhiên (ln) cả hai vế.
Theo đó ta có
Logarit Function

f (x, θ) Tx
ln = ln(e θ ) = ln(ODDS).
1 − f (x, θ)
Sau khi biến đổi hàm logarit, ta được kết quả cuối cùng là
Logarit Function
Tx
ln(ODDS) = ln(e θ ) = θT x = θ0 + θ1 x1 + θ2 x2 + ... + θk xk .

Maximum Likelihood và Minimum Cross Entropy
Vấn đề đặt ra hiện tại là làm sao tìm tham số θ để hàm f (x, θ) được tối
ưu. Điều này thường đạt được bằng cách tối đa tính likelihood của bộ dữ
liệu D = {(x1 , y1 ), ..., (xn , yn )} trong mô hình. Phương pháp Maximum
Likelihood (MLE) dự đoán tham số của một mô hình thống kê dựa trên
những “quan sát” có sẵn, bằng cách tìm bộ tham số sao cho tối đa hóa
khả năng mà mô hình với bộ tham số đó sinh ra các “quan sát” có sẵn.
Maximum Likelihood
N
L(θ1 , ..., θk |D) =
Q ˆ θ (Y = yi |X = xi ).
Pr
i=1
Bộ tham số θ ta cần tìm là

θ1∗ , ..., θk∗ = arg maxθ1 ,...,θk L(θ1 , ..., θk |D).

Minimum Cross Entropy
Trực tiếp tối ưu hàm số này theo θ là không đơn giản, hơn nữa khi N lớn,
tích của N số nhỏ hơn 1 có thể dẫn đến sai số trong tính toán (numerial
error) vì tích là một số quá nhỏ. Một phương pháp thường được sử dụng
đó là lấy logarit tự nhiên (cơ số e) của likelihood function biến phép nhân
thành phép cộng và để tránh việc số quá nhỏ. Sau đó lấy ngược dấu để
được một hàm và coi nó là hàm mất mát. Lúc này bài toán tìm giá trị lớn
nhất (maximum likelihood) trở thành bài toán tìm giá trị nhỏ nhất của
hàm mất mát (hàm này còn được gọi là negative log likelihood).

Biểu thức của hàm Maximum Likelihood sau khi biến đổi
N
1 1 X ˆ θ (Y = yi |X = xi ))
− log L(θ1 , ..., θk |D) = − yi log(Pr
N N
i=1
N
1 X
= − yi log ŷi .
N
i=1
Trong đó yˆi là xác suất dự đoán cho mỗi điểm xi , yi với các tham số θ.
Biểu thức ŷ
T
ˆ θ (Y = yi |X = xi ) = eθ x
yˆi = Pr .
1 + e θT x

Từ biểu thức Maximum Likelihood trên ta có thể dễ dàng nhận ra vế

phải của biểu thức chính là hàm Cross Entropy. Và mục tiêu của mô hình
Logistic Regression chính là làm tối thiểu hoá hàm Cross Entropy này
(Minimum Cross Entropy), tương đương với việc làm tối đa hoá hàm
Likelihood (Maximum Likelihood)

First Section Subsection Example
Paragraphs of Text
Sed iaculis dapibus gravida. Morbi sed tortor erat, nec interdum arcu. Sed
id lorem lectus. Quisque viverra augue id sem ornare non aliquam nibh
tristique. Aenean in ligula nisl. Nulla sed tellus ipsum. Donec vestibulum
ligula non lorem vulputate fermentum accumsan neque mollis.
Sed diam enim, sagittis nec condimentum sit amet, ullamcorper sit amet
libero. Aliquam vel dui orci, a porta odio. Nullam id suscipit ipsum.
Aenean lobortis commodo sem, ut commodo leo gravida vitae.
Pellentesque vehicula ante iaculis arcu pretium rutrum eget sit amet purus.
Integer ornare nulla quis neque ultrices lobortis. Vestibulum ultrices
tincidunt libero, quis commodo erat ullamcorper id.

Bullet Points
Lorem ipsum dolor sit amet, consectetur adipiscing elit

Aliquam blandit faucibus nisi, sit amet dapibus enim tempus eu
Nulla commodo, erat quis gravida posuere, elit lacus lobortis est, quis
porttitor odio mauris at libero
Nam cursus est eget velit posuere pellentesque
Vestibulum faucibus velit a augue condimentum quis convallis nulla
gravida

Trang
Định lý 37
Ví dụ 38
Định nghĩa 39
Nhận xét 40
Chứng minh.

Blocks of Highlighted Text
Block 1
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer lectus nisl,
ultricies in feugiat rutrum, porttitor sit amet augue. Aliquam ut tortor
mauris. Sed volutpat ante purus, quis accumsan dolor.
Block 2
Pellentesque sed tellus purus. Class aptent taciti sociosqu ad litora
torquent per conubia nostra, per inceptos himenaeos. Vestibulum quis
magna at risus dictum tempor eu vitae velit.
Block 3
Suspendisse tincidunt sagittis gravida. Curabitur condimentum, enim sed
venenatis rutrum, ipsum neque consectetur orci, sed blandit justo nisi ac
lacus.
Multiple Columns
Lorem ipsum dolor sit amet,

Heading consectetur adipiscing elit. Integer
1 Statement lectus nisl, ultricies in feugiat rutrum,
2 Explanation porttitor sit amet augue. Aliquam ut
3 Example tortor mauris. Sed volutpat ante
purus, quis accumsan dolor.

Second Section
Table
Treatments Response 1 Response 2

Treatment 1 0.0003262 0.562
Treatment 2 0.0015681 0.910
Treatment 3 0.0009271 0.296
Bảng 3: Table caption

Second Section
Theorem
Định lý 41 (Mass–energy equivalence)

E = mc 2

Second Section
Verbatim
Ví dụ 42 (Theorem Slide Code)

\begin{frame}
\frametitle{Theorem}
\begin{theorem}[Mass--energy equivalence]
$E = mc^2$
\end{theorem}
\end{frame}

Second Section
Figure
Uncomment the code on this slide to include your own image from the
same directory as the template .TeX file.

Second Section
Citation
An example of the \cite command to cite within the presentation:
This statement requires citation [Smith, 2012].

Second Section
References
John Smith (2012)

Title of the publication
Journal Name 12(3), 45 – 678.

Second Section
The End

GK Toán AI Bản Thuyết Trình Official

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

GK Toán AI Bản Thuyết Trình Official

Uploaded by

Copyright:

Available Formats

Entropy Thông Tin Và Ứng Dụng

Lê Phạm Hoàng Trung, Nguyễn Thế Phong

Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM

Ngày 17 tháng 5 năm 2023

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 1 / 80

1 Entropy trong lý thuyết thông tin

2 Entropy cho một số phân phối xác suất

3 Entropy trong bài toán Decision Tree

4 Entropy trong bài toán Logistic Regression

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 2 / 80

Entropy trong lý thuyết thông tin

1 Entropy trong lý thuyết thông tin

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 3 / 80

Định nghĩa thông tin và lượng tin

Lượng tin có 2 loại:

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 4 / 80

Công thức lượng tin

I (x) = − logb p(x),

lượng tin luôn dương.

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 5 / 80

Định nghĩa Entropy

Nguồn tin có trật tự, ổn định có entropy thấp.

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 6 / 80

Công thức tổng quát Entropy

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 7 / 80

Entropy của X là: H = −(1 − p) log(1 − p) − p log p.

Hình 1: Đồ thị hàm H(p).

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 8 / 80

Tính chất của Entropy

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 9 / 80

Tính chất của Entropy

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 10 / 80

Hàm tính entropy có thể được viết là

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 11 / 80

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 12 / 80

Entropy có điều kiện

H(X |Y ) = H(X , Y ) − H(Y )

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 13 / 80

Entropy có điều kiện - Ví dụ

Bơi Leo núi Thể thao Phân phối lề

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 14 / 80

Entropy có điều kiện - Ví dụ

Bơi Leo núi Thể thao

Áp dụng công thức tính entropy có điều kiện, ta được:

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 15 / 80

Thông tin tương hỗ

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 16 / 80

Thông tin tương hỗ - Tính chất

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 17 / 80

Khái niệm Phân kỳ Kullback-Leibler

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 18 / 80

Hình 3: Ví dụ phân kỳ Kullback-Leibler

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 19 / 80

Tính giá trị phân kỳ KL cho hai cặp {P1 , P2 } và {P1 , P3 }:

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 20 / 80

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 21 / 80

Entropy chéo - Tính chất

H(p, q) = H(p) + DKL (p||q).

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 22 / 80

H(X ) = log(5) ≈ 2.32.

Do đó cần trung bình 3 bits cho mỗi ký tự. Ví dụ

Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 23 / 80

Hình 4: Xác suất xuất hiện các ký tự của máy C1 .

Entropy là H(p) ≈ 1.995.