Professional Documents
Culture Documents
GK Toán AI Bản Thuyết Trình Official
GK Toán AI Bản Thuyết Trình Official
Định nghĩa 1
Thông tin được định nghĩa là một khái niệm định lượng trừu tượng, biểu
thị cho sự khác biệt giữa các trạng thái hoặc tình huống khác nhau.
Định nghĩa 2
Lượng tin là thuật ngữ dùng để đo lường mức độ bất ngờ, sự khác biệt
giữa các sự kiện. Nó được định nghĩa là số bit cần thiết để đưa ra một
quyết định hoặc giải thích một sự kiện.
Định nghĩa 3
Lượng tin của sự kiện x với xác suất p(x) được tính bằng công thức:
b = e : đơn vị nat
b = 10 : đơn vị ban
b = 2 : đơn vị bit
Định nghĩa 4
Entropy mô tả mức độ hỗn loạn trong một tín hiệu lấy từ sự kiện ngẫu
nhiên. Nói cách khác, entropy chỉ ra có bao nhiêu thông tin trong tín hiệu,
với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.
Định nghĩa 5
Cho biến ngẫu
P nhiên rời rạc X và phân phối rời rạc p = (p1 , p2 , ..., pn )
thoả mãn ni=1 pi = 1 và pi ≥ 0 với pi là xác suất của biến cố X = xi ,
i = 1, n, khi đó entropy của phân phối p được tính bằng:
n
X
H(p) = − pi log pi .
i=1
Trong trường hợp X là biến ngẫu nhiên liên tục với hàm mật độ xác suất
f (X ). Khi đó công thức entropy liên tục là:
Z
H(f ) = − f (x) log f (x)dx.
I
Entropy - Ví dụ
Ví dụ 6
Tung một đồng xu có hai mặt sấp và ngửa. Gọi X là biến ngẫu nhiên số
lần mặt sấp xuất hiện. Giả sử X có bảng phân phối xác suất như sau:
X 0 1
P 1−p p
Tính chất 7
Entropy có tính không âm.
H(p) ≥ 0.
Đẳng thức xảy ra khi và chỉ khi trong p tồn tại một pi = 1 (các thành
phần còn lại bằng 0).
Tính chất 8
H(p1 , p2 , ...pn ) ≤ log n.
Đẳng thức xảy ra khi và chỉ khi pi = 1/n với i = 1, n.
Tính chất 9
m n m p
X X X 1 p m
H(p1 , p2 , ..., pn ) =H pi , pi + pi .H m , ..., m
X X
i=1 i=m+1 i=1 pi pi
i=1 i=1
n p
X m+1 pn
+ pi .H n , ..., n .
X X
i=m+1 pi pi
i=m+1 i=m+1
Ví dụ tính chất 10
Ví dụ 10
Tung một đồng xu 2 mặt, nếu là mặt ngửa thì x = 0, nếu là mặt sấp,
tung một lần nữa, nếu được mặt ngửa thì x = 1, nếu được mặt sấp x = 2.
Entropy hợp
Định nghĩa 11
Cho X và Y là hai biến ngẫu nhiên rời rạc, ký hiệu
p(X , Y ) = P(X = x, Y = y ). Entropy hợp của (X , Y ) được biểu diễn như
sau:
XX
H(X , Y ) = EX ,Y [log(p(X , Y ))] = − p(x, y ) log p(x, y ).
x∈X y ∈Y
Tính chất 12
max H(X ), H(Y ) ≤ H(X , Y ) ≤ H(X ) + H(Y ).
Định nghĩa 13
Cho X và Y là hai biến ngẫu nhiên rời rạc. Khi đó entropy của X với điều
kiện Y là:
Entropy có điều kiện có thể được sử dụng để đo lường sự phụ thuộc hoặc
độc lập có điều kiện giữa X và Y .
Ví dụ 14
Cho hai biến ngẫu nhiên X và Y , trong đó X đại diện cho các điều kiện thời
tiết và Y đại diện cho các hoạt động ngoài trời có bảng phân bố xác suất như
dưới. Tính entropy có điều kiện của Y dựa trên X .
Ta tính xác suất có điều kiện của Y dựa trên X đã có theo bảng như sau:
H(Y |X ) ≈ 1.48.
Hình 2: Mối quan hệ giữa entropy, entropy có điều kiện và thông tin tương hỗ.
Tính chất 16
I (X ; Y ) = H(X ) − H(X |Y ) = H(Y ) − H(Y |X ).
Tính chất 17
I (X ; Y ) = I (Y ; X ) = H(X ) + H(Y ) − H(X , Y ).
Tính chất 18
I (X ; X ) = H(X ) − H(X |X ) = H(X ).
Định nghĩa 19
Phân kỳ Kullback-Leibler thể hiện mức độ khác nhau giữa hai phân phối
xác suất, còn được gọi là phân kỳ tương đối Entropy hoặc phân kỳ thông
tin.
X P1 (x)
DKL P1 (x), P2 (x) = P1 (x) log
x
P2 (x)
Tính chất 20
DKL (P1 (x), P2 (x)) ≥ 0.
DKL P1 (x), P2 (x) = 0 ⇔ P1 (x) = P2 (x).
DKL P1 (x), P2 (x) 6≡ DKL P2 (x), P1 (x) .
Phân kỳ Kullback-Leibler - Ví dụ
Ví dụ 21
Cho biến ngẫu nhiên x có những phân phối xác suất P1 (x), P2 (x), P3 (x)
với:
P1 (x) và P2 (x) có cùng phân phối xác suất.
P1 (x) và P3 (x) không cùng phân phối xác suất.
Tính giá trị phân kỳ KL cho cặp {P1 , P2 } và {P1 , P3 }? Nhận xét?
Phân kỳ Kullback-Leibler - Ví dụ
Nhận xét: Giá trị của cặp 1 nhỏ hơn so với cặp 2 (0.037 < 1.200).
Entropy chéo
Định nghĩa 22
Entropy chéo dùng để xác định sự khác biệt giữa hai phân phối xác suất.
Với hai phân phối rời rạc p(x), q(x) thì entropy chéo của hai phân phối
này là:
X
H(p, q) = − p(x) log q(x).
x∈X
Nói cách khác, Entropy chéo xác định sự khác biệt khi tín hiệu có phân
phối P lại được mã hoá dựa vào phân phối Q.
Tính chất 23
Entropy chéo không có tính đối xứng H(p, q) 6= H(q, p)
Tính chất 24
Mối liên hệ giữa Entropy, Entropy chéo và phân kì Kullback - Leibler:
Entropy chéo - Ví dụ
Ví dụ 25
Cài đặt cho máy tính C1 tạo những đoạn văn bất kỳ từ bộ ký tự {A, B, C,
D, E} sau đó mã hoá đoạn văn này.
Nếu các ký tự có xác suất xuất hiện như nhau thì entropy là
Ký tự A B C D E
Hệ nhị phân 000 001 010 011 100
Entropy chéo - Ví dụ
Tuy nhiên xét trường hợp xác suất xuất hiện của các ký tự khác nhau như
sau.
Entropy chéo - Ví dụ
Giả sử các ký tự được mã hoá để tối ưu kích thước đoạn văn, theo mã
Huffman thì các ký tự được biểu diễn như sau:
Ký tự A B C D E
Hệ nhị phân 0 10 110 1110 1111
Như vậy bộ mã này là tối ưu đối với máy C1 , tuy nhiên có máy C2 với
chức năng tương tự lại có xác suất xuất hiện các ký tự như sau
Entropy chéo - Ví dụ
H(q, p) = −0.4 log 0.45 − 0.05 log 0.2 − 0.15 log 0.2 − 0.1 log 0.1−
0.3 log 0.05 ≈ 2.554.
Như vậy khi máy tính C2 sử dụng bộ mã của C1 thì cần trung bình 2.554
bits, trong khi sử dụng bộ mã tối ưu của chính nó thì chỉ cần trung bình
2.009 bits cho một ký tự.
Từ đó có thể thấy entropy chéo luôn có giá trị lớn hơn hoặc bằng entropy.
Tính chất 26
H(p, q) ≥ H(p).
Đẳng thức xảy ra khi pi = qi với mọi i.
Định nghĩa 27
Với biến ngẫu nhiên X , tuân theo phân phối Bernoulli: X ∼ Bernoulli(p).
Khi đó, entropy của phân phối này là:
Chứng minh
X
H(X ) = − P(X = x) log P(X = x)
x∈{0;1}
= −P(X = 0) log P(X = 0) − P(X = 1) log P(X = 1)
= −(1 − p) log(1 − p) − p log p
( do P(X = 1) = 1 − P(X = 0) = 1 − q = p.)
= −q log q − p log p.
Hàm này còn được gọi là hàm entropy nhị phân (binary entropy
function), kí hiệu là H(p), H2 (p), h(p) hoặc h2 (p). Quy ước
0 log 0 = 0.
Kí hiệu của hàm entropy nhị phân thường bị nhầm lẫn với H(X ) -
hàm entropy của một phân phối xác suất X hoặc một biến ngẫu
nhiên X .
Hàm entropy nhị phân được sử dụng trong khá nhiều hàm entropy
cho các phân phối khác, thường với mục đích rút gọn biểu thức.
Định nghĩa 28
Gọi X là biến ngẫu nhiên tuân theo phân phối chuẩn X ∼ N (µ, σ 2 ), với
trung bình µ và độ lệch chuẩn σ. Theo đó, entropy của biến ngẫu nhiên X
được tính bằng
1 1
H(X ) = log(2πσ 2 ) + .
2 2
Định nghĩa 29
Cho một biến ngẫu nhiên X có phân phối nhị thức: X ∼ B(n; p), ta có
n k
P(X = k) = p (1 − p)n−k với mọi k = 0, 1, 2..., n, khi đó:
k
n
" #
X n k n
H(X ) = − p (1 − p)n−k log p k (1 − p)n−k .
k k
k=0
Ta xấp xỉ nó về dạng entropy phân phối chuẩn khi n lớn, p không quá gần
0 và 1:
√
1 1
H(X ) ≈ log(σ 2π) + + O ,
2 n
1
với σ = np(1 − p) và O thể hiện sai số khi xấp xỉ về phân phối chuẩn.
n
Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 32 / 80
Entropy cho một số phân phối xác suất Phân phối đều liên tục
Định nghĩa 30
Với X là biến ngẫu nhiên tuân theo phân phối đều liên tục (Continuous
Uniform Distribution): X ∼ U[a..b], với a, b ∈ R, a 6= b. Theo đó, entropy
của biến ngẫu nhiên X được tính bằng:
Chứng minh.
Giả sử X ∼ U[a..b]. Hàm mật độ xác suất của X là
1 , a ≤ x ≤ b,
fX (x) = b − a
0,
otherwise.
Ta áp dụng công thức entropy của biến rời rạc và thay thế bởi xác suất
của từng giá trị của biến liên tục, ta có:
Z b
1 1
H(X ) = − . log dx
a b − a b − a
Z b
1 1
=− . log dx
b−a a b−a
1
= − log
b−a
= log(b − a).
Giới thiệu
Cây quyết định là thuật toán học có giám sát phi tham số.
Cây phân loại (classification tree).
Cây hồi quy (regression tree).
Hình 6: Đồ thị biểu diễn tập huấn luyện phân loại đỏ - đen.
Giới thiệu
Dự đoán điểm thuộc vùng (x > 6 và y > 6) là đen (Black), thuộc vùng
còn lại là đỏ (Red).
Hình 7: Cây quyết định cho tập huấn luyện phân loại đỏ - đen.
Overfitting - Mô tả
Hiện tượng mô hình có kết quả dự đoán quá dựa vào tập dữ liệu huấn
luyện, dẫn đến không mang tính tổng quát và sai khác nhiều so với thực tế.
Hình 8: Đồ thị biểu diễn tập huấn luyện có thể gây quá khớp.
Overfitting - Mô tả
Dựa hoàn toàn vào tập huấn luyện thì hình dạng cây quyết định khá phức
tạp so với hình 7.
Hình 9: Cây quyết định bị quá khớp bởi tập huấn luyện.
Overfitting - Mô tả
Kiểm tra mô hình trong hình 9 bằng tập validation sau.
Để tiến hành tỉa cây, chuyển cây con cần thay thành node lá (từ dưới lên).
Node lá được chọn dựa vào số lượng quan sát.
Một vài quy tắc có thể áp dụng để tỉa cây:
Số lượng quan sát trong node lá cần đạt một giá trị tối thiểu.
Độ sâu của cây không vượt quá giá trị tối đa cho phép.
Dựa vào tập validation, tiến hành tỉa cây nếu mô hình tốt hơn (số lỗi
giảm) hoặc gọn hơn (dù số lỗi vẫn như ban đầu), thực hiện đến khi
mô hình không thể cải thiện thêm.
Số lượng node lá hoặc node trong không vượt quá giá trị tối đa cho
phép.
Tỉa cây với quy tắc "cần ít nhất 3 quan sát trong node lá".
Dừng tỉa cây vì tất cả node lá đều đáp ứng được quy tắc đặt ra.
Information Gain
Information Gain là phép đo những thay đổi trong entropy sau khi phân
đoạn tập dữ liệu dựa trên một thuộc tính.
Định nghĩa 31
Xét tại node cần phân chia bất kỳ có tập dữ liệu là S có |S| = N quan
sát. Cho C là số class cần phân loại, Nc là số phần tử thuộc class c với
c = 1, C . Khi đó entropy tại node này là
C
X Nc Nc
H(S) = − log .
N N
c=1
Information Gain
Định nghĩa 32
Gọi x là thuộc tính được chọn để phân chia, nếu sau khi phân chia được K
nhánh với số quan sát trong mỗi node con là mk , k = 1, K thì định nghĩa
K
X mk
H(x, S) = H(Sk ).
N
k=1
Ví dụ 34
Cho bảng dữ liệu gồm 14 loại thời tiết khác nhau. Cần dự đoán một đội
bóng quyết định chơi hay không dựa vào thời tiết của ngày hôm đó.
Bảng 2: Bảng dữ liệu dự đoán quyết định dựa trên 4 thuộc tính.
Giải.
Giá trị đầu ra của bảng dữ liệu gồm 9 yes và 5 no, entropy tại node gốc là
5 5 9 9
H(S) = − log − log ≈ 0.940.
14 14 14 14
Xét thuộc tính Outlook thì bảng dữ liệu được tách ra thành ba nhánh:
5 sunny với 2 yes và 3 no.
4 overcast với 4 yes và 0 no.
5 rainy với 3 yes và 2 no.
2 2 3 3
H(Ssunny ) = − log − log ≈ 0.971,
5 5 5 5
4 4 0 0
H(Sovercast ) = − log − log = 0,
4 4 4 4
Giải. (tiếp)
3 3 2 2
H(Srainy ) = − log − log ≈ 0.971,
5 5 5 5
5 4 5
H(Outlook, S) = H(Ssunny ) + H(Sovercast ) + H(Srainy ) ≈ 0.694.
14 14 14
Tính toán tương tự với các thuộc tính khác.
Information Gain của thuộc tính x là G (x, S) = H(S) − H(x, S) thì
G (Outlook, S) ≈ 0.246.
G (Temperature, S) ≈ 0.029.
G (Humidity, S) ≈ 0.152.
G (Wind, S) ≈ 0.048.
Hình 12: Minh họa bảng dữ liệu bị phân chia theo thuộc tính Outlook.
Các quan sát trong nhánh Overcast đã tinh khiết nên có thể kết luận đây
là node lá yes.
Hình 13: Cây quyết định hoàn chỉnh với thuật toán ID3.
Tuy nhiên, không phải khi nào bảng dữ liệu cũng chỉ thuần những thuộc
tính category hoặc non-numeric. Trong thực tế thì cần làm việc với những
thuộc tính nhận giá trị số (numeric).
Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 49 / 80
Entropy trong bài toán Decision Tree Xây dựng Cây quyết định
Minh hoạ với bảng dữ liệu cũ nhưng thay các giá trị của thuộc tính
Humidity thành số.
Sử dụng 1R (1-rule), sắp xếp tăng dần các giá trị này thì được dãy
65 70 70 70 75 78 80 80 80 85 90 90 95 96
yes no yes yes yes yes yes yes no no no yes no yes
Giả sử quy định trong một cụm phải có ít nhất 4 giá trị cùng loại.
Chia các giá trị trong Humidity thành ba kiểu rời rạc: ≤ 82.5
> 82.5 và ≤ 95.5
> 95.5
Thuật toán cải tiến từ ID3 với tốc độ chạy nhanh hơn, xử lý được thuộc
tính liên tục và các giá trị bị khuyết thiếu (missing values).
Ví dụ 36
Sử dụng bảng dữ liệu với thuộc tính Humidity nhận giá trị số trong tài
liệu. Xây dựng cây quyết định bằng thuật toán C4.5.
Giải.
Xét các giá trị của thuộc tính Outlook gồm 5 sunny, 4 overcast, 5 rainy và
G (Outlook, S) ≈ 0.246 đã tính ở ID3. Tính được
5 5 4 4 5 5
SI (Outlook, S) = − log − log − log ≈ 1.577
14 14 14 14 14 14
,
G (Outlook, S)
GR(Outlook, S) = ≈ 0.156.
SI (Outlook, S)
Giải. (tiếp)
Tương tự tính được GR(Temperature, S) ≈ 0.019
GR(Wind, S) ≈ 0.049
Với thuộc tính Humidity, cần chọn ra một giá trị thuộc tập giá trị để phân
tập này thành hai nhóm là (≤) và (>). Giả sử chọn 65, có 1 giá trị ≤ 65
(1 yes 0 no) và 13 giá trị > 65 (8 yes 5 no). Tính toán giống ID3 thì
1 1 0 0
H(S≤ ) = − log − log = 0,
1 1 1 1
8 8 5 5
H(S> ) = − log − log ≈ 0.961,
13 13 13 13
1 13
H(65, S) = H(S≤ ) + H(S> ) ≈ 0.892,
14 14
G (65, S) = H(S) − H(65, S) ≈ 0.048.
Giải. (tiếp)
Làm tương tự với các giá trị khác ta được
G (70, S) ≈ 0.015, G (75, S) ≈ 0.045,
G (78, S) ≈ 0.090, G (80, S) ≈ 0.102,
G (85, S) ≈ 0.025, G (90, S) ≈ 0.011,
G (95, S) ≈ 0.048, G (96, S) = 0.
Chọn giá trị 80 có Gain Ratio lớn nhất là 0.102 để phân chia.
9 9 5 5
SI (80, S) = − log − log ≈ 0.940,
14 14 14 14
G (80, S)
GR(80, S) = ≈ 0.109.
SI (80, S)
So sánh giá trị Gain Ratio của các thuộc tính thì node đầu tiên vẫn là
Outlook. Các bước tiếp theo thực hiện tương tự, mô hình cuối cùng là
Hình 14: Cây quyết định hoàn chỉnh với thuật toán C4.5.
Cài đặt Cây quyết định trong Python: đọc thêm trong tài liệu.
Giới thiệu
Logistic Regression là một thuật toán học có giám sát trong lĩnh vực
Machine Learning, thường được sử dụng để dự đoán xác suất của một sự
kiện xảy ra hay không, dựa trên các biến đầu vào. Không gian đầu ra của
mô hình Logistic Regression bị giới hạn trong phạm vi [0, 1]. Thuật toán
này thường được áp dụng trong các bài toán phân loại nhị phân, tức là
phân loại dữ liệu thành 2 lớp. Ví dụ như xác định một email có phải là
spam hay không, dự đoán một bệnh nhân có mắc bệnh ung thư hay
không, hoặc dự đoán một khách hàng có mua sản phẩm hay không. Giả
sử ta được cung cấp dữ liệu được gắn nhãn D như sau:
x1 , ..., xn ∈ Rm (datapoints).
y1 , ..., yn ∈ {0, 1} (labels).
Giới thiệu
Dựa trên dữ liệu, mục tiêu của Logistic Regression là xác định hàm
f : Rm → [0, 1] sao cho f (x) xấp xỉ xác suất Pr (Y = 1|X = x). Có rất
nhiều cách để xác định hàm này, nhưng trong Logistic Regression hàm cần
tìm được gọi là Logistic Function và thường được tham số hoá theo
θ ∈ Rm+1 và có dạng
T
eθ x
f (x, θ) = .
1 + e θT x
Hàm này còn gọi là hàm Sigmoid, là một hàm thông dụng trong Logistic
Regression với θT x = θ0 + θ1 x1 + ... + θk xk .
Giới thiệu
Hàm Sigmoid thường được chọn làm hàm kích hoạt trong Logistic
Regression là vì hàm sigmoid giới hạn giá trị đầu ra trong khoảng từ 0
đến 1, điều này tương ứng với việc biểu diễn xác suất. Bên cạnh đó hàm
Sigmoid cũng có đạo hàm rất dễ tính. Trong bài này chúng ta chỉ tìm
hiểu Logistic Regression với hàm Sigmoid.
Hình 15
Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 59 / 80
Entropy trong bài toán Logistic Regression Thuật toán tối ưu Gradient Descent
Giới thiệu
Bên cạnh hàm Sigmoid thì hàm Tanh cũng là một hàm thường được xài
trong Logistic Regresison. Hàm Tanh cũng có các tính chất tương tự
hàm Sigmoid, khác ở chỗ giới hạn của hàm Tanh là từ −1 đến 1, nhưng
ta có thể dễ dàng đưa về từ 0 đến 1.
Hình 16
Giới thiệu
Trong logistic regression, chúng ta thường muốn dự đoán xác suất thuộc
vào một nhãn cụ thể dựa trên các đặc trưng đầu vào. Một cách thông
thường để làm điều này là sử dụng hàm sigmoid để biểu diễn xác suất và
ánh xạ đầu vào sang đầu ra trong khoảng từ 0 đến 1. Tuy nhiên, trong
quá trình tối ưu hóa mô hình logistic regression, việc làm việc với hàm
sigmoid có thể gặp một số khó khăn. Để giải quyết vấn đề này, ta có thể
biến đổi hàm sigmoid thành dạng tuyến tính. Việc biến đổi hàm sigmoid
thành dạng tuyến tính trong logistic regression có hai lợi ích chính:
Thuận tiện tính toán
Tính hiệu quả của mô hình
Giới thiệu
Giới thiệu
f (x, θ)
Đặt ODDS = . Dễ nhận thấy rằng biểu thức ODDS giống như
1 − f (x, θ)
một tỉ lệ, hay còn gọi là tỉ lệ cược:
ODDS
f (x, θ) Pr (getting ) Pr (Y = 1|x) T
ODDS = = = = eθ x .
1 − f (x, θ) Pr (notgetting ) Pr (Y = 0|x)
Ví dụ: Tính ODDS của mặt ngửa (head) khi tung đồng xu đồng chất 2
mặt.
Giải
1
P(head) = .
2
1
P(tail) = 1 − P(head) = .
2
1 1
⇒ ODDS = : = 1 : 1
2 2
Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 63 / 80
Entropy trong bài toán Logistic Regression Thuật toán tối ưu Gradient Descent
Sau khi biến đổi hàm logarit, ta được kết quả cuối cùng là
Logarit Function
Tx
ln(ODDS) = ln(e θ ) = θT x = θ0 + θ1 x1 + θ2 x2 + ... + θk xk .
Vấn đề đặt ra hiện tại là làm sao tìm tham số θ để hàm f (x, θ) được tối
ưu. Điều này thường đạt được bằng cách tối đa tính likelihood của bộ dữ
liệu D = {(x1 , y1 ), ..., (xn , yn )} trong mô hình. Phương pháp Maximum
Likelihood (MLE) dự đoán tham số của một mô hình thống kê dựa trên
những “quan sát” có sẵn, bằng cách tìm bộ tham số sao cho tối đa hóa
khả năng mà mô hình với bộ tham số đó sinh ra các “quan sát” có sẵn.
Maximum Likelihood
N
L(θ1 , ..., θk |D) =
Q ˆ θ (Y = yi |X = xi ).
Pr
i=1
Trực tiếp tối ưu hàm số này theo θ là không đơn giản, hơn nữa khi N lớn,
tích của N số nhỏ hơn 1 có thể dẫn đến sai số trong tính toán (numerial
error) vì tích là một số quá nhỏ. Một phương pháp thường được sử dụng
đó là lấy logarit tự nhiên (cơ số e) của likelihood function biến phép nhân
thành phép cộng và để tránh việc số quá nhỏ. Sau đó lấy ngược dấu để
được một hàm và coi nó là hàm mất mát. Lúc này bài toán tìm giá trị lớn
nhất (maximum likelihood) trở thành bài toán tìm giá trị nhỏ nhất của
hàm mất mát (hàm này còn được gọi là negative log likelihood).
Biểu thức của hàm Maximum Likelihood sau khi biến đổi
N
1 1 X ˆ θ (Y = yi |X = xi ))
− log L(θ1 , ..., θk |D) = − yi log(Pr
N N
i=1
N
1 X
= − yi log ŷi .
N
i=1
Trong đó yˆi là xác suất dự đoán cho mỗi điểm xi , yi với các tham số θ.
Biểu thức ŷ
T
ˆ θ (Y = yi |X = xi ) = eθ x
yˆi = Pr .
1 + e θT x
Paragraphs of Text
Sed iaculis dapibus gravida. Morbi sed tortor erat, nec interdum arcu. Sed
id lorem lectus. Quisque viverra augue id sem ornare non aliquam nibh
tristique. Aenean in ligula nisl. Nulla sed tellus ipsum. Donec vestibulum
ligula non lorem vulputate fermentum accumsan neque mollis.
Sed diam enim, sagittis nec condimentum sit amet, ullamcorper sit amet
libero. Aliquam vel dui orci, a porta odio. Nullam id suscipit ipsum.
Aenean lobortis commodo sem, ut commodo leo gravida vitae.
Pellentesque vehicula ante iaculis arcu pretium rutrum eget sit amet purus.
Integer ornare nulla quis neque ultrices lobortis. Vestibulum ultrices
tincidunt libero, quis commodo erat ullamcorper id.
Bullet Points
Trang
Định lý 37
Ví dụ 38
Định nghĩa 39
Nhận xét 40
Chứng minh.
Block 1
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer lectus nisl,
ultricies in feugiat rutrum, porttitor sit amet augue. Aliquam ut tortor
mauris. Sed volutpat ante purus, quis accumsan dolor.
Block 2
Pellentesque sed tellus purus. Class aptent taciti sociosqu ad litora
torquent per conubia nostra, per inceptos himenaeos. Vestibulum quis
magna at risus dictum tempor eu vitae velit.
Block 3
Suspendisse tincidunt sagittis gravida. Curabitur condimentum, enim sed
venenatis rutrum, ipsum neque consectetur orci, sed blandit justo nisi ac
lacus.
Nhóm 3 (21TNT1) Entropy Ngày 17 tháng 5 năm 2023 72 / 80
First Section Subsection Example
Multiple Columns
Table
Theorem
Verbatim
Figure
Uncomment the code on this slide to include your own image from the
same directory as the template .TeX file.
Citation
References
The End