Bao-Cao

HA NOI UNIVERSITY OF SCIENCE AND TECHNOLOGY
School of Electronics and Telecommunications
BÁO CÁO
Machine Learning
Bộ môn: Trí tuệ nhân tạo và ứng dụng Nhóm trưởng Trịnh Hải Long 20172665
GVHD: TS. Võ Lê Cường Thành viên Vũ Thu Hằng 20172533

Ngô Thị Hương 20172601
Nhóm báo cáo: Nhóm 04
1
Nội dung
I. Giới thiệu chung về Machine learning
1. Định nghĩa
2. Phân loại thuật toán
II. Cây quyết định_Decision tree
1. Định nghĩa
2. Entropy
3. Information Gain
Nhóm 04 Trí tuệ nhân tạo và ứng dụng 2

• Học tập là bất kỳ quá trình nào mà hệ thống cải thiện hiệu suất từ kinh nghiệm.
- Herbert Simon
• Học máy là nghiên cứu các thuật toán
- cải thiện hiệu suất: P
- ở một số nhiệm vụ: T
- với kinh nghiệm: E.
Một nhiệm vụ học tập được xác định rõ ràng được đưa ra bởi <P, T, E>.
- Tom Mitchell (1998)

Một số bài toán học máy
• Xử lý ảnh
• Phân tích văn bản
• Khai phá dữ liệu
• Trò chơi điện tử & Robot

Phân loại thuật toán
• BT1: Học có giám sát ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn
- Phân loại (Classification)
- Hồi quy (Regression)
• BT2: Học không giám sát (UnSupervised learning)
Dữ liệu đầu vào ko gán nhãn
• BT3: Học tập giám sát ½ ( Semi- Supervised learning)
• BT4: Học tập tăng cường (Reinforcement learning)

• BT1: Giám sát học tập ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn
• Thuật toán thực hiện quá trình “chuyển dữ liệu đầu vào thành đầu ra mong muốn”.
Phân loại
VD: Hệ thống nhận vào các reviews về một sản phẩm đồ ăn. cần xác định các
reviews đó có nội dung tích cực hay tiêu cực.
Text Label
“Món này ngon phết, giá cả sinh
viên nhưng phải chờ khá lâu vì Tích cực
đông khách.”
“Chờ lâu quá thể đáng.” Tiêu cực
… …

• BT1: Giám sát học tập ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn
Hồi quy
Khi đầu ra mong muốn là một dải giá trị liên tục.
Chẳng hạn như giá trị xác suất, khi đó bài toán sẽ
thuộc loại hồi quy. Nghề
Thu nhập Tuổi Điểm tin cậy
nghiệp
VD: Một hệ thống nhận vào hình ảnh/ thông tin của Lập trình
> 1000$ 25 0.85
một người. Đánh giá số điểm đo khả năng người đó viên
sẽ trả một khoản vay tín dụng. Sinh viên < 200$ 18 0.3
… … … …
Là một bài toán dự đoán điểm tin cậy trong [0; 1];
Nó thể hiện xác suất một người sẽ trả các khoản
vay của mình. Khi đó, dữ liệu sẽ giống như sau:

• BT2: Học không giám sát (UnSupervised
learning) _ Dữ liệu đầu vào ko gán nhãn
- Các mẫu dữ liệu trong học không giám sát

chỉ cần đầu vào mà không cần label (đầu
ra).
- Một thuật toán điển hình là bài toán phân

cụm(clustering algorithm); Nó học cách để
tìm các mẫu dữ liệu tương tự nhau và
nhóm vào thành các cụm(cluster).

• BT4: Học tập tăng cường (Reinforcement
learning)
Từ một chuỗi các trạng thái và hành động cho  Ví dụ:
trước (bị trì hoãn), tìm kết quả trả ra là một quy • Vấn đề về tín dụng
luật. • Chơi trò chơi
Quy luật là ánh xạ từ các trạng thái -> hành • Robot trong mê cung
động để cho biết phải làm gì trong một trạng • Cân bằng một cây sào trên
thái nhất định. tay

The Agent – Environment Interface
• Agent và môi trường tương tác với nhau tại các
mốc thời gian rời rạc: t = 0,1,2,...
• Agent quan sát được trạng thái tại thời điểm t:
• Tạo ra hành động tại thời điểm t:
• Nhận được kết quả:
• Và một trạng thái kết quả kế tiếp:

Các vấn đề về việc học
1. Thiết kế mô hình học

• Chọn dữ liệu để đào tạo
• Chọn những yếu tố để học
• Chọn cách biểu diễn Hàm đích
• Chọn bài toán học để suy ra hàm
đích từ dữ liệu

• Có 3 yếu tố để hình thành lên mỗi thuật toán ML :

- Biểu diễn (representation)
- Tối ưu hóa (optimization)
- Đánh giá (evaluation)

Các hàm biểu diễn:
- Các hàm số:
• Linear regression – Neural networks – Support vector machines
- Các hàm biểu tượng :
• Decision trees – Rules in propositional logic – Rules in first-order predicate
logic
- Các hàm dựa trên ví dụ :
• Nearest-neighbor – Case-based
- Các mô hình đồ họa xác suất :
• Naïve Bayes – Bayesian networks – Hidden-Markov Models (HMMs) –
Probabilistic Context Free Grammars (PCFGs) – Markov networks

Một vài thuật toán tìm kiếm/tối ưu Evaluation – Đánh giá
 Gradient descent: • Accuracy
• Perceptron • Precision and recall
• Backpropagation – Lan truyền ngược • Squared error
 Dynamic Programming: • Likelihood
• HMM Learning • Posterior probability
• PCFG Learning • Cost/Utility
 Divide and Conquer: • Margin
• Decision tree induction • Entropy
• Rules learning • K-L divergence
 Evolutionary Computation:
• Genetic Algorithms (GAs) – Thuật toán di truyền
• Genetic Programming (GP) – Giải thuật di truyền
• Neuro-evolution – Tiến hóa mạng nơ-ron

ML trong thực hành
• Hiểu miền giá trị, kiến thức trước đây và mục tiêu
• Tích hợp dữ liệu, lựa chọn, làm sạch, xử lý trước, v.v.

Vòng lặp
• Tìm hiểu mô hình
• Giải thích kết quả
• Củng cố và triển khai các kiến thức đã khám phá

II. Cây quyết định
Khái quát hóa bài toán cây quyết định
• Định nghĩa : Decision Trees ( cây quyết định ) là

một cây phân cấp có cấu trúc được dùng để
phân lớp các đối tượng dựa vào dãy các luật.
Các thuộc tính của đối tượng có thể thuộc các
kiểu dữ liệu khác nhau như Nhị phân (Binary) ,
Định danh (Nominal), Thứ tự (Ordinal), Số lượng
(Quantitative) trong khi đó thuộc tính phân lớp
phải có kiểu dữ liệu là Binary hoặc Ordinal.

Khái quát hóa bài toán cây quyết định
• Đặt vấn đề
- Tập hợp các trường hợp có thể xuất hiện: X
- Tập hợp các nhãn có thể xuất hiện: Y
- Hàm mục tiêu chưa xác định : f: X  Y
- Tập hợp các giả thuyết xảy ra: H = { h  h: X  Y }
• Đầu vào: Đào tạo ví dụ của các hàm mục tiêu chưa xác định
• Đầu ra: Giả thuyết h  H gần đúng nhất với f

Ví dụ bài toán cây quyết định
• Các cột nằm trong Predictors

sẽ gọi là các tính năng Xi
• Các hàng ngang (xi,yj) sẽ là
các trường hợp xảy ra được
gán nhãn

• Mỗi node : sẽ là một thuộc

tính Xi
• Nhánh: sẽ là các trường hợp
có thể xảy ra của Node
• Mỗi cái Lá của node: sẽ là dự
đoán được đưa ra ở đây sẽ là
Y (Y/N)

Với các thuộc tính thuộc kiểu biến liên tục thì có thể đưa ra ngưỡng để kiểm
tra.

Stages of (Batch) Machine Learning_Các giai đoạn việc học máy
• B1: Dữ liệu đưa vào: Huấn luyện các dữ liệu gán nhãn ở đây là tập hợp
Giả sự xi thuộc miền D(X) và hàm mục tiêu:
• B2: Huấn luyện model:

• B3: Sau đó cung cấp model 1 tập dữ liệu mới ( cái dữ liệu này thì chưa
được gán nhãn)
Model sẽ đưa ra dự đoán của mình

Việc chọn Thuộc tính Tốt nhất
• Random: Chọn bất kì một thuộc tính nào đó

• Least-Values: Chọn thuộc tính có số lượng gia trị nhỏ nhất.
• Most-Values: Chọn thuộc tính có số lượng có khả năng nhiều nhất.
• Max-Gain: Chọn thuộc tính có lượng thông tin tăng ích( inf Gain).

Entropy
• Với một phân phối xác suất của một biến rời rạc x có thể
nhận n giá trị khác nhau x1,x2,…,xn.
• Giả sử rằng xác suất để x nhận các giá trị này là pi=p(x=xi).
• Ký hiệu phân phối này là p=(p1 ,p2 ,…,pn). Entropy của phân
phối này được định nghĩa là:
H(p)= – ∑nn=1 pi log(pi)
Entropy Impurity

Entropy
• Xét một ví dụ với n=2. Trong

trường hợp p là tinh khiết nhất, tức
một trong hai giá trị pi bằng 1, giá
trị kia bằng 0, entropy của phân
phối này là H(p) = 0. Khi p là vẩn
đục nhất, tức cả hai giá trị pi = 0.5,
hàm entropy đạt giá trị cao nhất.

Information Gain – Độ tăng thông tin
• Information Gain dựa trên sự giảm của hàm Entropy khi tập dữ liệu được phân
chia trên một thuộc tính. Để xây dựng một cây quyết định, ta phải tìm tất cả thuộc
tính trả về Infomation gain cao nhất.
• Để xác định các nút trong mô hình cây quyết định, ta thực hiện tính Infomation
Gain tại mỗi nút theo trình tự sau:

Information Gain
Bước 1: Tính toán hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc
lớp c cho trước:
H(S)= – ∑cc=1 (Nc/N) log(Nc/N)
Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu
trong S được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần
lượt là m1, m2 ,…, mK , ta có:
H(x, S) = ∑Kk=1 (mk / N) * H(Sk )

Bước 3: Chỉ số Gain Information được tính bằng:
G(x, S) = H(S) – H(x,S)

Thanks for your attention.
Vũ Nhóm
Thu Hằng
05 20172533 Thông tin quang sợi 29

Bao-Cao

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bao-Cao

Uploaded by

Copyright:

Available Formats

HA NOI UNIVERSITY OF SCIENCE AND TECHNOLOGY

School of Electronics and Telecommunications

GVHD: TS. Võ Lê Cường Thành viên Vũ Thu Hằng 20172533

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 2

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 3

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 4

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 5

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 6

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 7

- Các mẫu dữ liệu trong học không giám sát

- Một thuật toán điển hình là bài toán phân

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 8

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 9

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 10

1. Thiết kế mô hình học

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 11

• Có 3 yếu tố để hình thành lên mỗi thuật toán ML :

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 12

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 13

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 14

• Tích hợp dữ liệu, lựa chọn, làm sạch, xử lý trước, v.v.

• Củng cố và triển khai các kiến thức đã khám phá

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 15

• Định nghĩa : Decision Trees ( cây quyết định ) là

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 17

• Đầu ra: Giả thuyết h  H gần đúng nhất với f

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 18

• Các cột nằm trong Predictors

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 19

• Mỗi node : sẽ là một thuộc

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 20

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 21

• B2: Huấn luyện model:

Model sẽ đưa ra dự đoán của mình

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 22

• Random: Chọn bất kì một thuộc tính nào đó

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 24

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 25

• Xét một ví dụ với n=2. Trong

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 26

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 27

lượt là m1, m2 ,…, mK , ta có:

H(x, S) = ∑Kk=1 (mk / N) * H(Sk )

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 28

You might also like