Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 27

HA NOI UNIVERSITY OF SCIENCE AND TECHNOLOGY

School of Electronics and Telecommunications

BÁO CÁO

Machine Learning

Bộ môn: Trí tuệ nhân tạo và ứng dụng Nhóm trưởng Trịnh Hải Long 20172665

GVHD: TS. Võ Lê Cường Thành viên Vũ Thu Hằng 20172533


Ngô Thị Hương 20172601
Nhóm báo cáo: Nhóm 04

1
Nội dung
I. Giới thiệu chung về Machine learning
1. Định nghĩa
2. Phân loại thuật toán
II. Cây quyết định_Decision tree
1. Định nghĩa
2. Entropy
3. Information Gain

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 2


I. Giới thiệu chung về Machine learning

• Học tập là bất kỳ quá trình nào mà hệ thống cải thiện hiệu suất từ kinh nghiệm.
- Herbert Simon
• Học máy là nghiên cứu các thuật toán
- cải thiện hiệu suất: P
- ở một số nhiệm vụ: T
- với kinh nghiệm: E.
Một nhiệm vụ học tập được xác định rõ ràng được đưa ra bởi <P, T, E>.
- Tom Mitchell (1998)

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 3


I. Giới thiệu chung về Machine learning
Một số bài toán học máy

• Xử lý ảnh
• Phân tích văn bản
• Khai phá dữ liệu
• Trò chơi điện tử & Robot

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 4


I. Giới thiệu chung về Machine learning
Phân loại thuật toán

• BT1: Học có giám sát ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn
- Phân loại (Classification)
- Hồi quy (Regression)
• BT2: Học không giám sát (UnSupervised learning)
Dữ liệu đầu vào ko gán nhãn
• BT3: Học tập giám sát ½ ( Semi- Supervised learning)
• BT4: Học tập tăng cường (Reinforcement learning)

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 5


I. Giới thiệu chung về Machine learning
Phân loại thuật toán
• BT1: Giám sát học tập ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn
• Thuật toán thực hiện quá trình “chuyển dữ liệu đầu vào thành đầu ra mong muốn”.

Phân loại
VD: Hệ thống nhận vào các reviews về một sản phẩm đồ ăn. cần xác định các
reviews đó có nội dung tích cực hay tiêu cực.

Text Label
“Món này ngon phết, giá cả sinh
viên nhưng phải chờ khá lâu vì Tích cực
đông khách.”
“Chờ lâu quá thể đáng.” Tiêu cực
… …

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 6


I. Giới thiệu chung về Machine learning
Phân loại thuật toán
• BT1: Giám sát học tập ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn

Hồi quy
Khi đầu ra mong muốn là một dải giá trị liên tục.
Chẳng hạn như giá trị xác suất, khi đó bài toán sẽ
thuộc loại hồi quy. Nghề
Thu nhập Tuổi Điểm tin cậy
nghiệp
VD: Một hệ thống nhận vào hình ảnh/ thông tin của Lập trình
> 1000$ 25 0.85
một người. Đánh giá số điểm đo khả năng người đó viên
sẽ trả một khoản vay tín dụng. Sinh viên < 200$ 18 0.3
… … … …
 Là một bài toán dự đoán điểm tin cậy trong [0; 1];
Nó thể hiện xác suất một người sẽ trả các khoản
vay của mình. Khi đó, dữ liệu sẽ giống như sau:

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 7


I. Giới thiệu chung về Machine learning
Phân loại thuật toán
• BT2: Học không giám sát (UnSupervised
learning) _ Dữ liệu đầu vào ko gán nhãn

- Các mẫu dữ liệu trong học không giám sát


chỉ cần đầu vào mà không cần label (đầu
ra).

- Một thuật toán điển hình là bài toán phân


cụm(clustering algorithm); Nó học cách để
tìm các mẫu dữ liệu tương tự nhau và
nhóm vào thành các cụm(cluster).

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 8


I. Giới thiệu chung về Machine learning
Phân loại thuật toán
• BT4: Học tập tăng cường (Reinforcement
learning)
Từ một chuỗi các trạng thái và hành động cho  Ví dụ:
trước (bị trì hoãn), tìm kết quả trả ra là một quy • Vấn đề về tín dụng
luật. • Chơi trò chơi
Quy luật là ánh xạ từ các trạng thái -> hành • Robot trong mê cung
động để cho biết phải làm gì trong một trạng • Cân bằng một cây sào trên
thái nhất định. tay

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 9


I. Giới thiệu chung về Machine learning
The Agent – Environment Interface
• Agent và môi trường tương tác với nhau tại các
mốc thời gian rời rạc: t = 0,1,2,...
• Agent quan sát được trạng thái tại thời điểm t:
• Tạo ra hành động tại thời điểm t:
• Nhận được kết quả:
• Và một trạng thái kết quả kế tiếp:

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 10


I. Giới thiệu chung về Machine learning
Các vấn đề về việc học

1. Thiết kế mô hình học


• Chọn dữ liệu để đào tạo
• Chọn những yếu tố để học
• Chọn cách biểu diễn Hàm đích
• Chọn bài toán học để suy ra hàm
đích từ dữ liệu

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 11


I. Giới thiệu chung về Machine learning

• Có 3 yếu tố để hình thành lên mỗi thuật toán ML :


- Biểu diễn (representation)
- Tối ưu hóa (optimization)
- Đánh giá (evaluation)

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 12


I. Giới thiệu chung về Machine learning
Các hàm biểu diễn:
- Các hàm số:
• Linear regression – Neural networks – Support vector machines
- Các hàm biểu tượng :
• Decision trees – Rules in propositional logic – Rules in first-order predicate
logic
- Các hàm dựa trên ví dụ :
• Nearest-neighbor – Case-based
- Các mô hình đồ họa xác suất :
• Naïve Bayes – Bayesian networks – Hidden-Markov Models (HMMs) –
Probabilistic Context Free Grammars (PCFGs) – Markov networks

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 13


I. Giới thiệu chung về Machine learning
Một vài thuật toán tìm kiếm/tối ưu Evaluation – Đánh giá
 Gradient descent: • Accuracy
• Perceptron • Precision and recall
• Backpropagation – Lan truyền ngược • Squared error
 Dynamic Programming: • Likelihood
• HMM Learning • Posterior probability
• PCFG Learning • Cost/Utility
 Divide and Conquer: • Margin
• Decision tree induction • Entropy
• Rules learning • K-L divergence
 Evolutionary Computation:
• Genetic Algorithms (GAs) – Thuật toán di truyền
• Genetic Programming (GP) – Giải thuật di truyền
• Neuro-evolution – Tiến hóa mạng nơ-ron

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 14


I. Giới thiệu chung về Machine learning
ML trong thực hành

• Hiểu miền giá trị, kiến thức trước đây và mục tiêu

• Tích hợp dữ liệu, lựa chọn, làm sạch, xử lý trước, v.v.


Vòng lặp
• Tìm hiểu mô hình
• Giải thích kết quả

• Củng cố và triển khai các kiến thức đã khám phá

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 15


II. Cây quyết định
Khái quát hóa bài toán cây quyết định

• Định nghĩa : Decision Trees ( cây quyết định ) là


một cây phân cấp có cấu trúc được dùng để
phân lớp các đối tượng dựa vào dãy các luật.
Các thuộc tính của đối tượng có thể thuộc các
kiểu dữ liệu khác nhau như Nhị phân (Binary) ,
Định danh (Nominal), Thứ tự (Ordinal), Số lượng
(Quantitative) trong khi đó thuộc tính phân lớp
phải có kiểu dữ liệu là Binary hoặc Ordinal.

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 17


II. Cây quyết định
Khái quát hóa bài toán cây quyết định
• Đặt vấn đề
- Tập hợp các trường hợp có thể xuất hiện: X
- Tập hợp các nhãn có thể xuất hiện: Y
- Hàm mục tiêu chưa xác định : f: X  Y
- Tập hợp các giả thuyết xảy ra: H = { h  h: X  Y }
• Đầu vào: Đào tạo ví dụ của các hàm mục tiêu chưa xác định

• Đầu ra: Giả thuyết h  H gần đúng nhất với f

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 18


II. Cây quyết định
Ví dụ bài toán cây quyết định

• Các cột nằm trong Predictors


sẽ gọi là các tính năng Xi
• Các hàng ngang (xi,yj) sẽ là
các trường hợp xảy ra được
gán nhãn

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 19


II. Cây quyết định
Ví dụ bài toán cây quyết định

• Mỗi node : sẽ là một thuộc


tính Xi
• Nhánh: sẽ là các trường hợp
có thể xảy ra của Node
• Mỗi cái Lá của node: sẽ là dự
đoán được đưa ra ở đây sẽ là
Y (Y/N)

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 20


II. Cây quyết định
Ví dụ bài toán cây quyết định

Với các thuộc tính thuộc kiểu biến liên tục thì có thể đưa ra ngưỡng để kiểm
tra.

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 21


II. Cây quyết định
Stages of (Batch) Machine Learning_Các giai đoạn việc học máy

• B1: Dữ liệu đưa vào: Huấn luyện các dữ liệu gán nhãn ở đây là tập hợp
Giả sự xi thuộc miền D(X) và hàm mục tiêu:

• B2: Huấn luyện model:


• B3: Sau đó cung cấp model 1 tập dữ liệu mới ( cái dữ liệu này thì chưa
được gán nhãn)

Model sẽ đưa ra dự đoán của mình

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 22


II. Cây quyết định
Việc chọn Thuộc tính Tốt nhất

• Random: Chọn bất kì một thuộc tính nào đó


• Least-Values: Chọn thuộc tính có số lượng gia trị nhỏ nhất.
• Most-Values: Chọn thuộc tính có số lượng có khả năng nhiều nhất.
• Max-Gain: Chọn thuộc tính có lượng thông tin tăng ích( inf Gain).

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 24


II. Cây quyết định
Entropy

• Với một phân phối xác suất của một biến rời rạc x có thể
nhận n giá trị khác nhau x1,x2,…,xn.
• Giả sử rằng xác suất để x nhận các giá trị này là pi=p(x=xi).
• Ký hiệu phân phối này là p=(p1 ,p2 ,…,pn). Entropy  của phân
phối này được định nghĩa là:                
H(p)=  – ∑nn=1 pi log(pi)

Entropy Impurity

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 25


II. Cây quyết định
Entropy

• Xét một ví dụ với n=2. Trong


trường hợp p là tinh khiết nhất, tức
một trong hai giá trị pi bằng 1, giá
trị kia bằng 0, entropy của phân
phối này là H(p) = 0. Khi p là vẩn
đục nhất, tức cả hai giá trị pi = 0.5,
hàm entropy đạt giá trị cao nhất.

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 26


II. Cây quyết định
Information Gain – Độ tăng thông tin 

• Information Gain dựa trên sự giảm của hàm Entropy khi tập dữ liệu được phân
chia trên một thuộc tính. Để xây dựng một cây quyết định, ta phải tìm tất cả thuộc
tính trả về Infomation gain cao nhất.
• Để xác định các nút trong mô hình cây quyết định, ta thực hiện tính Infomation
Gain tại mỗi nút theo trình tự sau:

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 27


II. Cây quyết định
Information Gain 

Bước 1: Tính toán hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc
lớp c cho trước:
H(S)=  – ∑cc=1 (Nc/N) log(Nc/N)

Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu
trong S được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần

lượt là m1, m2 ,…, mK , ta có:

H(x, S) = ∑Kk=1 (mk / N) * H(Sk )


Bước 3: Chỉ số Gain Information được tính bằng:
G(x, S) = H(S) – H(x,S)

Nhóm 04 Trí tuệ nhân tạo và ứng dụng 28


Thanks for your attention.

Vũ Nhóm
Thu Hằng
05 20172533 Thông tin quang sợi 29

You might also like