Professional Documents
Culture Documents
Bao-Cao
Bao-Cao
BÁO CÁO
Machine Learning
Bộ môn: Trí tuệ nhân tạo và ứng dụng Nhóm trưởng Trịnh Hải Long 20172665
1
Nội dung
I. Giới thiệu chung về Machine learning
1. Định nghĩa
2. Phân loại thuật toán
II. Cây quyết định_Decision tree
1. Định nghĩa
2. Entropy
3. Information Gain
• Học tập là bất kỳ quá trình nào mà hệ thống cải thiện hiệu suất từ kinh nghiệm.
- Herbert Simon
• Học máy là nghiên cứu các thuật toán
- cải thiện hiệu suất: P
- ở một số nhiệm vụ: T
- với kinh nghiệm: E.
Một nhiệm vụ học tập được xác định rõ ràng được đưa ra bởi <P, T, E>.
- Tom Mitchell (1998)
• Xử lý ảnh
• Phân tích văn bản
• Khai phá dữ liệu
• Trò chơi điện tử & Robot
• BT1: Học có giám sát ( Supervised learning)_ Dữ liệu đầu vào có gán nhãn
- Phân loại (Classification)
- Hồi quy (Regression)
• BT2: Học không giám sát (UnSupervised learning)
Dữ liệu đầu vào ko gán nhãn
• BT3: Học tập giám sát ½ ( Semi- Supervised learning)
• BT4: Học tập tăng cường (Reinforcement learning)
Phân loại
VD: Hệ thống nhận vào các reviews về một sản phẩm đồ ăn. cần xác định các
reviews đó có nội dung tích cực hay tiêu cực.
Text Label
“Món này ngon phết, giá cả sinh
viên nhưng phải chờ khá lâu vì Tích cực
đông khách.”
“Chờ lâu quá thể đáng.” Tiêu cực
… …
Hồi quy
Khi đầu ra mong muốn là một dải giá trị liên tục.
Chẳng hạn như giá trị xác suất, khi đó bài toán sẽ
thuộc loại hồi quy. Nghề
Thu nhập Tuổi Điểm tin cậy
nghiệp
VD: Một hệ thống nhận vào hình ảnh/ thông tin của Lập trình
> 1000$ 25 0.85
một người. Đánh giá số điểm đo khả năng người đó viên
sẽ trả một khoản vay tín dụng. Sinh viên < 200$ 18 0.3
… … … …
Là một bài toán dự đoán điểm tin cậy trong [0; 1];
Nó thể hiện xác suất một người sẽ trả các khoản
vay của mình. Khi đó, dữ liệu sẽ giống như sau:
• Hiểu miền giá trị, kiến thức trước đây và mục tiêu
Với các thuộc tính thuộc kiểu biến liên tục thì có thể đưa ra ngưỡng để kiểm
tra.
• B1: Dữ liệu đưa vào: Huấn luyện các dữ liệu gán nhãn ở đây là tập hợp
Giả sự xi thuộc miền D(X) và hàm mục tiêu:
• Với một phân phối xác suất của một biến rời rạc x có thể
nhận n giá trị khác nhau x1,x2,…,xn.
• Giả sử rằng xác suất để x nhận các giá trị này là pi=p(x=xi).
• Ký hiệu phân phối này là p=(p1 ,p2 ,…,pn). Entropy của phân
phối này được định nghĩa là:
H(p)= – ∑nn=1 pi log(pi)
Entropy Impurity
• Information Gain dựa trên sự giảm của hàm Entropy khi tập dữ liệu được phân
chia trên một thuộc tính. Để xây dựng một cây quyết định, ta phải tìm tất cả thuộc
tính trả về Infomation gain cao nhất.
• Để xác định các nút trong mô hình cây quyết định, ta thực hiện tính Infomation
Gain tại mỗi nút theo trình tự sau:
Bước 1: Tính toán hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc
lớp c cho trước:
H(S)= – ∑cc=1 (Nc/N) log(Nc/N)
Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu
trong S được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần
Vũ Nhóm
Thu Hằng
05 20172533 Thông tin quang sợi 29