Welcome to Scribd!

Skip carousel

Thuc Hanh Buoi 2 NLMH DT Feb2019

Uploaded by

nhi

0% found this document useful (0 votes)

47 views5 pages

Machine learning

Copyright

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Machine learning

Copyright:

Flag for inappropriate content

0% found this document useful (0 votes)

47 views5 pages

Thuc Hanh Buoi 2 NLMH DT Feb2019

Uploaded by

nhi

Machine learning

Copyright:

Flag for inappropriate content

Jump to Page

You are on page 1of 5

Search inside document

Thực hành Nguyên Lý Máy Học

Buổi 2: Giải thuật cây quyết định

Mục tiêu:

• Củng cố lý thuyết và cài đặt giải thuật cây quyết định

• Kiểm thử và đánh giá

1. HƯỚNG DẪN THỰC HÀNH

Cách cài đặt một số thư viện cần thiết

o Chuyển vào thư mục cài đặt Python. Ví dụ: D:\Python
o Gõ lệnh các lệnh sau:
§ python –m pip install –U pip sklearn
§ python –m pip install –U pip pandas // đọc file csv

Trang web lưu trữ các tập dữ liệu sử dụng trong quá trình thực hành
https://archive.ics.uci.edu/ml/datasets.html

Tập dữ liệu rựou vang sẽ sử dụng trong phần bài tập

1
• Tập dữ liệu Iris
Xét bài toán phân loại hoa IRIS dựa trên thông tin về kích thước của cánh hoa
và đài hoa. Tập dữ liệu này có 150 phần tử, mỗi loại hoa có 50 phần tử. Dữ liệu
có 4 thuộc tính (sepal length, sepal width, petal length, petal width) và 3 lớp ( 3
loại hoa Iris: Setosa, Versicolour, Virginica)

 Tập dữ liệu này có thể download từ trang UCI

(https://archive.ics.uci.edu/ml/datasets/iris) rồi đọc dữ liệu bằng lệnh read_csv
của thư viện Pandas hoặc có thể nạp dữ liệu có sẵn bởi thư viện Sklearn

2
A. Bài toán phân lớp – chỉ số Gini
Sử dụng tập dữ liệu có sẳn “iris”

Phân chia tập dữ liệu để xây dựng mô hình và kiểm tra theo nghi thức Hold-out

Xây dựng mô hình cây quyết định dựa trên chỉ số Gini với độ sâu của cây bằng 3,
nút nhánh ít nhất có 5 phần tử.

Dự đoán nhãn cho các phần tử trong tập kiểm tra

Tính độ chính xác cho giá trị dự đoán của phần tử trong tập kiểm tra

Kết quả thu được

Accuracy is 96.0

Tính độ chính xác cho giá trị dự đoán thông qua ma trận con

Kết quả thu được

3
B. Một số cách đọc dữ liệu đầu vào
1. Đọc dữ liệu từ file bằng thư viện panda
Hướng dẫn đọc dữ liệu từ file bằng thư viện “pandas” và truy xuất dữ liệu theo
số lượng dòng cũng như theo chỉ số; xác định độ lớn của tập dữ liệu (số
record)

2. Tạo các biến lưu trữ dữ liệu

Tạo dữ liệu gồm 2 thuộc tính x1, x2 và nhãn đặt ở biến y

STT X1 X2 Nhãn
1. 0 0 0
2. 1 0 0
3. 1 1 0
4. 2 1 1
5. 2 1 1
6. 2 0 0

X = [ [0, 0],
[1, 0],
[1, 1],
[2, 1],
[2, 1],
[2,0]]
Y = [0,0,0,1,1,0]

C. Bài toán hồi quy – cây hồi quy

1. Cho tập dữ liệu housing_RT.csv có dạng:
price lotsize bedrooms bathrms stories
1 38500.0 4000 2 1 1
2 49500.0 3060 3 1 1
3 60500.0 6650 3 1 2
4 61000.0 6360 2 1 1

2. Đọc dữ liệu vào biến “dulieu”

import pandas as pd
dulieu = pd.read_csv("housing_RT.csv", index_col=0)
dulieu.ix[1:5,]

3. Sử dụng nghi thức hold-out Phân chia tập dữ liệu huấn luyện
from sklearn.model_selection import train_test_split
4
X_train,X_test,y_train,y_test = train_test_split( dulieu.ix[:,1:5],dulieu.ix[:,0],
test_size=1/3.0, random_state=100)
X_train[1:5,]
X_test[1:5]
4. Xây dựng mô hình
from sklearn.tree import DecisionTreeRegressor
regressor = DecisionTreeRegressor(random_state = 0)
regressor.fit(X_train, y_train)

5. Dự báo và đánh giá mô hình

y_pred = regressor.predict(X_test)
y_test[1:5]
y_pred[1:5]
2. BÀI TẬP

Giáo viên sẽ gửi đến máy tính sinh viên vào lúc 9h00/15h

Báo cáo môn khai phá dữ liệu
Document9 pages
Báo cáo môn khai phá dữ liệu
Tiến Cù Huy
No ratings yet
Six Sigma
From Everand
Six Sigma
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Lab 2
Document5 pages
Lab 2
Thuận Nguyễn
No ratings yet
Lab 2
Document5 pages
Lab 2
Thuận Nguyễn
No ratings yet
Tiền xử lý dữ liệu (Horse Colic dataset)
Document10 pages
Tiền xử lý dữ liệu (Horse Colic dataset)
Cu Bin
No ratings yet
Báo-Cáo MachineLearning
Document18 pages
Báo-Cáo MachineLearning
duyanhnguyen100802
No ratings yet
Phân Lớp Nhị Phân
Document4 pages
Phân Lớp Nhị Phân
Ánh Võ Thị Hồng
No ratings yet
Đồ Án Khoa Học Dữ Liệu
Document16 pages
Đồ Án Khoa Học Dữ Liệu
ĐẠT HÀ QUANG
No ratings yet
1 Support Vector Machine (SVM) : August 25, 2021
Document2 pages
1 Support Vector Machine (SVM) : August 25, 2021
tripletloss
No ratings yet
Chương 3
Document9 pages
Chương 3
55. Nguyễn Đình Tiệm
No ratings yet
Báo Cáo BTL Nhóm L P 11 - Nhóm 16
Document8 pages
Báo Cáo BTL Nhóm L P 11 - Nhóm 16
Nguyễn Hải Long - B19DCAT115
No ratings yet
Bai Thuc Hanh 2 (Updated)
Document6 pages
Bai Thuc Hanh 2 (Updated)
Cơ Đinh Văn
No ratings yet
KTra 1
Document1 page
KTra 1
AN DOAN BAO
No ratings yet
Lab2 Ens
Document5 pages
Lab2 Ens
thuanminh1452
No ratings yet
Báo Cáo Weka
Document23 pages
Báo Cáo Weka
hoalevan2001a
No ratings yet
TP Buoi3 NLMH Bayes 092019
Document4 pages
TP Buoi3 NLMH Bayes 092019
Đỗ Trung Nguyên
No ratings yet
Cài đặt các gói và import thư viện
Document1 page
Cài đặt các gói và import thư viện
tamphamvan33
No ratings yet
Report Bigdata 1
Document14 pages
Report Bigdata 1
vy.lt280502
No ratings yet
LTPTDL_Chương6
Document132 pages
LTPTDL_Chương6
Trần Đức Trung
No ratings yet
ThucHanh SVM
Document2 pages
ThucHanh SVM
thuanminh1452
No ratings yet
CTRR BTL 211
Document8 pages
CTRR BTL 211
Vy
No ratings yet
Mau Do An
Document10 pages
Mau Do An
Nguyễn Yến Nhi Lê
No ratings yet
Huong Dan Thuc Hanh Thong Ke R - BOMON-DSO
Document62 pages
Huong Dan Thuc Hanh Thong Ke R - BOMON-DSO
Trần Thuỳ Dương
No ratings yet
Xac-Suat-Thong-Ke - To-Anh-Dung - Bai-Th01 - (Cuuduongthancong - Com)
Document6 pages
Xac-Suat-Thong-Ke - To-Anh-Dung - Bai-Th01 - (Cuuduongthancong - Com)
Fluffly
No ratings yet
Chương 6. Hướng Dẫn Thực Hành Nhận Diện Ảnh CNN
Document10 pages
Chương 6. Hướng Dẫn Thực Hành Nhận Diện Ảnh CNN
Thiên Trang
0% (1)
Baocao AI
Document13 pages
Baocao AI
Trần Hiếu
No ratings yet
Baocao AI DL ML
Document11 pages
Baocao AI DL ML
Trần Hiếu
No ratings yet
Lê Khánh Linh - B19DCCN373
Document4 pages
Lê Khánh Linh - B19DCCN373
Linh le khanh
No ratings yet
De CUONG Mon Khai Thac Du Lieu Rev - 45tiet
Document4 pages
De CUONG Mon Khai Thac Du Lieu Rev - 45tiet
NGUYEN THI THUY VAN
No ratings yet
Data Mining Review 1
Document32 pages
Data Mining Review 1
Hoang Oanh Mai
No ratings yet
Báo Cáo K Means Cluster
Document7 pages
Báo Cáo K Means Cluster
HUY NGUYEN QUANG
No ratings yet
BTL Xla
Document12 pages
BTL Xla
Đặng Thị Vân Anh
No ratings yet
KHDL 2 Orange
Document15 pages
KHDL 2 Orange
Vương Lam
No ratings yet
LyThuyet Excel Ver02
Document18 pages
LyThuyet Excel Ver02
tri.caovan07vt
No ratings yet
Slide TH-C T-P Aimesoft
Document26 pages
Slide TH-C T-P Aimesoft
Thương Phạm
No ratings yet
Tai Lieu Thuc Hanh Mon Xu Ly So Lieu
Document45 pages
Tai Lieu Thuc Hanh Mon Xu Ly So Lieu
Tuấn Trần
No ratings yet
MLP303x Classification
Document9 pages
MLP303x Classification
đức ngọc trần
No ratings yet
Tìm hiểu thuật toán XgBoost cho phân loại mã độc Android
Document12 pages
Tìm hiểu thuật toán XgBoost cho phân loại mã độc Android
sypgamingtv
100% (1)
Giaotrinh LTCSDL CSharp in
Document165 pages
Giaotrinh LTCSDL CSharp in
Linh Do
No ratings yet
Powpoint
Document29 pages
Powpoint
EDM NCS
No ratings yet
Tiểu Luận Cuối Kỳ
Document4 pages
Tiểu Luận Cuối Kỳ
NHI NGUYỄN NỮ QUỲNH
No ratings yet
N P Bài Historam
Document2 pages
N P Bài Historam
Khôi Nguyên
No ratings yet
Slide TH-C T-P Aimesoft
Document26 pages
Slide TH-C T-P Aimesoft
Thương Phạm
No ratings yet
Lab 01 - Preprocessing: Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên
Document17 pages
Lab 01 - Preprocessing: Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên
triet24042404
No ratings yet
Bai Thuc Hanh 4
Document6 pages
Bai Thuc Hanh 4
Tong Huynh
No ratings yet
Lab 1
Document2 pages
Lab 1
GiangPhạm
No ratings yet
Cuối kì mô phỏng hóa
Document24 pages
Cuối kì mô phỏng hóa
Luân Vũ
No ratings yet
Churn Analysis Using Spark
Document4 pages
Churn Analysis Using Spark
1050070013
No ratings yet
1 AlgorithmComplexity
Document42 pages
1 AlgorithmComplexity
phamquyet472k4
No ratings yet
Kiều Khánh Duy-B19DCAT029
Document9 pages
Kiều Khánh Duy-B19DCAT029
Kiều Khánh Duy
No ratings yet
TGMT
Document3 pages
TGMT
hoangdt.21ce
No ratings yet
Navie
Document11 pages
Navie
nguyenhuudat8989
No ratings yet
DCHP KPDL HNQ
Document27 pages
DCHP KPDL HNQ
vuhuyhnvn
No ratings yet
5. Huong dan su dung mo hinh với Weka
Document13 pages
5. Huong dan su dung mo hinh với Weka
jarvisle11
No ratings yet
Tài Liệu Không Có Tiêu Đề
Document3 pages
Tài Liệu Không Có Tiêu Đề
Mỹ Thanh Dương
No ratings yet
Big4 Shoppee Analysis
Document25 pages
Big4 Shoppee Analysis
Phú Đình
No ratings yet
Bai Tieu Luan NCKH
Document22 pages
Bai Tieu Luan NCKH
Nguyễn Quang Chí
No ratings yet
Machine Learning - NLP: Text Classification Sử Dụng Sklearn Python - Code Từ Đầu - Machine Learning
Document9 pages
Machine Learning - NLP: Text Classification Sử Dụng Sklearn Python - Code Từ Đầu - Machine Learning
tnt007data
No ratings yet
Báo Cáo Thực Nghiệm
Document29 pages
Báo Cáo Thực Nghiệm
Khoa Lê
No ratings yet
Hệ Thống Sản Xuất Tinh Gọn
From Everand
Hệ Thống Sản Xuất Tinh Gọn
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
(123doc) - Ngan-Hang-Cau-Hoi-Lap-Trinh-Mang-Co-Dap-An
Document22 pages
(123doc) - Ngan-Hang-Cau-Hoi-Lap-Trinh-Mang-Co-Dap-An
nhi
No ratings yet
Chap 5 - Thu Tuc Hop Giai
Document16 pages
Chap 5 - Thu Tuc Hop Giai
nhi
No ratings yet
Niên luận cơ sở
Document3 pages
Niên luận cơ sở
nhi
No ratings yet
SVLSM
Document23 pages
SVLSM
nhi
No ratings yet