Professional Documents
Culture Documents
高中資訊先修課程 Ch5
高中資訊先修課程 Ch5
資料探勘技術練習
高中資訊先修課程
目錄
2
5-1. Weka 軟體介紹
- 支援跨平台
- 簡易的圖像化操作
3
Weka 軟體介紹
對於資料探勘的支援
前置處理 分群 分類 關聯規則探勘
4
Weka 軟體介紹
可用資料
5
Weka 軟體介紹
學生資料
分群
6
Weka 軟體介紹
今天要打球嗎 ?
分類
80% 20%
打球 不打球
7
Weka 軟體介紹
購買尿布 購買啤酒
● 信賴度:前提導致結果的機率
● 增益度:比起信賴度多考慮結果單獨發生
的機率
8
資料集 顧客購買電腦資料
type: 數值 type: 分類
屬性
案例
9
5-2. 決策樹演算法介紹
年齡
<=30 >40
31..40
屬性
學生 信用狀況
分支 是
否 是 良好 普通
葉節點 否 是 否 是
10
決策樹
年齡: 23 年齡
<=30 >40
收入:中 31..40
學生 信用狀況
學生:是 是
否 是 良好 普通
信用狀況:普通
否 是 否 是
11
資訊量的表示
Entropy 熵
A B C D 2bits
25%
90% 25%
3% 25%
3% 25%
3%
1
00 100
01 101
10 110
11
0.9×1 + (0.03×3)×3 ≒ 1.2bits
不確定性越大、越難猜測時, entropy 越
大 12
資訊量的表示
有買電腦 沒買電腦
13
計算每個屬性的 entropy
以年齡為例 S11=30 歲以下,會買電腦
S21=30 歲以下,不會買電腦
• <=30 :
• 31..40 :
• >40 :
14
資訊增益 Information Gain
決定分支的屬性 -> 選擇的屬性能為模型帶來最大的訊息
•
•
• 年齡
<=30 >40
• 31..40
15
5-3. Weka 安裝實作
1. 至Weka官網
2. 點擊 here
16
3. 點擊 next 4. 選擇儲存位置
17
Weka 介面
18
安裝補充包 (ID3)
1. Tools → Package manager
19
2. SimpleEducationalLearningSchemes → install
20
3. 顯示 Package(s) installed successfully 表示安裝成功,重開 weka
21
Weka 實作
1. Explorer
22
2. Preprocess → Open file 開啟檔案
3. 選擇資料 computer.csv
23
4. id → Remove
移除非類別資料
此處可以看有
多少筆資料和
多少屬性。
24
5. Classify → Choose
25
6. weka → classifiers → trees → Id3
26
7. 選擇 Cross-validation
27
8. 選擇分類目標 (class_buy) → Start
28
9. 觀察結果
正確和錯誤分類的數量
分類
結果
a b
-----
4 1 | a 實際
1 8 | b 結果
29
ID3 沒有視覺化
的樹可以看, Tree
改用 J48
30
10. Choose → J48 → Start → 右鍵點選 Visualize Tree
31
11. Visualize Tree
32
更多資料
• Weka-3-9-4\data
• 公開資料集
33
5-4. 問題討論
❏ 利用公開資料操作,理解決策樹如何產生
❏ [ 問題討論 ]
➔透過觀察決策樹分析結果,得出分析結論
➔決策樹實際可以應用的範例
34