Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 34

第五章 .

資料探勘技術練習

高中資訊先修課程
目錄

❏ 5-1. Weka 軟體介紹


❏ 5-2. 決策樹演算法介紹
❏ 5-3. Weka 安裝、實作
❏ 5-4. 問題討論

2
5-1. Weka 軟體介紹

Waikato Environment for


Knowledge Analysis

- 支援跨平台
- 簡易的圖像化操作

3
Weka 軟體介紹

對於資料探勘的支援

前置處理 分群 分類 關聯規則探勘

4
Weka 軟體介紹

ARFF CSV ODS

前置處理 過濾、篩選 ...

可用資料

5
Weka 軟體介紹

學生資料

分群

6
Weka 軟體介紹

今天要打球嗎 ?

分類

80% 20%

打球 不打球

7
Weka 軟體介紹

購買尿布 購買啤酒

關聯規則探勘 信賴度: 0.77 ,增益度: 1.88

● 信賴度:前提導致結果的機率
● 增益度:比起信賴度多考慮結果單獨發生
的機率

8
資料集 顧客購買電腦資料
type: 數值 type: 分類
屬性

案例

9
5-2. 決策樹演算法介紹

年齡

<=30 >40
31..40
屬性
學生 信用狀況
分支 是
否 是 良好 普通

葉節點 否 是 否 是

10
決策樹

年齡: 23 年齡

<=30 >40
收入:中 31..40
學生 信用狀況
學生:是 是
否 是 良好 普通
信用狀況:普通
否 是 否 是

11
資訊量的表示
Entropy 熵

A B C D 2bits
25%
90% 25%
3% 25%
3% 25%
3%
1
00 100
01 101
10 110
11
0.9×1 + (0.03×3)×3 ≒ 1.2bits

不確定性越大、越難猜測時, entropy 越
大 12
資訊量的表示

有買電腦 沒買電腦

13
計算每個屬性的 entropy
以年齡為例 S11=30 歲以下,會買電腦
S21=30 歲以下,不會買電腦

• <=30 :
• 31..40 :
• >40 :

14
資訊增益 Information Gain
決定分支的屬性 -> 選擇的屬性能為模型帶來最大的訊息



• 年齡

<=30 >40
• 31..40

15
5-3. Weka 安裝實作

1. 至Weka官網
2. 點擊 here

16
3. 點擊 next 4. 選擇儲存位置

17
Weka 介面

18
安裝補充包 (ID3)
1. Tools → Package manager

19
2. SimpleEducationalLearningSchemes → install

20
3. 顯示 Package(s) installed successfully 表示安裝成功,重開 weka

21
Weka 實作
1. Explorer

22
2. Preprocess → Open file 開啟檔案
3. 選擇資料 computer.csv

23
4. id → Remove
移除非類別資料

此處可以看有
多少筆資料和
多少屬性。

24
5. Classify → Choose

25
6. weka → classifiers → trees → Id3

26
7. 選擇 Cross-validation

有 Train/Test data set 才用

27
8. 選擇分類目標 (class_buy) → Start

28
9. 觀察結果

正確和錯誤分類的數量

分類
結果
a b
-----
4 1 | a 實際
1 8 | b 結果
29
ID3 沒有視覺化
的樹可以看, Tree
改用 J48

30
10. Choose → J48 → Start → 右鍵點選 Visualize Tree

31
11. Visualize Tree

32
更多資料
• Weka-3-9-4\data
• 公開資料集

33
5-4. 問題討論

❏ 利用公開資料操作,理解決策樹如何產生
❏ [ 問題討論 ]
➔透過觀察決策樹分析結果,得出分析結論
➔決策樹實際可以應用的範例

34

You might also like