Download as pdf or txt
Download as pdf or txt
You are on page 1of 36

說資料的故事

陳穗碧
20191025 @ 工研院
Data

Story-
Tool
telling
2
主角

3
資料描述
• On April 15, 1912, during her maiden voyage,
• killing 1502 out of 2224 passengers and crew.
• led to better safety regulations for ships.
• One of the reasons that the shipwreck led to such loss of life was that there were not
enough lifeboats for the passengers and crew.
• Although there was some element of luck involved in surviving the sinking, some
groups of people were more likely to survive than others, such as women, children, and
the upper-class.
• In this challenge, we ask you to complete the analysis of what sorts of people were likely
to survive. In particular, we ask you to apply the tools of machine learning to predict
which passengers survived the tragedy.

4
Titanic

變數(Variable) 意義(Meaning) 資料型態


PassengerId 乘客編號 數字
Survived 是否存活(1:活/0:死) 離散
Pclass 票務艙(1:Upper,2:Middle,3:Lower) 離散
Name 姓名 字串
Sex 性別 離散
Age 年齡 連續
SibSp 在船上兄弟姊妹配偶的人數 連續
(定義家庭關係,非家庭關係不納入)
Parch 在船上父母和子女的人數 連續
(定義家庭關係,非家庭關係不納入)
Ticket 船票號碼 字串
Fare 乘客票價 字串
Cabin 船艙號碼 離散
Embarked 登船港口 離散
目標

鐵達尼號生存預測
預測怎樣的組合條件比較容易存活?
資料集連結:
https://www.kaggle.com/c/titanic
資料分析專案流程

7
探索性資料分析
• 探索式資料分析( Exploratory Data Analysis,簡稱EDA)。
EDA是由有統計界畢卡索之稱的Tukey所提出,主要概念是
透過敘述性統計、統計繪圖、視覺化等快速簡易的方式,
從各種面向先了解資料的狀況,以利後續分析。

• 提早發現資料品質問題
• 找出重要變數

• 同練武之人必先掃地、蹲馬步、提水桶爬樓梯,EDA是資
料分析的基本功
8
探索性資料分析包含那些?
1. 確認資料型態(object、int、float)
2. 每一個欄位的意義,分布
3. 檢測 異常值 和 缺失值
4. 發掘 特徵變數之間的關係
• 特徵變數與目標變數之間的關係[假設]
• 除目標變數外,特徵變數彼此之間的關係
5. 測試基本的假設
6. 提取或找出 重要的特徵變數[特徵工程]
7. 初步選擇合適的模型
9
特徵變數與目標變數之間的關係

假設
剖析 視覺化 驗證

清洗 數據 理解

重製 分析 細部
查證

資料清理
資料處理 資料視覺化分析(觀察)
10

10
特徵工程
• 特徵工程就是把一個原始數據轉換成特徵的過程,
• 好的特徵能使用它們建立模型在未知的數據上表現很好
有預測能力。

機器學習的優化有兩個面向:
1.更厲害的模型演算法
2.更好的資料特徵工程

11
數據和特徵決定了預測模型的準確度的上限,
模型/演算法只能逼近這個上限

12
特徵工程的常見手法
• 異常值/離群值 (outlier)判斷處理
• Feature scaling(特徵縮放)
• Feature Transformation(特徵轉換)
• Feature representation(特徵重新詮釋)
• Feature Selection
• Feature extraction

13
為什麼會出現異常值?
• 數據輸入錯誤:人工在數據收集、記錄、輸入造成的錯誤,可能會成為數據中的異常值。例如
在人工記錄時將10記錄成10000 。

測量誤差:當你使用錯誤的測量儀器測量時,通常會出現異常值。

故意離群:這個通常在進行問卷調研時問題設計不合理或過於敏感出現的。例如在調查用戶年
收入時,可能會有很多用戶故意報低或報高。

抽樣錯誤:例如調查普通員工收入時,錯誤的抽取了高層的員工作為樣本的一部分,這會使數
據集中出現異常值。

自然異常值:異常值出現的原因不是人工造成的。例如在做用戶價值分析時,通常會發現前
10%的用戶消費金額遠遠高於其他用戶,這時候這部分用戶可以單獨取出做分析。

因為出現異常值的原因不同,
了解背後的原因才能決定處理方式
刪除/以非離群值的資料統計值取代/分群處理 14
異常值/離群值 判斷
• 盒鬚圖判別法

15
異常值/離群值 判斷
• 常態分布是自然科學與行為科學中的定量現象的一個方便模型
• 用資料集的平均上下兩倍或三倍的標準差

16
Feature scaling(特徵縮放)
•特徵縮放的目的:
• 符合模型或演算法的假設
• 把單位的因素給去除掉
• 各變數對目標變數的影響統一

17
Feature scaling(特徵縮放)
• 正規化(Normalization)
• 資料的正規化代表資料按一定的算法進行縮放,如取log,
開跟號平方

• 標準化 (Standardization) 統計常用的手法,由於一些演


算法要求資料要符合常態
分配,當每個(資料點-平均值)/標準差,新的資料的平均
值就是0,標準差為1,當資料量夠大的時候,就會近似常
態分布
• from sklearn.preprocessing import Normalization
18
Feature Transformation(特徵轉換)
• 連續轉離散(Binning)
Age 孩童
青少年
中年
老人

• 類別轉數值
• 有序類別轉數值: label/Integer encoding
• 小學、國中、高中、大學、研究所1,2,3,4,5

• 無序類別轉換One-hot encoding/Dummy variable


• from sklearn.preprocessing import OneHotEncoder

19
Feature representation(特徵重新詮釋)
1. 從原有的特徵中,透過領域知識或是透過資料的觀察,創造出新的特徵。
例如: 電商公司想要透過過往每一個顧客每一筆的訂單資料,預測他未來的訂單會買哪些東西?
我們就可能產生一個新的變數: 紀錄這顧客上一筆訂單中有沒有買這物品,有就是1,沒有就是0。

2. 用現有的特徵組合出新的潛在有效特徵
例如:鐵達尼號資料中, 產生一個新的變數,判斷每一個乘客,
同時是男性(Sex)或大人(Age)就為1,否則就是0。

20
Sklearn資料前處理總表

21

資料來源:
怎麼判斷特徵具有代表性
•這個特徵的有無和目標函數有相近的特性
觀察資料,圖形、表格、趨勢
•特徵加入後,模型的準確度會變高
單一模型,不同特徵組合下,準確度的變化

22
機器學習模型的流程

23

圖形資料來源:
Start

•https://ppt.cc/fQYMgx

24
集體創作激發思考~假設
特徵變數與目標變數之間的關係

觀察資料,圖形、表格、趨勢
統計界畢卡索的名言,
“對正確的問題有個近似的答案,
勝過對錯的問題有精確的答案”。

25
Observed-觀察別人做了什麼分析

26
Observed- 觀察別人用甚麼工具

27
First competition on kaggle

28
29
8118/11092(73%)

30
遊戲規則
• 每個人都登入kaggle
• 使用鐵達尼號資料集,進行分組討論(個別上傳)
• 用 python 畫圖探索資料集,表達看到的一些特性
• 最後選取最高分的兩個人進行分享,
• 調整了那些feature,讓準確度提升
• 遊戲截止時間: 4:30

31
兩天總結
• 何謂資料科學
• 如何利用python的套件處理資料
• 一個資料科學分析的步驟和實作
Kaggle獎牌證明

32
大數據分析-老闆的想像

33
大數據分析-真實的現象

34
參考
• https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-
python/data?source=post_page-----523884f3bb98----------------------

• https://www.kaggle.com/sinakhorami/titanic-best-working-classifier

• https://medium.com/gogolook-
design/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E7%9A%84%E5%8A%9B%E9%8
7%8F-6e8c46b9fa24

35
36

You might also like