統計常態檢定

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 66

內科部研究能力課程(二)

連續型變數之統計檢定:
平均數檢定與無母數檢定

何宗翰(Chung-Han Ho) Ph.D.


Department of Medical Research
Chi Mei Medical Center
平均數檢定
平均數檢定的資料屬性
大樣本/
小樣本

資料屬性

連續變數/ 常態/
類別變數 非常態
常態 vs. 非常態

常態分配 非常態分配
常態分佈檢定
為什麼需要檢定常態分佈?
 平均數的比較,其基本假設是數據呈現常態
分布。
 在資料分析前應要先做常態分佈的檢定,確
認連續變數是否可採用平均數檢定。
檢測常態分佈的方法(一)

Q-Q plot (normal quantile-quantile plot)


用來檢定連續型變數是否為常態分佈。
若樣本為來自常態分佈的母體,則Q-Q plot近
似於一條直線。
https://arc.lib.montana.edu/book/statistics-with-r-textbook/item/57
檢測常態分佈的方法(二)
 常態分佈測試 (tests for normality)
 如果樣本數少於等於50,則看 Shapiro-Wilk
的 W 值,來檢測是否為常態分佈;
 如果樣本數大於50,則看 Kolomogorov
的 D 值。
 無論 W 值或 D 值,其檢測之虛無假設 (H0):
本變項之樣本群為常態分佈。 因此如果 p <
0.05,則推翻虛無假設,表示為非常態分佈;
如果是 p > 0.05,則接受虛無假設,表示為常
態分佈。
SPSS 範例
Example:
Lung Cancer
Study
•N=94
•Case-control:
1:Case; 2: Control
•Gender:
1:Male; 2: Female
•Smoke:
0: Non-smoker;
1: Smoker;
2: Ever smoker
•DM:
0:No; 1:Yes
•CAD:
0:No; 1:Yes
•Cigs_per_day:
每日抽菸量
檢定年齡是否為常態分佈
分析敘述統計預檢資料
將要檢定的變數移至依變數清單
選擇[圖形]勾選[常態機率塗覆檢定]

勾選[常態機率塗覆檢定]
報表:描述性統計與直方圖
Kolmogorov–Smirnov test and
Shapiro–Wilk test

 p < 0.05,表示為非常態分佈
Q-Q plot
Before the next
45
41.71
40 36.36
34.12
35

30

25

20
13.76
15 11.65 11.02
10

0
2000 2001 2002
年份 白玉蘿蔔價格 出生率

2000 41.71 13.76


2001 36.36 11.65
2002 34.12 11.02

太陽花價格越高,出生率越高?
Make the correct comparisons
• 比較要建立在
『相同的基準』
• 在研究設計時,就要
問自己:
• 被比較的是什麼?
• 它們真的可以互相比
較嗎?
• 有沒有共同的基準?
平均數的差異檢定

 依抽樣分配的特性劃分
 z檢定 v.s. t檢定
 依母群體的多寡劃分
 單母群體檢定 v.s. 多母群體檢定
 依研究假設的方向性劃分
 單尾檢定 v.s. 雙尾檢定
 依樣本的來源劃分
 獨立樣本 v.s. 相依樣本
SPSS平均數比較
 4種平均數統計:
 One-Sample T Test(單一樣本T檢定)
 Independent-Sample T Test (獨立樣本T檢定)
 Paired-Samples T Test(成對樣本T檢定)
 One-Way ANOVA(單因子變異數分析)

 使用時機的整理:
 單一變數的平均數作檢定:單一樣本T檢定
 兩組平均數差異的檢定(獨立樣本):獨立樣本T檢定
 兩組平均數差異的檢定(相依樣本):成對樣本T檢定
 多個母體平均數差異的檢定:One-Way ANOVA 單
因子變異數分析
單一母群體平均數檢定
 適用時機:當研究者關心某一連續變項的平均數,
是否與某個理論值或母群體平均數相符之時:
 當母群的標準差已知:z檢定 Z
X 


X 
 X
n
 z 檢定使用的是虛無假設母群體的標準差(σ)

X  X 
 當母群的標準差未知:t檢定 t
sX

s
n
 t 檢定使用的則是使用樣本的標準差(s)
SPSS操作範例:單一樣本T檢定(雙尾)
 匯入『example_data.xls』
 分析比較平均數法單一樣本T檢定
報表解釋

 從上表可知受測者平均年齡為59.86,標準差18.34。
 當『顯著性(雙尾)』p=0.009<0.05時,我們無法接受
平均年齡為55之假設。
SPSS操作範例:單一樣本T檢定(單尾)
 匯入『example_data.xls』
 分析比較平均數法單一樣本T檢定
報表
 從上表可知受測者血液中平均葉酸濃度為4.52,標準差
2.87。
 因要檢定葉酸濃度是否超過4,故進行單尾檢定,將『顯
著性(雙尾)』除以2與指定的α值(p=0.05)比較。
 當『顯著性(雙尾)』p=0.072除以2為0.036<0.05時,
我們可以接受受測者血液中平均葉酸濃度超過4之假設。
獨立樣本T檢定
 t 值即為Student’s t-distribution,
為高斯特(William Sealy Gosset)於1908年所推導得,
並以其筆名Student來命名
 適用時機:對兩樣本平均數的檢定,目的在比較
變異數相同的兩個母體之間的平均數差異,或比
較來自同一母體之兩個樣本的平均數差異。
 例1:抽菸者與未抽菸者之血中葉酸濃度是否有差異?
 例2:期中考與期未考成績是否有顯著差異
SPSS操作範例:獨立樣本T檢定
 匯入『example_data.xls』,
分析有抽菸與無抽菸的受測者在年齡上是否有差異?
 分析比較平均數法獨立樣本T檢定
報表

• 從上表可知有抽菸與無抽菸者樣本數分別為73與27;其
平均年齡分別為60.77與57.41。
• 因F檢定之顯著性P=0.941>0.05,故T檢定應選擇『假設
變異數相等』之結果,即t=-0.812、自由度98、『顯著性
(雙尾)』P=0.419>0.05。
• 因此,有抽菸與無抽菸者的平均年齡並無顯著差異。
成對樣本T檢定
 適用時機:
比較兩組相依或配對的受測樣本間的平均數差異
 例:同一群人,吃藥後的血糖濃度是否高於吃藥前。

吃藥前 吃藥後
SPSS操作範例:成對樣本T檢定
 開啟『吃藥前後.sav』。
比較吃藥前後之血醣值,
試證明吃藥前血糖濃度
較吃藥後大。
 注意資料呈現方式的不

分析比較平均數法成對樣本T檢定

將預估算之變數分別移入
變數一與變數二
報表

• 由上表可看出吃藥前及吃藥後的平均血糖濃度分別為
93.93與91.40。
• 本範例為檢定吃藥前血糖濃度是否大於吃藥後,故為單尾
檢定。『顯著性(雙尾)』應除以2去與p<0.05進行判斷。
故當『顯著性(雙尾)』P=0.007除以2為0.0035<0.05,
可得知吃藥前血糖濃度大於吃藥後。
ANOVA的基本概念
 ANOVA (analysis of variance) 的目的
 檢定平均數的統計顯著性時,真正比較的是變異數
(variances),ANOVA用來檢定三組或三組以上平
均數之間是否有顯著差異(significant differences)
 如果只比較兩組平均數,那麼ANOVA的結果和獨立樣
本t檢定(比較兩個不同群體)或是成對樣本t檢定(比
較一組觀察值的兩個變數),是一樣的
 若之後要比較兩兩之間是否有差異,要採用事後比較
分析(Post-hoc Analysis)
常用事後檢定法(Post-hoc test)
 LSD最小顯著差異法(Least significant difference)
 採用最大的平均值與最小的平均值的間隔計算出 t 值為
臨界點。較寬鬆的檢定法。
 Tukey(HSD)法
 與LSD法有相似的計算法但納入Studentized range。
顯著性會比LSD高。
 Scheffe法
 考慮所有可能性的兩兩比較。嚴謹度高的檢定方式。
SPSS操作步驟
 匯入『example_data.xls』,
分析有抽菸者、曾抽菸者與無抽菸者的年齡上是
否有差異?
 分析比較平均數法單因子變異數分析
SPSS操作步驟(2)
統計報表
報表解釋
 依 此 結 果 : 自 由 度 為 (2,97) , F 值 3.650 大 於
α=0.05 時 之 臨 界 值 3.40 , 其 顯 著 性 為 0.030 <
α=0.05。故應棄卻每組平均數相等之虛無假設,
也就是說三組之年齡存有顯著差異。曾經抽菸的
受測者的年齡64.65要比其餘兩組(57.41與53.32)
來得高。
 三組間的平均年齡有顯著差異,但是兩兩組別之
間有顯著差異嗎?從事後檢定得知,只有曾抽菸者
與抽菸者呈現顯著差異。
無母數檢定

43
資料屬性

大樣本/
小樣本

資料
屬性
連續變數/ 常態/
類別變數 非常態

44
有母數 vs. 無母數
• 有母數統計:
− 須假設母體為一已知模型,甚至要為常態母體才能推論。
− 推論特定參數。

• 無母數統計:
− 不受特定母體分配限制。
− 不一定推論母體中特定參數。
− 推論時所使用的抽樣分配通常與母體分配無關。
− 稱「分配自由化(Distribution Free)」

45
無母數 VS. 母數的統計法

46
符號檢定(The Sign Test)

 用來比較兩組非獨立樣本的觀察值
− 適用於配對樣本
− 分析相關性高的配對資料,n對資料
 重點:每一對樣本的差距(符號),且差距母群
體並不需為常態分佈。
 以正號(+)、負號 (-)的個數當統計量做為檢定的基
礎。

47
Example :符號檢定(The Sign Test)
 檢定顧客對甲乙兩種車款試乘的滿意程度是否相
等? 假設母體不為常態分佈,檢定水準為0.05.

顧客編號 1 2 3 4 5 6 7 8 9 10

甲車 3 4 2 5 3 5 1 4 4 3

乙車 2 2 2 4 3 2 2 3 2 2

48
SPSS操作
Step1:分析無母數檢定歷史對話紀錄二個相關樣本

49
Step2:將變數移到成對檢定的方塊中

Step3:選取符號檢定

Step4:按確定得到統計報表
50
符號檢定報表解釋
從右表可知甲車種與乙車
種的正負差異數量,並得
知其p-value=0.070.
表示顧客對甲車種與乙車
種的喜好程度沒有統計上
的差異,喜好甲車種的程
度與乙車種差不多。

51
Wilcoxon符號化等級檢定
(The Wilcoxon Signed-Rank Test)
 適用於配對樣本,且母體不需為常態
 比Sign Test常用,因多考慮排序大小(Rank)的問題
 符號等級檢定不僅考慮差值的正負符號,同時考慮
差值大小的等級的檢定方法。

52
SPSS操作

Step1:分析無母數檢定歷史對話紀錄二個相關樣本

53
Step2:將變數移到成對檢定的方塊中

Step3:選取Wilcoxon檢定

Step4:按確定得到統計報表
54
SPSS報表解釋

從右表可知甲車種與
乙車種的正負差異數
量,並得知其p-
value=0.031.
表示顧客對甲車種與
乙車種的喜好程度有
統計上的顯著差異,
喜好甲車種的顧客比
教多。
55
Wilcoxon等級和檢定
(The Wilcoxon Rank Sum Test)
 兩組獨立樣本的檢定,n1 and n2不需成對
 母體不需假設為常態或假設母體變異數相等
 假設兩母體的分配相等
 考慮兩組觀察值合併排序數值大小再以其各自等
級和中較小者進行分析

56
範例: Wilcoxon等級和檢定

• 我們想知道A、B兩組的病人身高分配是否相同,
分別自兩組中隨機抽取了11和12個樣本。
• 在顯著水準0.05下,試以Wilcoxon等級和檢定法
檢定之。
A組 163 168 170 181 166 161 179 173 167 175 176

等級

B組 171 169 183 174 173 170 168 190 167 165 174 172

等級

57
SPSS 操作
Step1:分析無母數檢定歷史對話紀錄二個獨立樣本

58
Step2:將變數移到檢定變數清單的方塊中

Step3:將分組變數移到
分組變數的方塊中

Step4:定義分組變數

Step6:按確定得到統計報表
Step5:
選定檢定類型Mann-Whitney U test
59
SPSS報表解釋
 從報表可得知p=0.608,
亦即兩個班級的身高沒有
統計上的差異。

60
多組獨立樣本的無母數檢定:
Kruskal-Wallis Test
• 多組獨立樣本的檢定
• 母體不需假設為常態或假設母體變異數相等

61
Example
 為研究四種不同藥物對兒童咳嗽的治療效果,將25
個體質相似的病人隨機分為四組,各組人數分別為
8人、4人、7人和6人,各自採用A、B、C、D四種
藥物進行治療,假定其他條件均保持相同,五天後
測量每位病人每天咳嗽次數如表所示,試比較這四
種藥物的治療效果是否相同。

62 林傑斌、林川雄、馮兆康, SPSS統計分析與實務, p.14-30


SPSS 操作
Step1:分析無母數檢定歷史對話紀錄二個獨立樣本

63
Step2:將變數移到檢定變數清單的方塊中

Step3:將分組變數移到
分組變數的方塊中

Step4:定義分組變數

Step6:按確定得到統計報表
Step5:
選定檢定類型Kruskal-Wallis test
64
SPSS統計報表結果
 從報表可得知p=0.045, 亦
即四種不同藥物對兒童咳
嗽的治療效果有統計上的
差異。

65

You might also like