Professional Documents
Culture Documents
2-1一維據分析
2-1一維據分析
2-1一維據分析
2-1 一維數據分析
林信安老師編寫
(甲)表達資料的統計量
表達資料的統計量可以用來描述資料的中心點與集中趨勢,此類的統計量常見的有算術
平均數、加權平均數、中位數、幾何平均數等。國中時曾學過算術平均數與中位數,用
以下例題來複習:
算術平均數與中位數的意義:
設 n 個值分別為 x1,x2,…….xn,
1
(1)n 個值的算術平均數=n(x1+x2+…+xn)。
中位數代表數據的中心點,大約會有 50%的資料大於中位數,50%的資料會小於中位數。
9 11
例如:3,5,6,9,11,13,20 的中位數為 9;3,5,6,9,11,13,20,30 的中位數為 =10。
2
因為有奇數比資料,故中間第 5 個數 70 為中位數。
一般來說,一筆資料的算術平均數比中位數更容易受極端值影響,例題 1 中雖然平均數
為 60,但是其實有 3 個人投 100 顆球進了 80、85、90 顆球,但是也有 3 個人投 100 顆
球進了 20、25、35 顆球,這 6 筆資料都與平均數 60 有段差距;另一方面,中位數 70 代
表約有一半的球員進球數大於(小於)等於 70,即使資料中 20 改為 15,20 改為 16 都不會
影響中位數 70,但是平均數會變成 59。
~211~
(2)算術平均數與中位數的特性:
(a)在任一數列中,各項數值與其算術平均數之差的總和為零。
(b)算術平均數公式簡單,計算容易,適於代數處理。
(c)算術平均數較中位數容易受極端度量影響,
(d)利用 Excel 計算算術平均數與中位數:
(練習1) 試求下列各資料的中位數:
(1)12,6,13,40,31 (2)5,16,4,11
Ans:(1)13 (2)8
~212~
(練習4) 已知某籃球校隊五位先發球員的身高(公分)分別為 186, 188, 189, 191, 226, 求其
中位數與算術平均數。
Ans:算術平均數 196 公分,中位數 189 公分
加權平均數:
設資料 xi 的權數為 wi,i=1,2,3,….,n,
n
則 x1,x2,…….xn 的加權平均數 W 定義為 W= xi wi 。
i 1
為什麼要使用加權平均數?
統計資料中,如果每一筆資料的重要性不同,則必須使用加權來處理平均數。
例如:學生各科成績的重要性依上課時數的不同而異,此時若以各科成績的算術平均數
作為學生的學期總平均成績,顯然不適當,於是為了正確的表達評量標準,必須考慮各
科的授課時數而採用加權的方式來處理。
加權平均數的適用時機為何?
若各科平均數資料的重要性不同,則必須對各筆統計資料分別賦予一個對應的權數,再
利用加權平均數來表示母群體的性質。
試以比重為權數,計算小強的數學科學期成績。
[解答]:
學期成績=8420%+7520%+8820%+30%=85.4。
(練習5) 小安某次定期考試的科目與學分數如下表所示,
試以學分數所佔的比例當成權數計算小安此次考試分數的加權平均數。
Ans:73.5
~213~
幾何平均數:
(1)定義:
62
實例:2,4,8,16,32 的幾何平均數為 5 215 =8,算術平均數為 5 。
(2)應用:
人類的經濟活動,常常要表達薪資、經濟指標、營業額、投資報酬率等每年的變化率,
我們在表達在一段時間內的變化率或成長率的平均值,常以幾何平均數來表示。
例如:某公司去年的銷售量比前年成長 20%,而今年的銷售額比去年衰退 20%,請問這
兩年間的平均銷售量為多少?
20%20%
[解法一]:用算術平均數,平均銷售量= 2 =0。
[解法二]:用幾何平均數
設前年的銷售量為 A,則去年的銷售量為 A(1+20%),
而今年的銷售量為 A(1+20%)(120%)=A(14%)=A96%。
換句話說,這兩年來的銷售是呈現衰退現象,如用算術平均數來表示的話,會得出今年
的銷售量與前年相同,這與實際的情形並不相同,因此用算術平均數無法表現出實際的
成長情形。如何計算這兩年的平均成長率呢?
所以這兩年的平均成長率為2.02%
(即銷售量成負成長,平均每年減少銷售量的 2.02%)。
結論:
若 n 年的成長率分別為 y1、y2、y3、…、yn,
~214~
[例題4] 台灣從 2012 年~2019 年經濟成長率的折線圖,如下表所示:
資料來源:
https://www.taipeiecon.taipei/econ_obs_cont.aspx?MmmID=3001&CatID=2&MSid=
2001
請計算這 8 年的平均經濟成長率。
[解法]:
8 年的平均經濟成長率
= 8 2.22 2.48 4.72 1.47 2.17 3.31 2.79 2.96 11.63(%)。
(練習7) 大明開設一公司,連續三年的成長率依序為10%,20%,60%,則此公司三年的年
成長率平均值為 。Ans:20%
~215~
(乙)百分位數
四分位數
了解大量的資料除了透過算術平均數與中位數之外,還可以把資料按大小大致上分成 4
個範圍,這些範圍的分界點分別是第一四分位數(Q1)、中位數(Me)與第三四分位數(Q3)。
全體資料中約有 25%的資料會小於等於 Q1,約有 50%的資料會小於等於 Me,全體資料
中約有 75%的資料會小於等於 Q3,因此算出 Q1、Me、Q3 就能更了解整個資料的分布情
形。
舉例說明如何計算 Q1 與 Q3
例一:
280 位成人在休息狀態時每分鐘的呼吸次數分配如下表。
呼吸次數 15 16 17 18 19 20 21
人數 16 31 48 81 67 34 3
將上述表格的數據依序排成 x1x2….x279x280
25 x x 17 17
計算 Q1:280 =70 為整數,Q1= 70 71 = =17。
100 2 2
75 x x 19 19
計算 Q3:280 =210 為整數,Q3= 210 211 = =19。
100 2 2
例二:
某校 250 位學生,每位各投籃 6 次,他們的進球數如下表。
進球數 0 1 2 3 4 5 6
人數 3 39 48 60 35 38 27
將上述表格的數據依序排成 x1x2….x249x250
25
計算 Q1:250 =62.5 不為整數,Q1= x(62.5整數部分)+1 =x63=2。
100
75
計算 Q3:280 =187.5 為整數,Q3= x(187.5整數部分)+1 =x188=5。
100
~216~
百分位數
下圖是 37 歲男童生長曲線的百分位圖,根據百分位圖,5 歲男童身高的 85 百分位數是
115 公分,這是甚麼意思呢?
~217~
如下圖所示:
至少有 63%的資料P63 且至少有 37%的資料P63,只有 64 滿足此要求,故 P63=64。
百分位數的求法
若 x1 , x2 , …,xn 是 n 筆由小排到大的數據資料,第 k 百分位數 Pk 的求法如下:
k x x
(1)若 m=n 為整數,則此數據的第 k 百分位數 Pk= m m1 。
100 2
k
(2)若 m=n 不為整數,則此數據的第 k 百分位數 Pk= x( m的整數部分) +1 。
100
試求 P17 與 P60。
Ans:P17=17、P60=18
~218~
(練習9) 某校 250 位學生,每位各投籃 6 次,他們的進球數如下表。
求這 250 筆進球數數據的
求這 270 筆數據的
(丙)表達資料分散趨勢的統計量
表達資料分散程度的統計量有全距、四分位距、變異數與標準差等,下面介紹變異數與
標準差
變異數與標準差
差異量數中的全距與四分位距,都是根據統計資料中某特定兩點的距離而得,無法代表
全部資料的分散情形,且全距易受抽樣的影響,四分位距忽視前後百分之五十的資料。
標準差是以全部資料的算術平均數為中心,計算全部資料與算術平均數的平均距離,代
表整個資料的分散情形。
要表達一組資料的分散程度,很自然想到以資料離中心點多遠來表示。
設有一組資料 x1,x2,x3,……,xn,平均數為,則 xi稱為第 i 筆資料 xi 的離差。
1 n
因為 ( xi ) =0,所以平均離差無法提供資料分散的程度。
n i 1
如何衡量數據與算術平均數的差異程度,進而提供資料分散的程度。
(1)變異數與標準差
一組資料 x1,x2,x3,……,xn 的變異數2 定義為數據離差平方的平均。
1 n
即2=
n i 1
( xi ) 2 ,為資料的算術平均數。
~219~
由於變異數的單位是資料單位的平方,(如本來單位是 cm,但變異數為 cm2),它必須開
方後才能與平均數、中位數等「集中」統計量做加、減等運算,因此常以變異數開方來
表示資料的分散程度,稱之為標準差。即
1 n
標準差= 變異數=
n i 1
( xi ) 2 。
1 n
變異數2=
n i 1
( xi ) 2
1
= [( x1 ) 2 ( x2 ) 2 ... ( xn )2 ]
n
1
= [( x12 x2 2 ... xn 2 ) 2( x1 x2 ... xn ) n 2 ]
n
1
= [( x12 x2 2 ... xn 2 ) 2(n ) n 2 ]
n
1
= ( x12 x2 2 ... xn 2 ) 2
n
1 n 2
=(
n i 1
xi ) 2 (數據平方的平均數據平均的平方)
(2)標準差的特性:
(a)以算術平均數為中心的標準差,較任何其它的平均數為中心的標準差小。
(b)標準差的特性與算術平均數相同。
(c)標準差易於做代數運算。
10 10
2
[例題8] 有 10 個資料 x1,x2,……,x10,已知 Σ xi =155, Σ xi =2551,求其算術平均
i=1 i=1
數為___________,標準差為_________。
Ans:15.5;3.9
~2110~
1 n
( x xk )2 為 x 的二次多項式,證明:
[例題9] 若 f ( x )
n k 1
當 x=時, f ( x) 有最小值2。其中與分別為算術平均數與標準差。
資料很龐大時,可以利用計算機求算術平均數與標準差等統計量
[例題10] 下表為 10 包洗衣精的重量(單位:公斤),測量數據準
確到 4 位有效數字。
利用 Excel 求此 10 個數據的算術平均數與標準差。
[解法]:
(1)將游標放在 B14,
在指令欄中輸入「=AVERAGE (B3:B12)」
就會在 B14 算出 10 個數據的算術平均數=1.3472。
(2)將游標放在 B16,
在指令欄中輸入「=STDEV.P(B3:B12)」
就會在 B16 算出 10 個數據的標準差=0.0075。
請注意用 Excel 算出來的算術平均數或標準差可能
只是近似值。
~2111~
(練習11) 下列五個直方圖表示的資料,何者之標準差最大? (2005 指定乙)
Ans:(4)
~2112~
(丁)數據的平移與伸縮
數據平移伸縮前後算術平均數與標準差的關係:
數據有時候會換單位,例如公分換算成英呎,公斤換算成磅等等,此時算術平均數與標
準差會有麼變化呢?
事實上,將一組數據中的各數據同乘以一個數(伸縮)或同加一個數(平移)後,其平
均數與標準差的變化如下:
1 n 2 1
n
1 n
所以 y =
n i 1
( yi y ) 2
= a (
n i 1
( xi x ) 2
) =|a|
n i 1
( xi x )2 =|a| x 。
~2113~
[例題12] 有一組數據 x1,x2,…,x10 的平均數為 15,標準差為 0.3,現在將每筆數據減
xi-15
15,再除以 0.3,成為一組新數據 y1,y2,…,y10,即 yi= 0.3 ,i=1,
2,…,10。試求 y1,y2,…,y10 此筆數據的平均數與標準差。
Ans:0,1
現在將室溫改以華氏表示,試問室溫數據的算術平均數與標準差為何?
9
華氏溫度(F)= 攝氏溫度(C)+32
5
Ans:算術平均數=78.8(F)、標準差=4.86(F)
數據的標準化
數據的平移與伸縮最常見的是將數據調整成算術平均數為 0,標準差為 1 的新數據,我
們稱為數據標準化,數據標準化的做法如下:
xi-μ
令 xi 表第 i 筆原數據,而 xi表第 i 筆新數據,則 xi= σ ,
~2114~
例如:5 位學生的成績如下:
35,45,50,55,65,算出平均分數μ=50,標準差σ=10,
35-50
第 1 位學生的標準分數為 x1= 10 =-1.5,
45-50
第 2 位學生的標準分數為 x2= 10 =-0.5 ,
其他三位學生標準分數分別為 0,0.5,1.5。
許多重要考試都會使用 T 分數,標準分數經過平移與伸縮可得 T 分數,
數據的 T 分數=50+10(數據的標準分數)
因此 T 分數的算術平均數為 50,標準差為 10。
[例題13] 小安第一次定期考試數學、國文成績,與該
班數學、國文算術平均數與標準差列表如
右:
(1)試求小安數學與國文成績的標準分數。
(2)將小安的數學與國文成績用 T 分數來表示。
(3)相對於全班的成績,請問小安數學與國文哪一科表現比較好?
Ans:(1)數學標準分數=1、國文標準分數=0.5
(2)數學 T 分數=60 分,國文 T 分數=45 分
(3)數學表現比較好
(練習19) 某班段考的數學與英文成績之平均數與標準
差如右表。已知班上小華此次段考數學成績
為 72 分,英文成績為 68 分,
(1)試求小華數學與英文成績的標準分數。
(2)將小華的數學與英文成績用 T 分數來表
示。
(3)相對於全班的成績,請問小安數學與英文哪一科表現比較好?
Ans:(1)數學標準分數=0.5、英文標準分數=0.8
(2)數學 T 分數=55 分,英文 T 分數=58 分
(3)英文表現較好。
~2115~
習題
基本題
1. 有 250 位同學參加數學競賽,其中一題證明題配分 7 分,他們此題得分 ( 單位:次 )
如下表。
求這 250 筆數據的
(1)第 35 百分位數 P35;(2)第 60 百分位數 P60;(3)第 1 四分位數 Q1;
(4)第 3 四分位數 Q3。
~2116~
5. 有 6 筆數據的算術平均為 20,若已知其中有 5 個數據為 8, 20, 20, 20, 26,則第六個
數據為 ,又標準差為 。
6. 民調公司調查該城市 1000 位公民對於某項議題的支持程度,結果有 400 位支持,而
有 600 位不支持;將支持的數據寫成 1,不支持的數據寫成 0,請問這 1000 筆數據
的變異數等於多少?
7. 玉山觀測站提供的 2018 年每月氣溫(℃)如下表。
~2117~
13. 某商店進一批水果,平均單價為每個 50 元,標準差為 10 元。今每個水果以進價的
1.5 倍為售價出售,則水果平均售價為每個 元,標準差為 元。
(2 0 1 0 指 考 乙 )
14. 某次期中考試,班上的數學成績不太理想,全班的平均分數為 40 分,標準差為 12
分,且全班的最高分為 72 分。數學老師決定將每位學生的原始成績 x 乘以 a 再加
b,調整為成績 y,即 y ax b 。已知調整後的成績 y 的最高分為 96 分,且平均數
為 60 分。試求下列兩小題:
(1)求 a,b 的值。(2)求成績 y 的標準差
xi- x
yi= (1 i n)的算術平均數為 y ,標準差為 y ,證明:
σx
17. 小明參加某次國文、英文、數學、自然、社會五個科目的測驗,每一科的分數均為
0~100 分。已知小明國英數三科的分數分別為 75,80,85 分。試問下列哪些選項會讓
小明五科成績的平均不低於 80 分且五科標準差不大於 5 分?
1 n
(註:標準差=
n i 1
( xi ) 2 ,其中為平均數。)
(1) 自然 75 分,社會 80 分
(2) 自然與社會兩科皆為 80 分
(3) 自然與社會的平均 85 分
(4) 自然與社會兩科之和不低於 160 分且兩科差距不超過 10 分
(5) 自然與社會的分數都介於 80 與 82 分之間。 (2017 指考乙)
18. 高一某班 50 名同學的期中考數學成績,中位數為 74 分,算術平均數為 75.2 分,眾
數 75 分,現在發現小明的成績應為 76 分誤登記為 86 分,試問下列哪些統計量不會
改變?
(1)算術平均數 (2)中位數 (3)全距 (4)標準差 (5)第 1 四分位數。
~2118~
19. 下列哪些敘述是正確的?
(1)在十個數據中加入一個新的數據 30 後,所得的算術平均數會增加 3。
(2)若所有數據的值都相等,則其標準差為 0。
(4)一組數據的中位數一定大於或等於它的平均數。
(5)一組數據的第一四分位數 Q1 為第二十五百分位數 P25。
20. 關於百分位數的敘述,選出正確的選項。
(1)任一組資料都恰有一個第 40 百分位數
(2)若將原資料每個數據分別乘以 3,
則原資料的第 40 百分位數乘以 3 也會是新資料的第 40 百分位數
(3)若將原資料每個數據分別加 3,
則原資料的第 40 百分位數加 3 也會是新資料的第 40 百分位數
則 xA xB 也是此兩組資料合併成一組後的第 40 百分位數
(5)任一組資料的第 40 百分位數必小於該組資料的算術平均數。
進階題
21. 某班有 48 名學生,某次數學考試之成績,經計算得算術平均數 70 分,標準差為 S
分。後來發現成績登記有誤,某甲得 80 分確誤記為 50 分,某乙得 70 分確誤記為
100 分,更正後重算得標準差為 S1 分,試問 S1 與 S 之間,有下列那一種大小關係?
1 n 1 n 2
(n 個數值 x1 , x2 , …,xn 的標準差為 i x
n i 1
( x ) 2
= xi x 2 ,
n i 1
1 n
而 x =n xi )
i 1
~2119~
1
22. 定義一組資料的第一十分位數 w1 為『至少有(含) 的資料不大於 w1 ,且至少有
10
9
(含) 的資料不小於 w1 』,試問下列敘述何者為真?
10
(1)任一組資料都恰有一個第一十分位數
(2)若將原資料每個數據分別乘以 5,則原資料的第一十分位數乘以 5 也會是新資料
的第一十分位數
(3)若將原資料每個數據分別加 5,則原資料的第一十分位數加 5 也是此新資料的
第一十分位數
併成一組後的第一十分位數
(5)任一組資料的第一十分位數必小於該組資料之算術平均數 (2005 指考乙)
23. 下表為體育老師紀錄一年級與二年級男生吊單槓的次數,根據表格提供的資訊
試求
(1)一年級學生吊單槓次數的算術平均數與標準差。
(2)全體 300 位學生吊單槓次數的算術平均數與標準差。
~2120~
答案
1. (1)3 (2)3.5 (3)2 (4)4
2. 21%
3. (1)(2)(3)
4. (1)
5. 26;6
6. 0.24
7. 算術平均數為 4.9,標準差為 2.9。
8. (1)(2)(4)
9. 65 =8.06 分
10. 44.5
提示:設 x1 , x2 ,…,x100 為調整前的分數,調整後為 10 x1 , 10 x2 , …,10 x100
1
15= (10 x1 10 x2 ... 10 x100 ) 652 x1 x2 ... x100 652 =15
100
1
=100(x1+x2+…+x100)=44.5
12. (1)(2)(4)
[解法]:
(1)若某人原始成績是 9 分, 則新成績為 40log10(1)+60=60 分。
21
(2)若某人原始成績超過 20 分,則新成績>40log10(10)+60>40log2+60>70。
(3)當大家成績都一樣時,全距都不變。
x 1
(4)因為 y= 40 log 10 ( ) 60 為遞增函數,故調整前後成績的順序不變。
10
(5)成績調整並不是線性變換,故(5)不正確。
13. 75; 15。
9
14. (1)a= 、b=15 (2)13.5
8
15. (3)(4)(5)
~2121~
16. [提示]:
(1)因為 y =0,所以 y1 y2 yn 0 。
1
(2)因為 y =1,且 y 2 = ( y12 y2 2 yn 2 ) y =1 y12 y2 2 yn 2 n 。
n
17. (2)(5)
[解法]:設自然與社會的分數為 a,b
75+80+85+a+b 240+a+b
= 5 = 5 80 a+b160。
注意標準差易受極端值影響
(1)錯誤, a+b=155<160
(2)正確,a=b=80,=80,容易得知225
(3)錯誤,例如 a=70,b=100,=82,2=49+4+9+144+324>25
(4)錯誤,例如 a=99,b=91,,=86,2=121+36+1+169+25>25
(5)正確,80a,b8280,觀察數據可以得知225。
18. (2)(5)
19. (2)(5)
20. (2)(3)
(5)反例 1,2,2,…,2(共有 99 個 2),<2=P40。
21. (B)
22. (2)(3)
23. (1) 算術平均數=5 次,標準差=1 次
~2122~