Professional Documents
Culture Documents
簡單線性迴歸模型 regression (4-1)
簡單線性迴歸模型 regression (4-1)
簡單線性迴歸模型 regression (4-1)
18.1 前言
18.2 簡單線性迴歸模型
18.3 簡單線性迴歸模型的估計量
18.4 簡單線性迴歸模型的驗証
18.5 迴歸模型的殘差分析
1 前言
本章介紹「簡單線性迴歸模型」的理論,主要從
「為什麼」的觀點來探討,其包括簡單線性迴歸的模
型、模型的估計、模型的驗証等。文中也強調並敘述
利用線性迴歸分析技術所應注意的課題。雖然本章是
針對簡單線性迴歸模型的理論,但其理念亦可用到
「複線性迴歸模型」。「複線性迴歸模型」將另闢章
節討論。
2 簡單線性迴歸模型
簡單線性迴歸模型是假設『依變數 Y 之期望值為自變數 X 之
線性函數』,即所有 Yi 之期望值均落在一直線上,此稱之為
『 迴歸 線 性 假設 ( The linearity of regresssion ) 或 迴歸 共線 假
設』。
《圖 18.2-1 》簡單線性迴歸模型
3 簡單線性迴歸模型的估計量
•簡單線性迴歸分析的目的,是要瞭解是否能用自變數
X 來解釋依變數 Y ,亦即變數 X 和 Y 的關係是否
密切,而足以適當地用一種線性方程式來表示。
•換言之,即是要求出一條經過這 n 個點(資料對)的
最適線性方程式(稱之為線性迴歸方程式或迴歸直線)
,即可由變數 X 的值求出 Y 的值。
•一般求出此線性迴歸方程式的方法是利用最小平方法:
即是利用這 n 個點,求出未知參數 α 和 β 的估計量
,分別表示為 α 和 β 。
4 簡單線性迴歸模型的驗証
4.1 首先確立依變數
4.1 首先確立依變數,,並找出適當的自變數
並找出適當的自變數
依變數是要被預測的變數,也是迴歸問題的中心
,由於依變數的結果無法事先預知,因此必須利用其
他變數(因素)來解釋它。
要找出適當的變數,首先必須要確立此變數與依
變數是否有因果關係?因果關係愈強愈佳。
除了因果關係的考慮外,下一步即要選擇關係密
切者。這可利用圖示法來判斷,若圖形顯示兩個變數
成「非水平的狹窄帶狀」關係時,此變數應是一適當
的自變數,而且圖形愈狹窄愈佳。
4.2 求出簡單線性迴歸方程式
4.2 求出簡單線性迴歸方程式
y i b x i (1)
i=1 i=1
a=
n
簡單線性迴歸方程式: y a b X
4.3 檢定參數
4.3 檢定參數((理論的截距和斜率
理論的截距和斜率))
1 斜率的檢定 2 截距的推論檢定
虛無假設: β = 0 虛無假設: α = 0
對立假設: β≠0 對立假設: α≠0
- / / Sxx -
T= T
n
S/ S/ Sxx S x
i=1
2
i / nSxx
T
S/ Sxx
T
n
S x 2
i / nSxx
P ( T t0 ) p r i=1
P ( T t0 ) p r
4.4 判定簡單線性迴歸模型的適合性
4.4 判定簡單線性迴歸模型的適合性
1 模型適合性的檢定 2 判定係數
虛無假設:迴歸模型不適合 若「迴歸變異」愈趨近於「總變
(解釋能力極低或斜率為零) 異」,則表示依變數的變化能由
對立假設:迴歸模型適合 迴歸模型來解釋,此時表示此迴
(解釋能力高或斜率不為零) 歸模型極合適。「迴歸變異」與
「總變異」的比值稱為判定係數
MSR ,表為 R2 , 0≤R2≤1 。
F= ~ F ( k , n k 1)
MSE
SSR SST-SSE SSE
P ( F f0 ) p r R2 1
SST SST SST
4.5 檢定模型的假設
4.5 檢定模型的假設
如果可以獲得合適的線性迴歸方程式,但此迴歸
模型是否滿足各項的假設呢?因為迴歸模型的建立是
根基於這些假設。顯然,若其偏離假設太遠,則此迴
歸模型就有問題,所以有必要去檢視這些假設是否成
立。這些假設的檢視稱為殘差分析,請見本章 18.5 節
的討論。
4.6 利用簡單線性迴歸模型作預測
4.6 利用簡單線性迴歸模型作預測
1 在某特定值時之期望值的預測
( 1-r ) % 的信賴區間的估計值為
:
2 2
y t se 1 x j -x 1 x j-x
, y +t s e
j r2 n n j r 2
n n
2
x i -x x i -x
2
i=1 i=1
2 在某特定值時之個別反應值的預測
《圖 18.4-1 》個別反應值的預測圖示
( 1-r ) % 的信賴區間的估計值為:
y j t r 2 se 1
1 x j - x 2 1 x j - x 2
n
, y j t r 2 se 1 n
n n
x i - x 2
x i - x 2
i =1 i =1
5 迴歸模型的殘差分析
判定假設的正確性,先假定「迴歸模型的假設是正確,然後
再利用現有的資料去驗証其正確性」。此現有的資料就是殘差,
因為所有變化的資料均在殘差內,所以利用分析殘差的結果來判
斷假設的正確性是合理可行的,此謂之「殘差分析」。
但必須知道「即使所有的假設均通過驗証,也不能完全斷言
迴歸模式是正確無誤,而僅能表示以現有的資料,並不能判定其
不合理」。
要分析殘差以驗証假設,可用圖示法來分析:
A. 繪殘差次數分配圖,判定是否為常態分配。
B. 依收集資料的順序,繪殘差點圖。
C. 繪殘差 ei 與迴歸估計值 yi 的對應圖。
D. 繪殘差 ei 與自變數 X (即 xi )的對應圖。
5.1 殘差相關變數和意義
5.1 殘差相關變數和意義
1 未標準化的預測量(估計量: PRED )
估計量為 i x i
= ,
Y i=1 、 2 、 ... 、 n
估計值為 y i a ,
+ bx i i=1 、 2 、 ... 、 n
i=1
3 預測值的標準差( SPERED )
1/ 2 1/ 2
n 2 n 2
Ei ei
Si Se hi , s i s e hi Se i =1 , s e i =1
n-2 n - 2
4 標準化的預測量( ZPRED )
Ŷi ŷ
ŶiZ , ŷiz i
Si si
5 未標準化的殘差( RESID )
E i Yi Ŷi , ei yi ŷi
6 標準化殘差( ZRESID )
Ei e
E iZ , eiz i
Se se
n i a
y (j) (j)
+ b (j) x i
9 估計值為
刪除型殘差 ( Deleted residuali=1
, :、 2 、 ... 、
DRESID )
n
i Yi Yi
E (j)
估計量為 (j) , i=1 、 2 、 ... 、 n
i yi yi
e (j)
估計值為 , (j) i=1 、 2 、 ... 、 n
(j)
e
se (j)
估計值為 ,
j
j
i=1 、 2 、 ... 、 n
s (j)
s 1 hj
11 Mahalanobis 距離( MAHAL )
2
x x
Di = i
Sx
Y
n
(i)
j Y
j
j=1
Ci =
p +1 S2e
i=2
DW = n
E
i=1
2
i
5.2 驗証常態分配
5.2 驗証常態分配
要驗証誤差變數是否具常態分配,可繪殘差次數
分配圖,由該圖可概略判斷母群體的誤差變數是否是
常態分配?且其平均數(期望值)是否為零。
《圖 18.5-1 》標準常態分配機率圖
1 繪標準化殘差次數分配圖
1 若自變數只有一個,則可繪依變數和自變數的散佈圖,
檢視此圖是否近似直線。若否,就不應該以此兩變數作
簡單迴歸分析。
依收集資料的先後順序,繪殘差點圖。若資料是
彼此獨立時,殘差應會隨機散佈在圖上,換言之,殘
差應不會成群出現在零線(即原點)的某一方,否則
表示非獨立。除了圖示法外,亦可利用 Durbin-Watso
n 統計量,或其他無母數分析法,如「符號檢定( sig
n-test )」等來檢定獨立性,有興趣的讀者可參考相關
書籍。
5.6 例外值
5.6 (Outliers)的處理
例外值(Outliers) 的處理
《圖 18.5-3 》殘差的例外值
5.7 資料轉換
5.7 資料轉換
1 適合簡單線性迴歸模型。 2 簡單線性迴歸模型不顯著 ,
可再加入其他自變數於模型
內(複迴歸分析)。
3 簡單線性迴歸模型雖可用 , 4 簡單線性迴歸模型不適用 ,
但適合度不高 , 可作對數轉 可作開根號轉換或二次曲線
換或二次曲線模型。 模型。