Professional Documents
Culture Documents
Applied Multivariate Data Analysis Ch7
Applied Multivariate Data Analysis Ch7
起源於心理學上的研究。在心理學上常會遇到一些不能直接量測的因素,例如:
人的智力、EQ、人格特質、食物偏好、消費者的購買行為等。對於這些無法明
確表示(抽象的)或無法測量的因素,希望可以經由一些可以測量的變數,加以訂
定出這些因素。
因素分析的主要目的是對資料找出其結構,以少數幾個因素來解釋一群相互有關
係存在的變數,而又能到保有原來最多的資訊,再對找出因素的進行其命名,如
此方可達到因素分析的兩大目標:資料簡化和摘要。
因素分析的應用
1. 找出潛在因素
2. 篩選變數
3. 對資料做摘要
4. 由變數中選取代表性變數 (在因素中挑選一個變數使用)
5. 建構效度
6. 做資料簡化 (相關性高的變數,僅需選取一個做代表)
因素分析與主成分分析的比較
1. 主成分分析是以變異數為導向。因素分析是以共變異數為導向,關心每個變
數與其他變數共同享有部分的大小。
2. 主成分分析是選擇一組成份(Component),盡可能的解釋原變數的變異數。因
素分析是選取少數因素(Factor),解釋原變數的相關情形。
3. 主成分分析是所有變數的變異都考慮在內。因素分析只考慮每一變數與其他
變數共同享有的變異。
1
4. 主成分分析較適合做資料(變數)的簡化。因素分析較適合做偵測資料結構。
5. 主成分分析不需要旋轉。因素分析可能需要旋轉才能對因素命名與解釋。
6. 主成分分析是資料(變數)做變換(線性組合),對資料(變數)不需要任何假設。
因素分析是假設資料(變數)滿足某些結構而得到的結果。
因素分析的應用
經因素分析將資料(變數)簡化成少數幾個因素,可對個體分群(群集分析),或進
行 ANOVA 、 MDS( 多 元 尺 度 ) , 或 畫 因 素 得 點 的 散 佈 圖 找 出 異 常 點 , 或 做
LISREL(線性結構方程式)的構面中測量變數指標。
因素分析模式架構
設有 p 個變數,每個變數可分解成少數 q 個共同因素(Common Factor) fj (q < p)
及獨特因素(Specific Factor) εi 的線性組合。
Î 矩陣表示法 X = µ + Lf + ε => X − µ = Lf + ε
L 稱為負荷矩陣或圖案矩陣(Pattern matrix)
<通常假設 µ=0,Φ=I>
因素分析模式的基本假設
2
1. 獨特因素 ε 1 , ε 2 , L , ε p 是相互獨立的且是平均數為 0,變異數為ψ i 的常態分
配。
⎡ε1 ⎤ ⎛ ⎡0 ⎤ ⎡ψ 1 0 K 0 ⎤ ⎞
⎢ε ⎥ ⎜⎢ ⎥ ⎢ 0 ψ L 0 ⎥⎟
⎜ 0 ⎥⎟
ε = ⎢ ⎥ ~ MN ⎜ ⎢ ⎥, Ψ = ⎢
2 2
⎢M⎥ ⎢M⎥ ⎢M M O M ⎥⎟
⎢ ⎥ ⎜ ⎢ ⎥ ⎢ ⎥ ⎟⎟
ε ⎜ 0 0 0 ψ
⎣⎢ p ⎦⎥ ⎝⎣ ⎦ ⎣⎢ p⎥
⎦⎠
2. 共同因素 f 1 , f 2 , L , f q 間的共變異矩陣為 Φ ,
⎡ f1 ⎤ ⎡ Φ 11 Φ 12 L Φ 1q ⎤
⎢f ⎥ ⎢Φ Φ 22 L Φ 2 q ⎥⎥
f = ⎢ 2⎥
, Cov( f ) = E ( ff ) = Φ = ⎢
′ 21
⎢M⎥ ⎢ M M O M ⎥
⎢ ⎥ ⎢ ⎥
⎣⎢ f q ⎦⎥ ⎣⎢Φ q1 Φ q2 L Φ qq ⎦⎥
一般情況假設共同因素間獨立的且變異數皆為 1,即 Φ = I 。
因素分析模式的重要結果
1. Σ = Cov( X ) = LΦL ′ + Ψ
Pf:
( X − µ )( X − µ )′ = ( Lf + ε )( Lf + ε )′
= Lf ( Lf )′ + ε ( Lf )′ + Lfε ′ + εε ′
= Lff L′ ′ + εf L
′ ′ + Lfε ′ + εε ′
Pf:
Cov( X , f ) = E[( X − µ ) f ′] = E[( Lf + ε ) f ′] = LE ( ff ′) + E (εf ′) = L ⋅ I + 0
#
=L
q
3. xi = ∑ lij f j + ε i = ci + ε i ,i=1,2,...,p, ci 為 xi 的共通部分, ε i 為 xi 的獨特部分
j =1
3
q
Î Var ( xi ) = Var (∑ lij f j + ε i ) = Var (ci ) + Var (ε i ) (共通性 + 獨特性)
j =1
q
當 Φ=I 時, Var ( xi ) = ∑ l ij2 + ψ i 。
j =1
q
Pf: Σ = Cov( X ) = LΦL ′ + Ψ = LL ′ + Ψ ,故 Σ 對角線上的元素為 ∑ lij2 + ψ i 。 #
j =1
q
則共通性(Communality) Var (ci ) = hi2 = li21 + li22 + L + liq2 = ∑ l ij2 。
j =1
2
h i
各個因素解釋 xi 的變異數之比例的和為 。
σ 2
xi
因素選取方法
1. 主成分法(Principal Component Analysis)
主成分分析:
p
y1 = ∑ a1 j x j
j =1
p
y2 = ∑ a2 j x j
j =1
…
p
y p = ∑ a pj x j
j =1
Î Y = AX,其中 AA′ = I ,即 A −1 = A′
Î X = A −1Y = A′Y ,其中 Var ( y i ) = λi
因素分析:
yi
Var ( f i ) = 1 ,故設 f i = ,i=1,2,…, p, f = ΛY Î Y = Λ−1 f ,
λi
則 X = A′Y = A′Λ−1 f = Lf , L = A′Λ−1 。
q p
得 xi = ∑ lij f j + ε i , ε i = ∑l ij f j ,i = 1,2,…, p
j =1 j = q +1
( L 中第 i 列全部變號亦為其解,有非唯一解。)
p q
∑ hi2 =∑ λi ,p 個變數的共通性之和 =
i =1 i =1
q 個特徵值之和
p p
∑ψ = ∑ λ
i =1
i
i = q +1
i ,p 個變數的獨特性之和 = 剩餘 p - q 個特徵值之和
4
q p
∑λ
i =1
i ∑h
i =1
i
2
故共同因素解釋變數的變異數的比例為 p
= p
,
∑λ
i =1
i ∑σ
i =1
2
xi
q p p
∑ λi ∑ λi
i = q +1
∑ψ i
i =1 i =1
共同因素不能解釋變數的變異數的比例為 1 - p
= p
= p
∑λ
i =1
i ∑λ
i =1
i ∑σ
i =1
2
xi
主成分分析是用 R 相關矩陣,求其特徵值及特徵向量,若將矩陣的對角線改
成小於 1 的數值( 起始共通性)R’ ,則稱為主因素法。常用複相關係數平方
(Square Multiple Correlation)取代。
缺點: R’不一定是正定,所以特徵值有可能是負的。
3. 最大概似法(Maximum Likelihood)
設 X i ~ MN p (0, Σ) , Σ = LΦL ′ + Ψ
將其概似函數取對數
ln(l ) = −1
2 n [ln | Σ | +tr (Σ −1 S )] + c
= −1
2 n [ln | LΦL ′ + Ψ | +tr (( LΦL ′ + Ψ ) −1 S )] + c
∂H
= 2Σ −1 (Σ − S )Σ −1 L = 0
∂L
∂H
= diag (Σ −1 (Σ − S )Σ −1 ) = 0
∂Ψ
解聯立方程式,需用數值解。
應萃取的因素個數
1. 保留特徵值大於 1 的主成分,選取的因素解釋的比原來變數平均解釋的還多。
5
2. 利用陡坡圖(scree plot),如主成分分析方法。
3. 最大概似法選取因素可做因素個數的適合度檢定。
因素分析模式的合適性評估
1. 殘差分析
2. MSA 判斷準則
3. 最大概似法判斷準則
4. 偏相關判斷準則
因素的命名
負荷愈大表示該因素對變數的影響愈大,藉以對因素命名。所以想找共同因素使
負荷進可能的有很多元素很小,幾乎是零,這需要利用旋轉。
因素分析模式的旋轉
直交旋轉
1. 變異最大旋轉法(Varimax):負荷矩陣行變異最大
2. 四方最大的旋轉法(Quartimax):負荷矩陣列變異最大
3. 一般直交旋轉法:上面兩者的加權平均
4. 相等最大值法(Equamax):
斜交旋轉
1. 直接斜交轉軸法(Direct Oblimin)
2. 轉軸法(Promax)
6
主成分分析 SPSS 的點法:
Analyze Î Data Reduction Î Factor Analysis
Variables :
Descriptives -> Correlation Matrix : Coefficients, …
Extraction -> Method : Principal Components;
Analyze : Correlation Matrix (用 R 做分析)
Covariance Matrix (用 S 做分析)
(兩者選擇一個使用)
Extract : Eigenvalues over : 1 (只列出λ>1的主成分)
Number of factors: 3 (自行選擇主成分的個數)
Display : Unrotated factors solution (主成分分析未旋轉)
Scree plot (陡坡圖)
======================================================
因素分析: Analyze Î Data Reduction Î Factor Analysis
Variables :
7
Extraction(因素萃取)
Analyze(分析):Correlation matrix(相關矩陣 R);Covariance matrix(共變異數矩陣 S)
Display(報表顯示):Unrotated factor solution(未旋轉因素的解);Scree plot(陡坡圖)
Extract(萃取):Eigenvalues over(內設特徵值大於 1);Number of factors (因素個數)
Maximum Iterations for Convergence(內設最大疊代收斂次數為 25)
Method (估計方法)
Principal components(主成分法)
Unweighted least squares(未加權最小平方法)
Generalized least squares(一般化最小平方法)
Maximum likelihood(最大概似法)
Principal axis factoring(主軸因素法)
Alpha factoring(Alpha 因素法)
8
Method (轉軸的方法): 內設無旋轉;Display(報表顯示):轉軸後的解 (內設一
般報表)、Loading plot (負荷量圖)3D 或 2D 圖,顯示原始變數和因素之間的關係。
Factor Scores(因素得點)
Save as variables
Method(方法):Regression (內設為迴歸法);Bartlett ;Anderson-Rubin
Display factor score coefficient matrix (報表顯示因素得點的係數矩陣)
9
Options(選項)
Missing Values(遺失值的處理方法)
Exclude cases listwise(完全排除法);Exclude cases pairwise(成對排除法);
Replace with mean(平均數取代法)
以陳順宇著多變量分析``國產車偏見’’為例。
10
作業 (請於 4/17 交)
11