Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

資料整理來源:陳順宇著,多變量分析

第七章 因素分析(Factor Analysis):

起源於心理學上的研究。在心理學上常會遇到一些不能直接量測的因素,例如:
人的智力、EQ、人格特質、食物偏好、消費者的購買行為等。對於這些無法明
確表示(抽象的)或無法測量的因素,希望可以經由一些可以測量的變數,加以訂
定出這些因素。

因素分析的主要目的是對資料找出其結構,以少數幾個因素來解釋一群相互有關
係存在的變數,而又能到保有原來最多的資訊,再對找出因素的進行其命名,如
此方可達到因素分析的兩大目標:資料簡化和摘要。

相互有關係存在的變數受共同因素(Common Factor)及獨特因素(Specific Factor)


的影響。

因素分析分成探索性因素分析(Exploratory Factor Analysis)與驗證性因素分析


(Confirmatory Factor Analysis)。探索性因素分析是在沒有任何限制之下,找出因
素的結構。驗證性因素分析是在已知可能的結構下,驗證是否仍適用,如線性結
構方程式(LISREL)。

因素分析的應用
1. 找出潛在因素

2. 篩選變數

3. 對資料做摘要

4. 由變數中選取代表性變數 (在因素中挑選一個變數使用)

5. 建構效度

6. 做資料簡化 (相關性高的變數,僅需選取一個做代表)

因素分析與主成分分析的比較
1. 主成分分析是以變異數為導向。因素分析是以共變異數為導向,關心每個變
數與其他變數共同享有部分的大小。

2. 主成分分析是選擇一組成份(Component),盡可能的解釋原變數的變異數。因
素分析是選取少數因素(Factor),解釋原變數的相關情形。

3. 主成分分析是所有變數的變異都考慮在內。因素分析只考慮每一變數與其他
變數共同享有的變異。

1
4. 主成分分析較適合做資料(變數)的簡化。因素分析較適合做偵測資料結構。

5. 主成分分析不需要旋轉。因素分析可能需要旋轉才能對因素命名與解釋。

6. 主成分分析是資料(變數)做變換(線性組合),對資料(變數)不需要任何假設。
因素分析是假設資料(變數)滿足某些結構而得到的結果。

因素分析的應用
經因素分析將資料(變數)簡化成少數幾個因素,可對個體分群(群集分析),或進
行 ANOVA 、 MDS( 多 元 尺 度 ) , 或 畫 因 素 得 點 的 散 佈 圖 找 出 異 常 點 , 或 做
LISREL(線性結構方程式)的構面中測量變數指標。

因素分析模式架構
設有 p 個變數,每個變數可分解成少數 q 個共同因素(Common Factor) fj (q < p)
及獨特因素(Specific Factor) εi 的線性組合。

x1 = µ1 + l11 f1 + l12 f 2 + Ll1q f q + ε 1


x 2 = µ 2 + l 21 f 1 + l 22 f 2 + L l 2 q f q + ε 2

x p = µ1 + l p1 f 1 + l p 2 f 2 + L l pq f q + ε p

f 1 , f 2 , L , f q 在每個變數中都擁有。 ε i 只在第 i 個變數中擁有。


l ij 為第 i 個變數在第 j 個共同因素的權重或因素負荷(Factor Loading)。

Î 矩陣表示法 X = µ + Lf + ε => X − µ = Lf + ε

⎡ x1 ⎤ ⎡ µ1 ⎤ ⎡ l11 l12 L l1q ⎤ ⎡ f1 ⎤ ⎡ε1 ⎤


⎢x ⎥ ⎢µ ⎥ ⎢l l 22 L l2q ⎥ ⎥ ⎢ f2 ⎥ ⎥ ⎢ε ⎥
其中 X = ⎢ 2⎥
,µ = ⎢ 2⎥
,L = ⎢
21
,f = ⎢ ,ε = ⎢ ⎥
2

⎢M⎥ ⎢ M ⎥ ⎢M M O M ⎥ ⎢M⎥ ⎢M⎥


⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ x p ⎥⎦ ⎢⎣ µ q ⎥⎦ ⎢⎣l p1 l p2 L l pq ⎥⎦ ⎢⎣ f q ⎥⎦ ⎢⎣ε p ⎥⎦

(基本假設) E ( f ) = 0 , Cov( f ) = Φ , E (ε ) = 0 , Cov(ε ) = Ψ , Cov( f , ε ) = 0

L 稱為負荷矩陣或圖案矩陣(Pattern matrix)

<通常假設 µ=0,Φ=I>

因素分析模式的基本假設

2
1. 獨特因素 ε 1 , ε 2 , L , ε p 是相互獨立的且是平均數為 0,變異數為ψ i 的常態分
配。

⎡ε1 ⎤ ⎛ ⎡0 ⎤ ⎡ψ 1 0 K 0 ⎤ ⎞
⎢ε ⎥ ⎜⎢ ⎥ ⎢ 0 ψ L 0 ⎥⎟
⎜ 0 ⎥⎟
ε = ⎢ ⎥ ~ MN ⎜ ⎢ ⎥, Ψ = ⎢
2 2

⎢M⎥ ⎢M⎥ ⎢M M O M ⎥⎟
⎢ ⎥ ⎜ ⎢ ⎥ ⎢ ⎥ ⎟⎟
ε ⎜ 0 0 0 ψ
⎣⎢ p ⎦⎥ ⎝⎣ ⎦ ⎣⎢ p⎥
⎦⎠

2. 共同因素 f 1 , f 2 , L , f q 間的共變異矩陣為 Φ ,

⎡ f1 ⎤ ⎡ Φ 11 Φ 12 L Φ 1q ⎤
⎢f ⎥ ⎢Φ Φ 22 L Φ 2 q ⎥⎥
f = ⎢ 2⎥
, Cov( f ) = E ( ff ) = Φ = ⎢
′ 21

⎢M⎥ ⎢ M M O M ⎥
⎢ ⎥ ⎢ ⎥
⎣⎢ f q ⎦⎥ ⎣⎢Φ q1 Φ q2 L Φ qq ⎦⎥

一般情況假設共同因素間獨立的且變異數皆為 1,即 Φ = I 。

3. 共同因素 f 1 , f 2 , L , f q 與獨立因素 ε 1 , ε 2 , L , ε p 間獨立,即 Cov( f j , ε i ) = 0 。

因素分析模式的重要結果
1. Σ = Cov( X ) = LΦL ′ + Ψ

Pf:
( X − µ )( X − µ )′ = ( Lf + ε )( Lf + ε )′
= Lf ( Lf )′ + ε ( Lf )′ + Lfε ′ + εε ′
= Lff L′ ′ + εf L
′ ′ + Lfε ′ + εε ′

Cov( X ) = E[( X − µ )( X − µ )′]


= E[ Lf ( Lf )′ + ε ( Lf )′ + Lfε ′ + εε ′]
= LE ( ff ′) L ′ + E (εf ′) L ′ + LE ( fε ′) + E (εε ′)
= LΦ L ′ + 0 + 0 + Ψ
= LΦ L ′ + Ψ

2. Φ=I 時,Cov( X , f ) = L 。若 X 為標準化,此時稱為結構矩陣(Structure Matrix)。

Pf:
Cov( X , f ) = E[( X − µ ) f ′] = E[( Lf + ε ) f ′] = LE ( ff ′) + E (εf ′) = L ⋅ I + 0

=L

q
3. xi = ∑ lij f j + ε i = ci + ε i ,i=1,2,...,p, ci 為 xi 的共通部分, ε i 為 xi 的獨特部分
j =1

3
q
Î Var ( xi ) = Var (∑ lij f j + ε i ) = Var (ci ) + Var (ε i ) (共通性 + 獨特性)
j =1
q
當 Φ=I 時, Var ( xi ) = ∑ l ij2 + ψ i 。
j =1
q
Pf: Σ = Cov( X ) = LΦL ′ + Ψ = LL ′ + Ψ ,故 Σ 對角線上的元素為 ∑ lij2 + ψ i 。 #
j =1
q
則共通性(Communality) Var (ci ) = hi2 = li21 + li22 + L + liq2 = ∑ l ij2 。
j =1
2
h i
各個因素解釋 xi 的變異數之比例的和為 。
σ 2
xi

又若 xi 為標準化後的資料, Var ( xi ) = 1 ,則獨特性ψ i = 1 − hi2 。

因素選取方法
1. 主成分法(Principal Component Analysis)

主成分分析:
p
y1 = ∑ a1 j x j
j =1
p
y2 = ∑ a2 j x j
j =1


p
y p = ∑ a pj x j
j =1

Î Y = AX,其中 AA′ = I ,即 A −1 = A′
Î X = A −1Y = A′Y ,其中 Var ( y i ) = λi

因素分析:
yi
Var ( f i ) = 1 ,故設 f i = ,i=1,2,…, p, f = ΛY Î Y = Λ−1 f ,
λi
則 X = A′Y = A′Λ−1 f = Lf , L = A′Λ−1 。
q p
得 xi = ∑ lij f j + ε i , ε i = ∑l ij f j ,i = 1,2,…, p
j =1 j = q +1

( L 中第 i 列全部變號亦為其解,有非唯一解。)

p q

∑ hi2 =∑ λi ,p 個變數的共通性之和 =
i =1 i =1
q 個特徵值之和
p p

∑ψ = ∑ λ
i =1
i
i = q +1
i ,p 個變數的獨特性之和 = 剩餘 p - q 個特徵值之和

4
q p

∑λ
i =1
i ∑h
i =1
i
2

故共同因素解釋變數的變異數的比例為 p
= p

∑λ
i =1
i ∑σ
i =1
2
xi

q p p

∑ λi ∑ λi
i = q +1
∑ψ i
i =1 i =1
共同因素不能解釋變數的變異數的比例為 1 - p
= p
= p

∑λ
i =1
i ∑λ
i =1
i ∑σ
i =1
2
xi

2. 主因素法(Principal Factor Analysis)

主成分分析是用 R 相關矩陣,求其特徵值及特徵向量,若將矩陣的對角線改
成小於 1 的數值( 起始共通性)R’ ,則稱為主因素法。常用複相關係數平方
(Square Multiple Correlation)取代。

缺點: R’不一定是正定,所以特徵值有可能是負的。

3. 最大概似法(Maximum Likelihood)

設 X i ~ MN p (0, Σ) , Σ = LΦL ′ + Ψ

將其概似函數取對數

ln(l ) = −1
2 n [ln | Σ | +tr (Σ −1 S )] + c
= −1
2 n [ln | LΦL ′ + Ψ | +tr (( LΦL ′ + Ψ ) −1 S )] + c

因為求 ln(l)極大,相當於求 H= ln | Σ | +tr (Σ −1 S ) 極小,則

∂H
= 2Σ −1 (Σ − S )Σ −1 L = 0
∂L
∂H
= diag (Σ −1 (Σ − S )Σ −1 ) = 0
∂Ψ
解聯立方程式,需用數值解。

應萃取的因素個數
1. 保留特徵值大於 1 的主成分,選取的因素解釋的比原來變數平均解釋的還多。

5
2. 利用陡坡圖(scree plot),如主成分分析方法。

3. 最大概似法選取因素可做因素個數的適合度檢定。

因素分析模式的合適性評估
1. 殘差分析

2. MSA 判斷準則

3. 最大概似法判斷準則

4. 偏相關判斷準則

因素的命名
負荷愈大表示該因素對變數的影響愈大,藉以對因素命名。所以想找共同因素使
負荷進可能的有很多元素很小,幾乎是零,這需要利用旋轉。

因素分析模式的旋轉
直交旋轉

1. 變異最大旋轉法(Varimax):負荷矩陣行變異最大

2. 四方最大的旋轉法(Quartimax):負荷矩陣列變異最大

3. 一般直交旋轉法:上面兩者的加權平均

4. 相等最大值法(Equamax):

斜交旋轉
1. 直接斜交轉軸法(Direct Oblimin)

2. 轉軸法(Promax)

6
主成分分析 SPSS 的點法:
Analyze Î Data Reduction Î Factor Analysis
Variables :
Descriptives -> Correlation Matrix : Coefficients, …
Extraction -> Method : Principal Components;
Analyze : Correlation Matrix (用 R 做分析)
Covariance Matrix (用 S 做分析)
(兩者選擇一個使用)
Extract : Eigenvalues over : 1 (只列出λ>1的主成分)
Number of factors: 3 (自行選擇主成分的個數)
Display : Unrotated factors solution (主成分分析未旋轉)
Scree plot (陡坡圖)
======================================================
因素分析: Analyze Î Data Reduction Î Factor Analysis
Variables :

Statistics(統計量):Univariate descriptives(敘述統計量); Intital solution(未轉軸的統計量)


Correlation Matrix(相關矩陣):Coefficients(相關係數)、Significance levels(顯著水準) 、
Determinant(行列式)、KMO and Bartlett’s test of sphericity(KMO 值愈大(>0.6)表示共同因素
愈多,愈適合進行因素分析。Bartlett’s test 檢定是否為多變量常態分配,亦可檢定 R 是否
適合進行因素分析)、Inverse(反矩陣)、Reproduced(重製矩陣:上三角為殘差值,下三角為
相關係數) 、Anti-image(逆映像:逆映像的共變數和相關矩陣)

7
Extraction(因素萃取)
Analyze(分析):Correlation matrix(相關矩陣 R);Covariance matrix(共變異數矩陣 S)
Display(報表顯示):Unrotated factor solution(未旋轉因素的解);Scree plot(陡坡圖)
Extract(萃取):Eigenvalues over(內設特徵值大於 1);Number of factors (因素個數)
Maximum Iterations for Convergence(內設最大疊代收斂次數為 25)

Method (估計方法)
Principal components(主成分法)
Unweighted least squares(未加權最小平方法)
Generalized least squares(一般化最小平方法)
Maximum likelihood(最大概似法)
Principal axis factoring(主軸因素法)
Alpha factoring(Alpha 因素法)

8
Method (轉軸的方法): 內設無旋轉;Display(報表顯示):轉軸後的解 (內設一
般報表)、Loading plot (負荷量圖)3D 或 2D 圖,顯示原始變數和因素之間的關係。

Factor Scores(因素得點)
Save as variables
Method(方法):Regression (內設為迴歸法);Bartlett ;Anderson-Rubin
Display factor score coefficient matrix (報表顯示因素得點的係數矩陣)

9
Options(選項)

Missing Values(遺失值的處理方法)
Exclude cases listwise(完全排除法);Exclude cases pairwise(成對排除法);
Replace with mean(平均數取代法)

Coefficient Display Format(顯示因素負荷的形式)


Sorted by size(因素負荷大小排序);Suppress absolute values less than(內設絶對值小於 0.1 的捨去)

以陳順宇著多變量分析``國產車偏見’’為例。

10
作業 (請於 4/17 交)

1. 針對 SAN4 的檔案共 150 筆資料,請使用 S 矩陣做因素分析。首先請分別解釋前兩個


因素的意義,接著做轉軸,再畫圖比對一下轉軸之後的結果,並解釋轉軸之後兩因素的
意義。(鄧家駒著多變量分析 ch10 習題 2)

2. 請將 ``大學生 EQ 資料檔” 做因素分析,試做成一份報告。可參閱陳順宇著多變量分


析(第四版)第 2-67 頁及第 2-68 頁的報表。

11

You might also like