主成分分析与因子分析的异同比较及应用 王芳

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 4

・!

"・ 统计教育 #$$% 年第 & 期

主成分分析与因子分析
的异同比较及应用
!王 芳
(南京经济学院 经济与统计学院 ’ 江苏 南京 #!$$$% )

摘要( 主成分分析法和因子分析法都是从变量的方差 ) 协方差结构入手,在尽可能多地保留原始信


息的基础上,用少数新变量来解释原始变量的多元统计分析方法。教学实践中’ 发现学生运用主成分分
析法和因子分析法处理降维问题的认识不够清楚,本文针对性地从主成分分析法、因子分析法的基本思
想、使用方法及统计量的分析等多角度进行比较,并辅以实例。
关键词( 主成分分析< 因子分析< 比较< 应用
中图分类号:=/! 文献标识码:> !$$& ) &,-# (
文章编号: #$$% )$& ) $$$!" ) $"

主成分分析是研究如何通过少数几个主成分来 余的变量,我们要清楚地认识到,对通过主成分分析
解释多变量的方差 ) 协方差结构的分析方法,也就是 所得来的新变量是原始变量的线性组合,如原始变量
求出少数几个主成分,使它们尽可能多地保留原始变 为 1! ’ 1# ’ 2 2 2’ 1 3’ 经过坐标变换,将原有的 3 个相关变
量的信息,且彼此不相关。因子分析是研究如何以最 量14 作线性变换,转换成另一组不相关的变量 54’ 我们
少的信息丢失,将众多原始变量浓缩成少数几个因子 可 以 得 到 一 组 表 达 式 (
变量,以及如何使因子变量具有较强的可解释性的一 5! 6 7!!1! 8 7!#1# 8 ・・・ 8 7!313
种多元统计分析方法。这两种方法是处理多变量、大 5 6 7 1 8 7
# #! ! ## #1 8 ・・・ 8 7#313

样本时经常采用的方法,其二者的最终目的都是降
・・・
维,而且在处理方法上,许多参考文献上都强调因子 53 73!1! 73#1# 8 ・・・ 8 73313
6 8

分析法是主成分方法的扩展,也就是因子分析的基础 每个主成分都是由原有 3 个变量线性组合得到’


是主成分方法,所以对初学者来说,这两种方法在 矩阵 9 满足 9: 9 6 ! 的条件,在诸多主成分54 中,5! 在
使用时很可能会用混 ’ 本文将对两者的异同进行比 总方差中占的比重最大,说明它综合原有变量1! ’ 1#’
较。 2 2 2’ 13 的能力最强,其余主成分5# ’ 5%,2 2 2’ 53 在总方差

一、基本思想上的异同比较 中占的比重依次递减,说明越往后的主成分综合原信

从二者表达的含义上看,主成分分析法和因子分 息的能力越弱。以后的分析可以用前面几个方差最大

析法都是寻求少数的几个变量 (或因子 )来综合反映 的主成分 5 来进行,一般情况下,要求前几个54 * 4 ;3 .

全部变量 (因子 )的大部分信息,变量虽然较原始变量 所包含的信息不少于原始信息的 /&0 ,这样既减少了

少,但所包含的信息量却占原始信息的 /&0 以上,用 变量的数目,又能够用较少的主成分反映原有变量的

这些新变量来分析经济问题,其可信度仍然很高,而 绝大部分信息。如利用主成分来消除多元回归方程的

且这些新的变量彼此间互不相关,消除了多重共线 多重共线性,利用主成分来筛选多元线性回归方程中

性。对新变量的认识,不能错误简单地认为所寻求来 的变量等。

的这几个少数变量 (因子 )是原始变量经过筛选后剩 通过因子分析得来的新变量是对每一个原始变

收稿日期( #$$% ) $# ) !&


作者简介( 王芳 * !+,- ) . ,女’ 讲师,主要从事多元统计分析的教学与研究
总第 !" 期 理论探讨 ・#!・

量进行内部剖析,打比喻来说,原始变量就如成千上万的糕 这七种方法中只有用主成分分析法求解因子载荷时可以选
点,每一种糕点的原料都有面粉、油、糖及相应的不同原料, 择与变量个数相等的因子变量个数 (/012345 67 789:645),其
这其中,面粉、油、糖是所有糕点的共同材料,正如因子分析 它方法都必须因子变量个数小于原始变量个数。而且在计
中的新变量即因子变量 $ 正确选择因子变量后,如果想考虑 算的过程中不能像主成分分析法那样一次计算因子载荷成
成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公 功,如主因子法,往往需要经过多次尝试,才能得到因子载
共因子的物价变动即可。所以因子分析不是对原始变量的 荷矩阵。
重新组合,而是对原始变量进行分解,分解为公共因子与特 (
C )模型的生成。经过 &’()*+ 过程都产生因子载荷
殊因子两部分。即因子分析就是要利用少数几个公共因子 阵,但主成分分析模型需要的不是因子载荷量而是特征向
去解释较多个要观测变量中存在的复杂关系,它把原始变 量,所以还需将因子载荷量输入数据编辑窗口,利用 “主成
量分解为两部分因素,一部分是由所有变量共同具有的少 分相应特征根的平方根与特征向量乘积为因子载荷量 ” 的
数几个公共因子构成的,另一部分是每个原始变量独自具 性质用 )+’/,&*+D*(*D-E)= 来计算特征向量,从而才
有的因素,即特殊因子。 能得到主成分的线性表达式。而因子分析直接采用因子载
对新产生的主成分变量及因子变量计算其得分,就可 荷量即可得到因子模型。
以将主成分得分或因子得分代替原始变量进行下一步的分 (
F )计算得分的方法。主成分得分是根据表达式将标准
析,因为主成分变量及因子变量比原始变量少了许多,所以 化后的相应数据代入得到的,因子得分的计算在 ,-,, 中提
起到了降维的作用,为我们处理数据降低了难度。 供了三种方法:一是回归法,先对公共因子 7 与变量># $ >.$
二、数据标准化的异同比较 G G G$ >H 作回归,建立回归方程,而后将变量数值代入回归方
主成分分析中为了消除量纲和数量级,通常需要将原 程,求得因子得分;二是巴特莱特法,由于因子模型>1 I
始数据进行标准化,将其转化为均值为 % 方差为 # 的无量 ’& J 3 中,3 为特殊因子,这部分极难观测,但可通过 3 的协
纲数据。而因子分析在这方面要求不是太高,因为在因子分 方差矩阵转化为单位矩阵,从而求得因子得分 &;三是安德
析中可以通过主因子法、加权最小二乘法、不加权最小二乘 森 K 鲁宾法,这种方法是为了保证因子的正交性而对巴特
法、重心法等很多解法来求因子变量,并且因子变量是每一 莱特因子得分的调整,其因子得分的均值为 % 方差为 #。在
个变量的内部影响变量,它的求解与原始变量是否同量纲 ,-,, 的 &’()*+ 过程中,因子分析只需简单地选择对话框
关系并不太大,当然在采用主成分法求因子变量时,仍需标 中 “,(*+=” 进 行 操 作 , 而 主 成 分 分 析 中 计 算 得 分 需 在
准化。不过在实际应用的过程中,为了尽量避免量纲或数量 “:48@57641*961H0:3L输入主成分的表达式。两种得分应用的
级的 影响 , 建议 在使 用 因子 分析 前 还是 要进 行 数据 标准 方向也不太一致,主成分得分一般用来对研究现象进行综
化。 合评价、排序及筛选变量,而因子得分多用于对样本及变量

三、&’()*+ 过程的异同比较 的分类,也可用于综合评价。

主成分分析与因子分析都可利用 ,-,, 中的 &’()*+ 过程 (


! )有关统计量的取得。有关因子载荷的一些统计量在

来实现,在 &’()*+ 中如果全部采用默认状态 (或仅改变提 ,-,, 输出窗口可直接得到,如变量与公共因子的相关系数,

取公因子个数一项 ),则进行的是主成分分析,在使用此过 实际上为所求得的因子载荷量,变量共同度 (反映每个变量

程时应注意以下几点: 对所提取的公共因子的依赖程度的统计量 ) 可由输出窗口


# )指标的选定。指标最好有同趋势化,一般为了评价 中的 “961H6@3@: 96110M?:NL 中直接显示出来,实际此数值是

分析的方便,需要将逆指标转化为正指标,转化的方式为用 因子载荷矩阵中每一行的因子载荷量的平方和,提取的因

逆指标的倒数值代替原指标。 子个数不同,变量共同度也不同。另外,公因子的方差 (反映


. )因子变量个数的确定。利用 &’()*+ 实现主成分分 每个公共因子与所有变量的相关程度的统计量 ) 可由 =>O

析时,在确定公共因子个数 (/012345 67 &89:645)时,一般直 :489:?6@ ,015 67 ,P0843B Q68B?@R5 直接读出。实际此数值是因

接选择与原变量数目相等的个数,这样可以避免由于采用 子载荷矩阵中每一列的因子载荷量的平方和。我们求得的

默认形式后累计方差贡献率达不到 ;!< 而造成的二次操 因子变量如果含义不明显,实用价值也不大,所以为了能更

作。利用 &’()*+ 实现因子分析时,可以选择的选项较多, 清楚地将因子与变量的关系显现,一般都采用因子旋转,因


首先是提取公因子的方法 (=>:489:?6@*13:A6B),除了主成分 子旋转的方法,在 ,-,, 中常用的有方差最大正交旋转、四
分析法之外,还有不加权最小二乘法、普通最小二乘法、最 次最大旋转、平均正交旋转,尽量使经过旋转后的因子载荷

大似然估计法、主因子法、! 因子分析法、映象因子分析法。 量向 % 和 # 两极分化,旋转后变量共同度没有改变,但公共


・!"・ 统计教育 #$$% 年第 & 期

因子方差发生了变化。 从输出窗口,我们可以取得每个主成分的方差,即特征
四、实证分析 根,它的大小表示了对应主成分能够描述原来所有信息的多
下面以全国 #$$$ 年城镇消费支出资料为例从降维的角 少 (更多情况下是由方差贡献率来反映 )。一般来讲,为了达
度、’(’’!$) $ 操作的方法、输出的结果及分析来比较两种方 到降维的目的,我们只提取前几个主成分,由于前三个主成
法的异同 (数据来源于 #$$! 年 《中国统计年鉴 》)。指标解释: 分的累计方差贡献率已达到 -ON 以上,所以决定用三个新变
*! —食品,*# —衣着,*% —家庭设备用品及服务,*+ —医疗保 量来代替原来的八个变量。但这三个新变量的表达还不能从
健,*& —交通和通讯,*" —娱乐教育文化服务,*, —居住,*- —
输出窗口中直接得到,因为 “LCH<C/4/= Q0=:;* ”是指因子载
杂项商品和服务。
荷矩阵,每一载荷量表示主成分与对应变量的相关系数,从
(一 )主成分分析
结果中可以看到第一个主成分与 *! A *% A *+ A *& A *" A *, A *- 的相关
操作步骤如下:
性较强,第二个主成分与 *# 的相关性较强,而第三个主成分
!、选择菜单中 “./01234 5 6 7489:;<=;>4 8=0=;8=;98 5 6 7489?
与每个变量的相关性都不太强。为了得到三个主成分的表达
=;<=;>48) ) ) @对 *! A *# A ) ) )A *- 指标进行标准化处理,并标准化后
式,以便求得分,还需进一步操作。
的变量保存在数据编辑窗口;
#、选择菜单中 “./01234 5 6 70=0 :47B9=;C/ 5 6 D09=C:@ A 打 +、将前三个因子载荷矩阵输入到数据编辑窗口 (为变量
开因子分析对话框,将标准化后的八个变量放入 E0:;0F148 0!A 0#A 0% ),然后利用 “M:0/8DC:H 5 6 9CH<B=4@ A 在对话框中输
中; 入 “R! S .! T ’UV(&) !O" )”,即可得到特征向量 R!。同理,可
%、打开 “G*=:09=;C/@ 对话框,选中 /BHF4: CD D09=C:8,输入 得 R#,R%。于是,主成分表达式为:
-,其它默认项不变,点击 “确定 ”,则在输出窗口中自动生成 3! S $) %O- W 3*! X $) !+" W 3*# X $) %-! W 3*% X $) %%% W 3*+ X
结果; $) %,, W 3*& X $) +!& W 3*" X $) #OO W 3*, X $) + W 3*-
!"#$% &$’($)*+ ,-.%$()+/ 3# S 5 $) $OO W 3*! X $) "O, W 3*# X $) !&O W 3*% X $) %"# W 3*+ 5

;/;=;01 G;I4/>01B48 G*=:09=;C/ ’BH8 CD ’JB0:47 KC07;/I8


$) #,+ W 3*& X $) $&# W 3*" 5 $) &!O W 3*, 5 $) $!- W 3*-

N CD LBHB10=;>4 N CD 3% S $) #+, W 3*! X $) +,+ W 3*# 5 $) +"" W 3*% 5 $) %O W 3*+ X


LCH<C/4/= MC=01 MC=01 LBHB10=;>4N
E0:;0/94 N E0:;0/94 $) %&# W 3*& 5 $) #O" W 3*" 5 $) $&# W 3*, X $) %"% W 3*-
! &) !"O "+) "$O "+) "$O &) !"O "+) "$O "+) "$O 第一主成分,除 *# 之外,其余变量的系数都在 $) % 5 $) +
# !) %O- !,) +,+ -#) $-% !) %O- !,) +,+ -#) $-%
附近,说明第一主成分是七个变量的综合,而第二主成分主
% ) &"! ,) $!+ -O) $O, ) &"! ,) $!+ -O) $O,
要反映了衣着消费支出 (*# )的信息,第三主成分反映的是家
+ ) %#" +) $," O%) !,+ ) %#" +) $," O%) !,+
庭设备用品及服务 (*% )A 医疗服务 (*+ )的信息;
& ) #", %) %+% O") &!, ) #", %) %+% O") &!,

" ) !+O !) -"! O-) %,, ) !+O !) -"! O-) %,,


&、排序。先在 “=:0/8DC:H 5 6 9CH<B=4@中输入主成分的表
,) +-"G 5 达式,确定后即可得到各主成分的得分 3! A 3# A 3% ,若需求综合
, ,) +-"G 5 $# ) O%" OO) %!% ) O%" OO) %!%
$# 得分,还需在 “=:0/8DC:H 5 6 9CH<B=4 @ 中输入综合评价函数
&) +O&G 5
- &) +O&G 5 $# ) "-, !$$) $$$ ) "-, !$$) $$$ “D S $) "+"$O$3! X $) !,+,+$3# X $) $,$!+$3% @,3! A 3# A 3% 前的
$#
系 数 是 主 成 分 的 方 差 贡 献 率 。 最 后 在 “=:0/8DC:H 5 6 :0/Y
0"1.")+)# 2$#’(-
9084@ 中选中 D 进行排序。城镇消费支出综合排名前三的是:
LCH<C/4/=
! # % + & " , - 北京、上海、广东。
5 %) !-+G 5 +) %+!G ") $+-G
P*! ) O$& 5 ) !!, ) !-& 5 ) #+! ) #"! (二 )因子分析
5 $# 5 $# 5 $#
!) -%+G 5 %) --"G 5 !) !+"G 操作步骤如下:
P*# ) %%% ) -#+ ) %&& ) #"+ ) !!+
5 $#
5 $% 5 $# !、同前 !、#;
5 ") %"%G
P*% ) -", ) !-- ) %+O ) !-# 5 ) !#, 5 ) !&O
5 $#
) !!# # 、在主成分分析的基础上进行观察,发现提取三个公

P*+ ) ,&" ) +#- ) #O# ) #-+ ) #&" ) !$-


%) &,,G %) $#OG 共因子较佳,所以在 “D09=C: 5 6 4*=:09= 5 6 /BHF4:8 CD D09=C:”
5 $# 5 $#
5 #) $"-G
中输入 %;
P*& ) -&, ) %#+ ) #"+ ) !%! ) !,- ) !!$ ) !,%
5 $# %、对因子进行方差最大旋转。“D09=C: 5 6 :C=0=;C/@中选
") #!!G ") &+"G !) $O&G 5 #) %+%G
P*" ) O++ 5 ) ### 5 ) !## 5 ) !O# 择 >0:;H0*;
5 $# 5 $# 5 $# 5 $%
5 %) O!"G ") "O&G O) %"OG !) O%"G 5 +、计算因子得分。 “D09=C: 5 6 89C:4@中选 :4I:488;C/Z
P*, ) "-$ 5 ) "!+ ) %$$ ) #%"
5 $# 5 $# 5 $# $# 通过上述 ! 5 + 步操作,可以从输出窗口取得变量共同
5 #) $,!G !) "#&G 5
P*- ) O!$ ) #,# 5 ) !,! 5 ) !!! 5 ) !"% ) !,$
5 $# $# 度 (表 ! )、旋转前后的公因子方差 (表 # )、旋转前后的因子载
总第 !" 期 理论探讨 ・#$・

荷矩阵 (表 I )等。
表# 41556’&78+8/* 表I >1+&+/2 415=1’/’+ ?&+,8<

*(*1*’? 8J1/’61*3( U39>3(.(1


K063/. % J# : #C LLL C M"$ # N CI
K063/. % JN : #C LLL C O#$ K063/. % J# : C M#O C P#O C #PI
K063/. % JI : #C LLL C OLO K063/. % JN : IC OL"8 Y LN C N!! C ONN
K063/. % JP : #C LLL C MIO K063/. % JI : C IO! C M"I OC #MP8 Y LN
K063/. % J! : #C LLL C OLO K063/. % JP : C NNM C MIP C ILP
K063/. % J" : #C LLL C OPP K063/. % J! : C O#" C N"I OC MNO8 Y LI
K063/. % J$ : #C LLL C MP# K063/. % J" : C !$# C $MI $C LMO8 Y LN
K063/. % JM : #C LLL C OLN K063/. % J$ : C $$I C N!$ Y C PNN
K063/. % JM : C MNL C IO" C N$#
从表 # 可以得出:提取的三个公共因子与娱乐教育文
化服务支出 (J" )的依赖程度最强,为 LC OPP,在其它变量中 从表 I 可以得出:旋转后因子间的差异更明显,第一因

关系最弱的也有 LC MIO,因此,总体来说公共因子与变量间 子主要用来解释 J# E J! E J$ E JM ,集中反映食品、交通通讯、居住

的相关程度较强,即具有代表性。 及服务的信息,是生活必需公共因子。第二因子主要用来解

表N 91+&7 :&,8&’-/ ;<=7&8’/2 释 JIE JPE J",集中反映了家庭设备用品、医疗保健及娱乐教

8J1/’61*3( Q,90 34 T31’1*3( Q,90 34


育文化方面的信息,是精神享受因素。第三个公共因子则主
QR,’/.7 S3’7*(+0 QR,’/.7 S3’7*(+ 要用来解释 JN 的信息,是气候因素。
W 34 U,9,?’1*-. W 34 U,9,?’1*-.
U39>3(.(1 V31’? V31’? 通过 “4’613/ Y Z 063/.[ 计算出的因子得分将显示在数据
-’/*’(6. W X’/*’(6. W
# !C #"O "PC "LO "PC "LO IC I#" P#C PPP P#C PPP 编辑窗口中,若想对样本或变量进行聚类,我们可以直接对
N #C IOM #$C P$P MNC LMI NC !MP INC IL! $IC $PO 此三个公共因子进行操作,而无需再考虑原始变量。
I !"# $C L#P MOC LO$ #C NNM #!C IPM MOC LO$ 主成分分析法与因子分析法本是两种多元统计分析方

从表 N 可以得出:旋转前第一个公共因子的方差贡献 法,但由于两者都是从变量的方差 Y 协方差矩阵入手的,所

率为 "PC "LOW ,第二个为 #$C P$PW ,第三个为 $C L#PW ,旋 以有着许多内在的联系。而且这两种方法是处理数据的方法

转后方差贡献发生了变化,但三个公共因子的重要性地位 与工具,在应用时也不能一味依靠输出结果反映的信息,有

并未发生变化,且总信息量也未发生改变。 必要与被研究的经济问题紧密结合起来共同考虑。

!"#$%&’(") %)* +$$,’-%.’")


"/ 0&’)-’$%, !"#$")1). +)%,2(’( 3 4%-."& +)%,2(’(

!"#$ %&’(
% &’()*(+ ,(*-./0*12 34 5*(’(6. ’(7 863(39*60 :

")*+,&-+ ; <31= >/*(6*>’? 639>3(.(1 ’(’?20*0 ’(7 4’613/ ’(’?20*0 ’/. 1=. 01’1*01*6’? 9.1=37 @=*6= 6’( 1’A. >?’6. 34 3/*+*(’?
-’/*’B?.0 @*1= ?.00 (.@ -’/*’B?.0 3( 1=. B’0*0 34 1/2*(+ 13 A..> .(3,+= /’@ *(43/9’1*3(C D( 1=. >/’61*6. 34 1.’6=*(+E 1=.
’,1=3/ 43,(7 9’(2 01,7.(10 63,?7( F 1 7*01*(+,*0= 1=. 1@3 9.1=37 6?.’/?2E 03 1=. >’>./ 639>’/. 1=30. 4/39 7*44./.(1 >./G
0>.61*-.0E .00.(1*’? *7.’0E 1=. @’2 34 ’>>?2*(+E 01’1*01*6’? -’/*’B?.0E .16C D( 1=. ?’01 E 1=. ’,1=3/ ’>>?20 1=.0. 9.1=370 13 ’
63(6/.1. >/39B?.9C
./0 !1,2*3 >/*(6*>’? 639>3(.(1 ’(’?20*0H 4’613/ ’(’?20*0H 639>’/*03(H ’>>?*6’1*3(

You might also like