Professional Documents
Culture Documents
主成分分析与因子分析的异同比较及应用 王芳
主成分分析与因子分析的异同比较及应用 王芳
主成分分析与因子分析的异同比较及应用 王芳
主成分分析与因子分析
的异同比较及应用
!王 芳
(南京经济学院 经济与统计学院 ’ 江苏 南京 #!$$$% )
主成分分析是研究如何通过少数几个主成分来 余的变量,我们要清楚地认识到,对通过主成分分析
解释多变量的方差 ) 协方差结构的分析方法,也就是 所得来的新变量是原始变量的线性组合,如原始变量
求出少数几个主成分,使它们尽可能多地保留原始变 为 1! ’ 1# ’ 2 2 2’ 1 3’ 经过坐标变换,将原有的 3 个相关变
量的信息,且彼此不相关。因子分析是研究如何以最 量14 作线性变换,转换成另一组不相关的变量 54’ 我们
少的信息丢失,将众多原始变量浓缩成少数几个因子 可 以 得 到 一 组 表 达 式 (
变量,以及如何使因子变量具有较强的可解释性的一 5! 6 7!!1! 8 7!#1# 8 ・・・ 8 7!313
种多元统计分析方法。这两种方法是处理多变量、大 5 6 7 1 8 7
# #! ! ## #1 8 ・・・ 8 7#313
样本时经常采用的方法,其二者的最终目的都是降
・・・
维,而且在处理方法上,许多参考文献上都强调因子 53 73!1! 73#1# 8 ・・・ 8 73313
6 8
一、基本思想上的异同比较 中占的比重依次递减,说明越往后的主成分综合原信
从二者表达的含义上看,主成分分析法和因子分 息的能力越弱。以后的分析可以用前面几个方差最大
这些新变量来分析经济问题,其可信度仍然很高,而 绝大部分信息。如利用主成分来消除多元回归方程的
且这些新的变量彼此间互不相关,消除了多重共线 多重共线性,利用主成分来筛选多元线性回归方程中
性。对新变量的认识,不能错误简单地认为所寻求来 的变量等。
量进行内部剖析,打比喻来说,原始变量就如成千上万的糕 这七种方法中只有用主成分分析法求解因子载荷时可以选
点,每一种糕点的原料都有面粉、油、糖及相应的不同原料, 择与变量个数相等的因子变量个数 (/012345 67 789:645),其
这其中,面粉、油、糖是所有糕点的共同材料,正如因子分析 它方法都必须因子变量个数小于原始变量个数。而且在计
中的新变量即因子变量 $ 正确选择因子变量后,如果想考虑 算的过程中不能像主成分分析法那样一次计算因子载荷成
成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公 功,如主因子法,往往需要经过多次尝试,才能得到因子载
共因子的物价变动即可。所以因子分析不是对原始变量的 荷矩阵。
重新组合,而是对原始变量进行分解,分解为公共因子与特 (
C )模型的生成。经过 &’()*+ 过程都产生因子载荷
殊因子两部分。即因子分析就是要利用少数几个公共因子 阵,但主成分分析模型需要的不是因子载荷量而是特征向
去解释较多个要观测变量中存在的复杂关系,它把原始变 量,所以还需将因子载荷量输入数据编辑窗口,利用 “主成
量分解为两部分因素,一部分是由所有变量共同具有的少 分相应特征根的平方根与特征向量乘积为因子载荷量 ” 的
数几个公共因子构成的,另一部分是每个原始变量独自具 性质用 )+’/,&*+D*(*D-E)= 来计算特征向量,从而才
有的因素,即特殊因子。 能得到主成分的线性表达式。而因子分析直接采用因子载
对新产生的主成分变量及因子变量计算其得分,就可 荷量即可得到因子模型。
以将主成分得分或因子得分代替原始变量进行下一步的分 (
F )计算得分的方法。主成分得分是根据表达式将标准
析,因为主成分变量及因子变量比原始变量少了许多,所以 化后的相应数据代入得到的,因子得分的计算在 ,-,, 中提
起到了降维的作用,为我们处理数据降低了难度。 供了三种方法:一是回归法,先对公共因子 7 与变量># $ >.$
二、数据标准化的异同比较 G G G$ >H 作回归,建立回归方程,而后将变量数值代入回归方
主成分分析中为了消除量纲和数量级,通常需要将原 程,求得因子得分;二是巴特莱特法,由于因子模型>1 I
始数据进行标准化,将其转化为均值为 % 方差为 # 的无量 ’& J 3 中,3 为特殊因子,这部分极难观测,但可通过 3 的协
纲数据。而因子分析在这方面要求不是太高,因为在因子分 方差矩阵转化为单位矩阵,从而求得因子得分 &;三是安德
析中可以通过主因子法、加权最小二乘法、不加权最小二乘 森 K 鲁宾法,这种方法是为了保证因子的正交性而对巴特
法、重心法等很多解法来求因子变量,并且因子变量是每一 莱特因子得分的调整,其因子得分的均值为 % 方差为 #。在
个变量的内部影响变量,它的求解与原始变量是否同量纲 ,-,, 的 &’()*+ 过程中,因子分析只需简单地选择对话框
关系并不太大,当然在采用主成分法求因子变量时,仍需标 中 “,(*+=” 进 行 操 作 , 而 主 成 分 分 析 中 计 算 得 分 需 在
准化。不过在实际应用的过程中,为了尽量避免量纲或数量 “:48@57641*961H0:3L输入主成分的表达式。两种得分应用的
级的 影响 , 建议 在使 用 因子 分析 前 还是 要进 行 数据 标准 方向也不太一致,主成分得分一般用来对研究现象进行综
化。 合评价、排序及筛选变量,而因子得分多用于对样本及变量
(
# )指标的选定。指标最好有同趋势化,一般为了评价 中的 “961H6@3@: 96110M?:NL 中直接显示出来,实际此数值是
分析的方便,需要将逆指标转化为正指标,转化的方式为用 因子载荷矩阵中每一行的因子载荷量的平方和,提取的因
(
. )因子变量个数的确定。利用 &’()*+ 实现主成分分 每个公共因子与所有变量的相关程度的统计量 ) 可由 =>O
接选择与原变量数目相等的个数,这样可以避免由于采用 子载荷矩阵中每一列的因子载荷量的平方和。我们求得的
因子方差发生了变化。 从输出窗口,我们可以取得每个主成分的方差,即特征
四、实证分析 根,它的大小表示了对应主成分能够描述原来所有信息的多
下面以全国 #$$$ 年城镇消费支出资料为例从降维的角 少 (更多情况下是由方差贡献率来反映 )。一般来讲,为了达
度、’(’’!$) $ 操作的方法、输出的结果及分析来比较两种方 到降维的目的,我们只提取前几个主成分,由于前三个主成
法的异同 (数据来源于 #$$! 年 《中国统计年鉴 》)。指标解释: 分的累计方差贡献率已达到 -ON 以上,所以决定用三个新变
*! —食品,*# —衣着,*% —家庭设备用品及服务,*+ —医疗保 量来代替原来的八个变量。但这三个新变量的表达还不能从
健,*& —交通和通讯,*" —娱乐教育文化服务,*, —居住,*- —
输出窗口中直接得到,因为 “LCH<C/4/= Q0=:;* ”是指因子载
杂项商品和服务。
荷矩阵,每一载荷量表示主成分与对应变量的相关系数,从
(一 )主成分分析
结果中可以看到第一个主成分与 *! A *% A *+ A *& A *" A *, A *- 的相关
操作步骤如下:
性较强,第二个主成分与 *# 的相关性较强,而第三个主成分
!、选择菜单中 “./01234 5 6 7489:;<=;>4 8=0=;8=;98 5 6 7489?
与每个变量的相关性都不太强。为了得到三个主成分的表达
=;<=;>48) ) ) @对 *! A *# A ) ) )A *- 指标进行标准化处理,并标准化后
式,以便求得分,还需进一步操作。
的变量保存在数据编辑窗口;
#、选择菜单中 “./01234 5 6 70=0 :47B9=;C/ 5 6 D09=C:@ A 打 +、将前三个因子载荷矩阵输入到数据编辑窗口 (为变量
开因子分析对话框,将标准化后的八个变量放入 E0:;0F148 0!A 0#A 0% ),然后利用 “M:0/8DC:H 5 6 9CH<B=4@ A 在对话框中输
中; 入 “R! S .! T ’UV(&) !O" )”,即可得到特征向量 R!。同理,可
%、打开 “G*=:09=;C/@ 对话框,选中 /BHF4: CD D09=C:8,输入 得 R#,R%。于是,主成分表达式为:
-,其它默认项不变,点击 “确定 ”,则在输出窗口中自动生成 3! S $) %O- W 3*! X $) !+" W 3*# X $) %-! W 3*% X $) %%% W 3*+ X
结果; $) %,, W 3*& X $) +!& W 3*" X $) #OO W 3*, X $) + W 3*-
!"#$% &$’($)*+ ,-.%$()+/ 3# S 5 $) $OO W 3*! X $) "O, W 3*# X $) !&O W 3*% X $) %"# W 3*+ 5
荷矩阵 (表 I )等。
表# 41556’&78+8/* 表I >1+&+/2 415=1’/’+ ?&+,8<
的相关程度较强,即具有代表性。 及服务的信息,是生活必需公共因子。第二因子主要用来解
转后方差贡献发生了变化,但三个公共因子的重要性地位 与工具,在应用时也不能一味依靠输出结果反映的信息,有
并未发生变化,且总信息量也未发生改变。 必要与被研究的经济问题紧密结合起来共同考虑。
!"#$ %&’(
% &’()*(+ ,(*-./0*12 34 5*(’(6. ’(7 863(39*60 :
")*+,&-+ ; <31= >/*(6*>’? 639>3(.(1 ’(’?20*0 ’(7 4’613/ ’(’?20*0 ’/. 1=. 01’1*01*6’? 9.1=37 @=*6= 6’( 1’A. >?’6. 34 3/*+*(’?
-’/*’B?.0 @*1= ?.00 (.@ -’/*’B?.0 3( 1=. B’0*0 34 1/2*(+ 13 A..> .(3,+= /’@ *(43/9’1*3(C D( 1=. >/’61*6. 34 1.’6=*(+E 1=.
’,1=3/ 43,(7 9’(2 01,7.(10 63,?7( F 1 7*01*(+,*0= 1=. 1@3 9.1=37 6?.’/?2E 03 1=. >’>./ 639>’/. 1=30. 4/39 7*44./.(1 >./G
0>.61*-.0E .00.(1*’? *7.’0E 1=. @’2 34 ’>>?2*(+E 01’1*01*6’? -’/*’B?.0E .16C D( 1=. ?’01 E 1=. ’,1=3/ ’>>?20 1=.0. 9.1=370 13 ’
63(6/.1. >/39B?.9C
./0 !1,2*3 >/*(6*>’? 639>3(.(1 ’(’?20*0H 4’613/ ’(’?20*0H 639>’/*03(H ’>>?*6’1*3(