Download as pdf or txt
Download as pdf or txt
You are on page 1of 5

第纠卷第4期 统计研究 Vd.24。No.4

2007年4月 Statistical Re9目Irch Apr.2007

多重假设检验及其在经济计量中的应用
刘乐平 张 龙蔡正高

内容提要:基于错误发现率(FDR:False Discovery Rate)的多重假设检验(MHT:Multiple HypothesisTesting),已成为


一种有效解决大规模统计推断问题的新方法。本文以错误控制为主线,对多重假设检验问题的错误控制理论、方
法、过程和最新进展进行综述,并对多重假设检验方法在经济计量中的应用进行展望。

关键词:多重假设检验(MHT);错误发现率(FDR);经济计量学;q-值
中图分类号:C812 文献标识码:A 文章编号:1002—4565(2007)04—0026—05

A Multiple Hypothesis Test and Its Application in Econometrics

Liu I.eping Zhang Long Cai Zhenggao

Abstract:It is common in econometric appHcations that several hypothesis tests are carried out at the姗e time.The paper

reviews the theory and procedures of multiple hypothesis testing(MHT),summarizes the recent developments of false discovery

rate and finally prospects the application of MHT in econometrics.

Key words:Multiple hypothesis testing;false discovery rate;econometrics;q-value

一、引言 设检验作为一个整体(称为一个检验族:Family.
wise),然后对这个检验族中的每个假设同时进行检
巨型(海量)数据集合问题与大规模(高维)推断
验的问题。它是现代DNA数据统计分析中迫切需
问题(huge data sets and large.scale inference problems)
要解决的问题,例(苟鹏程等,2006)Ho,在基因芯片
被总结成为2l世纪统计学需要突破的两大难题
数据统计分析中,“微阵列(Micmarray)”技术的迅速
(Efron,B.,2005)¨]。为解决巨型数据集合问题
发展,给统计学专业人员提供了大量的微阵列数据。
——数据挖掘(Data Mining)的理论、方法和技术已
这类资料的特点:样本含量较小(一般为十几个或数
应运而生。而对于大规模统计推断问题,基于错误
十个),而变量数(基因数)非常多(一般为几百、几千
发现率①(FDR:False Discovery Rate)的多重假设检
甚至几万个)。如何对微阵列数据的差异表达进行
验(MHT:Multiple Hypothesis Testing),也为研究者提
供了一种有效的新思路。 *本文获天津市2005年度社科研究规划项目“经济计量学现代

在世界顶级的两大学术刊物《Science》和 贝叶斯统计建模研究”(TJ05.TJ001);教育部人文社会科学重大项目

“我国车险统计精算的广义线性模型及其应用研究”(05JJDglOl52)的
(Nature)上,近期都出现了FDR的应用研究成果:
资助。本文得到美国佛罗里达大学生物统计系教授吴尚武(Samuel
2001年,天体物理学家与统计学家合作在(Science)
S.wu)博士的大力帮助,在此表示感谢!当然,文责自负。
上发表了利用FDR方法证实宇宙起源大爆炸理论 ①FDR:False Discovery Rate,国内学者还有其它多种译法,如
的论文(Miller,C J.,Nich01.,R C.,Batuski,D J., “假发现率”和“阳性发现错误率”等。本文采用“错误发现率”的翻译

Science,2001)心]。2005年,在(Nature)上,遗传学家 是沿用了单重假设检验中第1类错误(Type I error-false positive)的

含义。
与统计学家合作,将FDR方法用于遗传多态现象间
②多重假设检验问题与经典统计中的多重比较问题(如方差
交互作用对基因表达的影响研究(Brem,RB.,
分析后多组均敷的比较或多组等级分布比较后的两两比较等)不同。
Storey,JD.,Whittle,J.and Kruglyak,L.,Nature, 在样本观测数据方面,经典统计多重比较问题主要是基于同一组样

2005)C31。 本观测数据进行多个不同的假设检验。而多重假设检验同题则是对

应每一个单重假设检验,都有其相对独立的样本观测数据。
多重假设检验问题②,是首先将多个单重的假

万方数据
第M卷第4期 期乐平等:多重假设检验硬箕在经济计量中的应用 ・27・

假设检验,是~个典型的多重假设检验问题。 真的个数记为m。,则剩余m—m。个原假设为假。
本文针对多重假设检验问题,以错误控制为主 在对这m重假设进行检验后。最终检验结果中有露
线,对多重假设检验问题的错误控制理论、方法、过 个拒绝原假设,m—R个不拒绝原假设。
程和最新进展进行综述,并对多重假设检验方法在 将m个检验中所犯I类错误和Ⅱ类错误分成
经济计量中的应用进行展望。 四个部分:£,、y、S和r。£,和S表示/'/it个检验中正

二、多重假设检验 确检验的个数;V表示m个检验中犯I类错误检验
的个数;T表示m个检验中犯Ⅱ类错误检验的个
(一)多重假设检验的错误控制问题
数。
将多重假设检验问题用记号简化,设m重假设

显然,R是一个可以观测的随机变量,而U、y、
检验{凰,巩,…,以}组成一个检验族,其中单个假
S和r都是不可观测的随机变量。
设检验甄对应着单重假设检验(风;,也)(i=1,
同单重假设检验的思想类似,对m重假设检验
2,…,m)。当m很大时,要对这m重假设同时进行
也需重点考虑犯I类错误和犯Ⅱ类错误的情况。不
检验。那么,怎样对最终检验的错误进行控制?
同的是关注的是将这m次检验作为一个总体看待,
对于单重假设检验(Single hypothesis testing)问
其中犯I类错误或犯Ⅱ类错误在所有错误中所占的
题,Neyman和Pearson的N.P假设检验理论的基本
比例。下面介绍五种常用的错误度量标准。
思想就是:使得犯第1类错误的概率限制在某个范
1.平均族错误率(PFER:Per-family Error Rate)。
围内,然后寻找使犯第二类错误的概率尽可能小(从
对于一个多重假设检验族(Family.wise),非常自然的
而检验的功效(power)尽可能大)的检验。
错误控制过程就是将m个检验分别单独考虑,控制
限制检验犯第1类错误的概率口的范围就是
m个检验中犯I类错误检验个数V的期望值。即
检验的水平(也称检验的显著性水平)。口常取一个
控制平均族错误率(PFER:Per-family Error Rate)=E
较小的数,如0.05,0.01等。目前常用的检验方法
(y)。由于y表示m重检验中犯I类错误检验的个
是,将P值与显著性水平口进行比较:如果p_值小
数,它是研究人员特别关心的,但是由于无法观测,
于或等于Ot,就拒绝原假设,如果p-值大于口,就不拒
所以用V的期望来控制错误是最自然的考虑。
绝原假设。所以,在单重假设检验问题中,主要通过
不过,平均族错误率(PFER)比较明显的弊病在
控制犯第1类错误的概率口(检验的显著性水平)来
于没有考虑检验的总次数,而检验的总次数与最后
达到对单重假设检验统计推断的错误控制。
的错误控制密切相关。
而对于多重假设检验,再用控制犯第1类错误
2.平均比较错误率(PCER:Per-comparison Error
的概率口来对多重假设检验的总体错误进行度量
Rate)。在平均族错误率(PFER)的基础上,学者给出一
就会出现无效的情形。因此,必须采用新的方法对
了平均比较错误率(PCER:Per-comparison Error
多重假设检验的错误进行控制。在对多重假设检验
Rate):PCER=E(v)/m。
错误进行控制之前,需要先了解如何对多重假设检
从定义容易看出,平均比较错误率(PCER)主要
验的错误进行度量。
描述的是平均族错误率(PFER)在m个检验中所占
(二)多重假设检验的错误度量 的比例。平均比较错误率(PCER)的思想是基于在
对于m重假设检验,分别对每个假设进行检 所有m个检验中,“错误拒绝(false rejections)”(犯I
验,再将所有检验结果按原假设为真和为假的条件, 类错误)的次数y所占的百分比。对每一个假设都
进行分类总结,可得表1。 在显著性水平口下进行检验,可以控制PCER=E
表1 埘重假设检验结果
(V)/m小于或等于事先给定的口。
不拒绝H0(检验不显著) 拒绝//o(检验显著)
平均比较错误率(PCER)控制的不足是,将m
原假设%为真 £, / y(第1类错误) //10

原假设He为假 r(第Ⅱ类错误) S m—m0 重假设检验中的每一个假设检验都在口下进行,而


m一矗 詹 没有考虑多重假设检验问题的“总体性”,使得检验
注:资料来源:Benimnini,Y.,H∞hbe唱,Y.,(1995)t引。 标准过于“宽松”。
在表1中,将m重假设检验中m个原假设中为 3.族错误率(FWER:Family—wise Error Rate)。为

万方数据
・28・ 统计研究 2,007年4月

了克服平均比较错误率(PCER)的不足,这时,学者
将注意力放到了表2中“错误拒绝”——或称为“错
pFDR=E[百V l R>0】
误发现(false discoveries)”——发生的次数y上。希 比较FDR和pFDR两者的定义可知,pFDR是

望通过在显著性水平口范围内,控制“在m次检验 FDR的一种特例。 .

中至少发生‘错误发现’一次”的概率来控制多重假 Benjamini,Y.和Hoehberg,Y.(1995)给出FDR

设检验整体的错误。即控制 的定义时,考虑了pFDR无效的情形,他们认为,当
所有m个原假设均为真时,表2中的m。=m,那么,
pr(y≥1)≤a或pr(V>0)≤口
于是有了族错误率(FWER:Family.wise Error V=R,则pFDR=1。在这种情形下,无法选择显著

Rate):FWER=P(y≥1)的定义。族错误率(FWER) 性水平口,使得pFDR<口。
与PCER不同,它是一个概率值,表示的是m重检 Storey(2002)n1却认为,在实际问题中,m个原
验中至少犯一次I类错误的概率。 假设均为真的情形非常少,人们更关心的是当原假
对每一个假设都在显著性水平a/m下进行检 设中存在不真的情况下的假设检验问题。所有当

验,可以保证FWER=P(V≥1)小于或等于事先给 m—m。>0时,pFDR定义就具有广泛的应用。
定的Ot。 (三)多重假设检验的错误控制过程‘
4.错误发现率(FDR)。Benjamini,Y., 传统的多重假设检验主要是控制族错误率
Hoehberg,Y.(1995)b1提出的错误发现率(FDR)的 (肼ER:Family.wise Error Rate)。Holm(1979)首先
定义如下: 将检验p.值按小大次序排序,对经典Bonferroni过程

肋R:f【 E(志)=E(鲁)R≠o
进行改进,提出Holm逐步向下控制过程。随后,
Simes(1986),Hommel(1988)和Rom(1990)在此基
o R:o
础上对改进的Bonferroni过程进行了拓展。
其中,y表示m个检验中错误拒绝的个数,S表示m
在多重假设检验错误控制问题的研究过程中,
个检验中正确检验的个数,R表示m个检验中拒绝
具有里程碑意义的是错误发现率(FDR)的提出。
原假设的个数。定义表明:错误发现率(FDR)表示
FDR建立了一个全新的错误控制理论,1995年由以
的是m重检验R次拒绝中错误拒绝(犯I类错误)
色列Tel Aviv大学统计学教授Yoav Benjamini和
个数y所占比例的期望。
Hochberg共同提出(Benjamini,Y.,Hochberg,Y.,
FDR的定义是在多重假设检验过程中,错误拒
1995)b]。这篇文献现已成为多重假设检验问题理
绝(拒绝真的原(零)假设)的个数占所有被拒绝的原
论和应用研究的必引文献。FDR控制过程特别适
假设个数的比例的期望值。与控制FWER相比,控
用于大规模的多重比较和多重假设检验问题。本文
制FDR不仅提高了检验的功效,同时也改进了传统
主要介绍四种多重假设检验错误控制过程。
的多重假设检验过程过于保守的缺陷。
1.经典Bonferroni多重检验过程。考虑m重假
从FDR的定义中可以得到非常重要的两个性
设检验{日。,吼,…,巩},对于每个假设q,都有相
质[5]:(1)如果所有原假设全为真,即当m。=m时,
对应的P_值⑦P。,于是有{P。,P:,…,Pm}。现给
FDR=FWER。所以控制FDR意味着弱控制条件
定一显著性水平口,将每个假设平等对待,即将显著
下①可以控制FWER。
(2)当m。<lit时,FDR小于或等于FWER。所 性水平口除以m,以aim为标准,在{P,,P:,…巳}
中,若P;≤a/m,则拒绝H。(i=1,…,m),由
以,此时,任何控制FWER的过程同样也可以控制
FDR。不过,如果一个过程只能控制FDR,这或许有 Bonferroni不等式可得

些过于“严厉(stringent)”,但对于在实际检验中经常 ’

遇到的原假设中有绝大部分不真的情况下,这种检 ①m重假设检验的错误控制假设条件主要分成两种情形:弱
控制(weak contr01)和强控制(strong contr01)。弱控制是指m重假设检
验过程的势(power)会有所提高。
验中,所有的m个原假设全为真;而强控制是指m重假设检验中,肼
5.正错误发现率(pFDR:positive False Discovery
个原假设中有真有假(Shaffer,1995)[61。

Rate)。pFDR的定义为"1: ②实际为调整的.P值(AdjlIs。ed p-valu瞄),(sha舵r,1995)t引。

万方数据
第M卷第4期 期乐平等:多重假设检验及其在经济计量中的应用 ・29・

…,P.}。Benjamini,Y.,HochlⅪrg,Y.(1995)b1在
pr{U(Pi≤alto)}≤口(0≤口≤I))
Simes(1986)和Hochberg(1988)的基础之上提出的B.
经典Bonferroni多重检验过程具有简单和直观
H过程包括以下步骤:
的特点,由于没有分布的假设,便于应用。但是,因
步骤1:将{PI,P2,…,n l排序,设P(1)≤P(2)
为它将每个检验都同等对待,所以在多重假设检验
≤…≤P(.),相对应,m重假设检验变换为{日(I),
的维数m很大时,或部分检验具有强相关性时,检
日(2),…,日(。)};
验标准就会过于严格,检验过程就会显得过于保守,
导致检验的功效(power)较低。
步骤2:令矗=maxlk:Pc”≤》,l≤||I≤mj;
2.改进的Bonferroni多重检验过程。Holm
步骤3:从P㈧开始,按步骤2逐步向下检验;
(1979)首先将检验P-值按小大次序排序,对经典
步骤4:若存在满足步骤2的矗,则拒绝{日…,
Bonferroni过程进行改进,提出Holm逐步向下(step-
日(2),…,日(I)}。否则,不拒绝{日(1),日(2),…,
down)控制过程。即,在进行假设检验前,先将检验
日(。)}。
的P值按小大次序排序,记为P(1),P(2)…P(。)。然
在B.H过程基础上,Benjamini,Y.和其他学者
后对所有的J=1,…,i,判断P㈤≤a/(m—J+1)是
进行了不断的改进。如Benjamini,Uu(1991);
否成立,如果此式成立,则拒绝假设日㈤。
Benjamini,Yekutiel(2001)等在相依情形和与分布无
Simes(1986)在Holm检验的基础上对控制过程
关情形下对多重检验过程进行了拓展。
进行改进,对所有J=l,一・,m,判断P(,)≤ja/m是
4.pFDR多重检验过程。以上错误控制过程都
否成立,如果存在一个.『成立,则拒绝所有假设
遵循这样一个模式:在先给定错误控制水平——固
{日I,凰,…以}o
定第1类错误水平的前提下,基于单个假设检验,再
Hochberg(1988)提出了逐步向上(step.up)控制
通过错误控制过程构造出检验的拒绝域。最后,得
过程,以下式为标准,进行检验。当
出检验结果。

c)≤i■鼎口j(o≤口≤1)
r 1 1

.i}=maxi P c 而Storey(2001,2002,2003)¨o却提出了一种全新
的假设检验新思路:凭经验先给出拒绝域,然后去估
时,拒绝假设日(1),日(2),…日(I)。
计错误率。如果这个估计能够被接受,则认为该检
Hoehberg逐步向上控制过程可用以下过程图表示:

一日
验是有效的;如果错误率较大,可以通过调整拒绝域
使得错误率被控制在满意的水平。这种新方法无疑

毋。 提高了多重假设检验的实用性(裴艳波,2005)口J。

Storey利用pFDR给出了4.值的定义和算法:


对于一个观测统计量T=t,
q—value(t)= inf pFDR(L)。
’L;‘∈1:l


蓦固
三、在经济计量研究中的应用
建立经济模型、估计经济模型和检验经济模型
是经济计量学的主要内容,而估计和检验——统计

圆 推断的主要内容正是经济计量学方法的核心。所
以,统计学理论和方法的发展可以极大促进经济计
量学研究的发展。本文讨论的多重假设检验理论与
方法,虽然主要来源于基因芯片数据的统计分析研
究,但是由于在社会经济等领域中,同样也大量存在
类似的复杂数据。
3.FDR多重检验过程。考虑m重假设检验 (一)结构方程模型检验中的应用
{日。,耽,…,以},相对应的检验P-值为{P。,P:, 结构方程模型(SEM,Structural Equation

万方数据
・30・ 统计研究 2007年4月

Modeling)是一种通用的线性统计建模技术,已成为 “怀特真实性检验”(White’B ReMity Check),并成为


重要的多元统计分析方法,并日益受到广大研究者 实证分析中重要的检验工具。
的重视。Green S.B与Babyak M.A(1997)¨01将FDR
技术应用于结构方程模型的研究。他们对结构方程 参考文献
[1]Efron,B.Bayesiaas,Frequentists and Scientists[J].J.Am.Star.
模型中带约束条件的第1类错误的概率的控制进行
Assoe,2005,100:l一5.
了研究,提出了在结构性方程模型中评价带约束条件
[2]Miller,cJ.,Nich01.,RC.,Batuski,DJ.Acoustic oscillations in the

的多重检验和控制第1类错误的两种对比性的观点。 and
early universe today["J】.Science,2001,292(5525):2302--2303.
Green S.B与Babyak M.A(1997)¨叫的研究表明, [3]Brem,RB.,Storey,JD.,Whittle,J.and Krnglyak,L.Genetic

结构方程模型中一个标准策略是指在拒绝一个初始 interactions between polynmrphisms that affect gene expression in yeast

[J].Nature,2005,436:701—703.
模型以后实施拉格朗日乘数检验。通过这些检验控
[4]荀鹏程等.徽阵列数据的多重比较[J】.中国卫生统计,2006(1):
制第一类错误将模型中包含的不必要的附加参数的
5--8.
相似性最小化。在因子分析模型中用模拟试验数据
[5]Benjamini,Y.and Hochberg,Y.Controlling the false discovery rate:

评价第1类错误控制有三种方法:一是标准方法,即 A practical and powerful approach to


muhiple testing[J].J.Roy.

在0.05显著水平下检验每个参数;二是Bonferroni Statist.See.Ser.B,1995,57:289--300.

方法;三是同步检验过程(STP)方法。在具体的搜索 [6]Shaffer,JP.Multiple hypothesis testing:A review[J】.AmI|al Review

0f Psychology.1995.46:561--584.
中有三个因素需要处理:因子权重、样本容量和参数
[7]Storey,JD.A direct approach to false discovery m弛[J].J.R.Star.
个数。标准方法和STP(同步检验过程)方法分别产 Soc.Set.B Stat.Metllodol。2002,64:479_一498.

生极度自由的和极度保守的族误差率。但是 [8]Storey,JD.The positive false discovery rate:A Bayesian interptvlafion

Bonferroni方法产生接近正常水平的错误率。此后, and the q-vahe[J].Ann.Statist,2003,31:2013—2035.

Green SB,Thompson [9]裴艳波.多重假设检验问题中关于三种错误测度.FWER,FDR和


MS,Babyak,MA.(1998),Cribbie
pFDR的讨论[D]:[硕士学位论文].长春:东北师范大学,2005.
RA(2000)对结构方程模型的错误控制问题进行了
I with multiple 0f
[10]Green SB,Babyak。MA.Control of type errolB teats

更加深入的研究。
constraints in structural equation modeling[J】.MULTIVAR BEHAV

(二)金融计量分析中的应用 RES,1997(1):39-一51.
在经济和金融的实证研究中,不可避免的会卷 [“]Joseph,P.,Romano,Michael Wolf.Stepwise multiple testing∞

入所谓数据探察(data snooping)的困境中。经济研 formalized data snooping[J].Eeonometrica,2005(4):1237--1282.


[12】Lehmann,E L。,Joseph,P.and Romano.Generalizations of the
究显然与物理研究不同,无法设计出可以可反复再
familywise error rate[J].Ann.Statist,2005(3):1138--1154.
现的情形。用来分析的经济数据只能出现一次而不
能重复产生。经常碰到的问题是,面对单一的数据
作者简介
集,需要做出“最佳”的决策,或者在一定基准
刘乐平,江西省,41岁,男,2003年毕业于中国人民大学
(benchmark)下“较好”的策略。而这个基准可能是 统计学院,获经济学博士学位,现为天津财经大学统计系教
固定的也可能是随机的。 授,博士生导师,精算技术研究所所长,中国人民大学应用统
在经济计量分析中,特别是金融计量分析中,数 计科学研究中心兼职教授。研究方向为精算与风险管理、贝
据探察问题受到了许多研究人员的关注。如Cowles 叶斯经济计量学。

(1933),Leamer(1983),Lovell(1983),Lo and 张龙,湖北省,27岁,男,2004年毕业于北京大学数学


系,获理学硕士学位,现为天津财经大学统计系教师。研究方
MacKinley(1990)and Diebold(2000)等。在众多学 ’

向为统计理论与方法。
者当中,Halbert L.White教授成绩斐然。他在1999
蔡正高,安徽省。26岁。男,2005年毕业于安徽大学数学
年指出,经济计量分析中,数据探察可能会对结论造
系。获理学硕士学位,现为天津财经大学统计系教师。研究方
成的影响,他给出了如何校正造成错误的方法,并由
向为精算与风险管理。
此分析证券市场的技术交易法则的表现。2000年,
他在{Eeonometrica}上发表论文“A Reali哆Check for
(责任编辑:李峻浩)
Data Snooping”。该论文建立了如何校正数据探察错
误的理论基础。他所发展出来的检测方法现被称为

万方数据

You might also like