Professional Documents
Culture Documents
再谈外语定量研究中的效应幅度
再谈外语定量研究中的效应幅度
再谈外语定量研究中的效应幅度*
香港理工大学 魏日宁
提 要:效应幅度在使用推断统计方法的研究报告中的重要性不亚于显著性水平。 继外语学界
首篇呼吁重视效应幅度的论文之后, 本文从实用的角度讨论常见的参数和非参数推 断统计结果的
效应幅度之算法,提出若干操作上的注意事项,并强调效应幅度具有算 法多样化的特点。 效应幅度
与显著性水平就像一枚硬币的两面,它们相互补充而非取 代彼此,研究者在汇报和解释推断统计结
果时应充分重视两者。 我国的外语研究统计学书籍宜早日引入效应幅度的内容。
关键词: 效应幅度、效应度、显著性水平、外语定量研究、定量研究
[中图分类号] H313 [文献标识码] A [文章编号] 1003-6105 (2012 )04-0416-07
1. 引言 自报对每个术语的熟练程度, 可惜效应幅度
并不在这些常用术语之列。
效应幅度(effect size ) 反映“观察效果的 1
张少林(2009 :67 )注意到,我国外语定量
强 度 (the magnitude of observed effect )” 研究往往只用显著性报告推断统计的结果,
(Field 2009 :56 ),是经过标准化的客观指标。 “一直忽略效应幅度的计算与分析”, 因而导
国外学界早在半个世纪前就提出不宜只注重 致 “混淆了‘显著性’与‘重要性’的区别”这
推断检验的显著性, 并强调用效应幅度汇报 一“大缺陷”。 张少林文章(以下简称“张文”)
效果强弱(张少林 2009 :67 )。 尽管如此,国外 的意义是首次在我国外语类期刊上系统地讨
定量研究报告中缺报效应幅度的问题仍颇为 论效应幅度, 并用较通俗的语言介绍了常见
严重(Ellis 2010 :xiv )。 推断统计方法(t 检验等)的效应幅度算法。遗
我国学界忽视效应幅度的情况则更不容 憾的是, 张文在效应幅度的界定、t 检验效应
乐观,即使在对定量研究方法运用更频繁、更 幅度计算公式等方面的讨论有值得商榷之
纯熟的心理学领域也不例外。 根据焦璨等 处, 而且张文涉及的推断统计法 (除卡方检
(2010 :53 )对权威刊物《心理学报》和《心理科 验)均局限于参数分析方法。
学 》1998-2008 年 刊 发 论 文 所 用 的 统 计 方 法 本文拟讨论张文中可商榷和待完善之
的元分析,“绝大部分文章” 没有向读者提供 处, 并介绍常见非参数分析方法的效应幅度
效应幅度等重要信息。 据此,他们“强烈建议” 算法。 为使读者更形象地了解重视效应幅度
把汇报效应幅度作为论文接受、 发表的重要 的好处, 笔者在讨论完效应幅度的定义后先
标准。 在应用语言学领域,王立非(2002 :66 ) 呈现一个具体实例, 随后结合秦晓晴(2003 )
发现 “我国语言研究统计方法的运用比较薄 中的例子讨论具体的效应幅度算法。 秦晓晴
弱,定量方法有待提高”。 为了了解高校教师 一书是张文所列的五本统计学书籍中最新
和研究生对统计方法的熟练程度, 他在问卷 的, 而研究者未重视效应幅度主要是因为这
中 使 用 了 “25 个 统 计 学 常 用 术 语 ”让 受 访 者 些书籍“几乎都没有介绍‘效应幅度’这一重
*
作者衷心感谢《现代外语》匿名审稿专家、编辑同志、外交学院许宏晨副教授和 教 育 部 教 育 管 理 信 息 中 心 《世 界 教 育 信 息 》
主编熊建辉博士的宝贵建议。 文责自负。
1
Effect size 的 译 名 并 不 统 一 ,在 心 理 学 领 域 有 人 译 为 “效 果 量 ”(焦 璨 等 2010 ),而 在 教 育 等 领 域 有 人 译 为 “效 应 度 ”(丁 国
盛、李涛 2006 :150 )。
魏日宁 417
表1 七市外语阅读能力与全国均值的比较
地区 自由度 标准差 样本均值 均值差异 t值 p值 r值
北京(n1=486 ) 485 1.259 2.284 0.362 6.332 0.000 0.276
上海(n2=425 ) 424 1.174 2.172 0.249 4.380 0.000 0.208
天津(n3=125 ) 124 1.362 2.912 0.990 8.124 0.000 0.589
广州(n4=340 ) 339 1.210 2.059 0.137 2.079 0.038 0.004
深圳(n5=114 ) 113 1.205 2.553 0.630 5.583 0.000 0.197
重庆(n6=274 ) 273 1.087 1.975 0.052 0.794 0.428 0.048
大连(n7=190 ) 189 1.006 2.479 0.557 7.624 0.000 0.485
2
例如机会比率(odds ratio )这一效应幅度测度指标,有学者(如 Rosenthal & DiMatteo 2001 )认为它既不属于 d 族也不属于 r
族。
418 再谈外语定量研究中的效应幅度
3
张少林(2009 :70 )在介绍 d 的分界点时未提及 1 ,其实 d 的绝对值可能大于或等于 1 (Larson-Hall 2010 :116 ),尽管这种情 况
较少见(Leech et al. 2005 :46 )。
魏日宁 419
4
若此研究方向的文献发现该值属于较大的效应幅度范围 ,则秦晓晴(2003 :149 )的补充说明成立。 由于文秋芳(2001 )原文未
综述相关文献的效应幅度,秦晓晴仅基于显著性水平作出的解读欠妥。
420 再谈外语定量研究中的效应幅度
markers and their effects on listening comprehension in teaching and extra-curricular role plays.
The results show that the experimental group with explicit teaching of discourse markers had
significant improvements in the mastery of the forms and functions of discourse markers as well as
in the development of listening comprehension which the control group with implicit learning did
not have. Furthermore , in comparison with other subgroups , the improvements were greatest for
the low-scoring experimental subgroup. This indicates that explicit teaching of implicit spoken
grammatical knowledge can have a greater positive effect than implicit learning in EFL
interactional settings.
An investigation into the feasibility of equating multiple English test forms with the Rasch
Model , by Liu Jianda and Lǚ Jiantao , p.401
Different test forms are usually used in large-scale tests which last for several days to ensure
test security. The equality of these test forms , especially in terms of test difficulty is very important
to guarantee test fairness. Test equating is a normal practice to ensure the equality of the different
test forms. This paper explores the possibility of equating multiple test forms by using the Rasch
model. The results show that the Rasch model is applicable to the equating of up to 10 alternative
test forms. Critical issues in multiple test form equating are also discussed.
An empirical study of FL teachers ’ knowledge and psychology against the background of CBI
curriculum reform , by Xia Yang , Zhao Yongqing and Deng Yaochen , p.423
This study explores the effects of CBI (Content-Based Instruction ) curriculum reform on
foreign language teachers with regards to their knowledge and psychology. The findings reveal that
the teachers are lacking in content knowledge , though they value its acquisition. The teachers are
unsure about the sources of their Pedagogic Content Knowledge and pay little attention to its
acquisition. The majority of teachers in this survey claim high self-efficacy in teaching CBI
courses , while some teachers question their own identities as professionals. Stress , anxiety and a
sense of being lost appear in some CBI teachers. Pearson correlation analysis shows that there is a
significant positive correlation between teachers ’ knowledge and their psychology.