Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

2012 年 11 月 现代外语(季刊) November 2012

第 35 卷 第 4 期 Modern Foreign Languages (Quarterly ) Vol.35 No.4

再谈外语定量研究中的效应幅度*

香港理工大学 魏日宁

提 要:效应幅度在使用推断统计方法的研究报告中的重要性不亚于显著性水平。 继外语学界
首篇呼吁重视效应幅度的论文之后, 本文从实用的角度讨论常见的参数和非参数推 断统计结果的
效应幅度之算法,提出若干操作上的注意事项,并强调效应幅度具有算 法多样化的特点。 效应幅度
与显著性水平就像一枚硬币的两面,它们相互补充而非取 代彼此,研究者在汇报和解释推断统计结
果时应充分重视两者。 我国的外语研究统计学书籍宜早日引入效应幅度的内容。
关键词: 效应幅度、效应度、显著性水平、外语定量研究、定量研究
[中图分类号] H313 [文献标识码] A [文章编号] 1003-6105 (2012 )04-0416-07

1. 引言 自报对每个术语的熟练程度, 可惜效应幅度
并不在这些常用术语之列。
效应幅度(effect size ) 反映“观察效果的 1
张少林(2009 :67 )注意到,我国外语定量
强 度 (the magnitude of observed effect )” 研究往往只用显著性报告推断统计的结果,
(Field 2009 :56 ),是经过标准化的客观指标。 “一直忽略效应幅度的计算与分析”, 因而导
国外学界早在半个世纪前就提出不宜只注重 致 “混淆了‘显著性’与‘重要性’的区别”这
推断检验的显著性, 并强调用效应幅度汇报 一“大缺陷”。 张少林文章(以下简称“张文”)
效果强弱(张少林 2009 :67 )。 尽管如此,国外 的意义是首次在我国外语类期刊上系统地讨
定量研究报告中缺报效应幅度的问题仍颇为 论效应幅度, 并用较通俗的语言介绍了常见
严重(Ellis 2010 :xiv )。 推断统计方法(t 检验等)的效应幅度算法。遗
我国学界忽视效应幅度的情况则更不容 憾的是, 张文在效应幅度的界定、t 检验效应
乐观,即使在对定量研究方法运用更频繁、更 幅度计算公式等方面的讨论有值得商榷之
纯熟的心理学领域也不例外。 根据焦璨等 处, 而且张文涉及的推断统计法 (除卡方检
(2010 :53 )对权威刊物《心理学报》和《心理科 验)均局限于参数分析方法。
学 》1998-2008 年 刊 发 论 文 所 用 的 统 计 方 法 本文拟讨论张文中可商榷和待完善之
的元分析,“绝大部分文章” 没有向读者提供 处, 并介绍常见非参数分析方法的效应幅度
效应幅度等重要信息。 据此,他们“强烈建议” 算法。 为使读者更形象地了解重视效应幅度
把汇报效应幅度作为论文接受、 发表的重要 的好处, 笔者在讨论完效应幅度的定义后先
标准。 在应用语言学领域,王立非(2002 :66 ) 呈现一个具体实例, 随后结合秦晓晴(2003 )
发现 “我国语言研究统计方法的运用比较薄 中的例子讨论具体的效应幅度算法。 秦晓晴
弱,定量方法有待提高”。 为了了解高校教师 一书是张文所列的五本统计学书籍中最新
和研究生对统计方法的熟练程度, 他在问卷 的, 而研究者未重视效应幅度主要是因为这
中 使 用 了 “25 个 统 计 学 常 用 术 语 ”让 受 访 者 些书籍“几乎都没有介绍‘效应幅度’这一重

*
作者衷心感谢《现代外语》匿名审稿专家、编辑同志、外交学院许宏晨副教授和 教 育 部 教 育 管 理 信 息 中 心 《世 界 教 育 信 息 》
主编熊建辉博士的宝贵建议。 文责自负。
1
Effect size 的 译 名 并 不 统 一 ,在 心 理 学 领 域 有 人 译 为 “效 果 量 ”(焦 璨 等 2010 ),而 在 教 育 等 领 域 有 人 译 为 “效 应 度 ”(丁 国
盛、李涛 2006 :150 )。
魏日宁 417

要的测度值”(张少林 2009:67)。 此书例子典 幅 度 需 分 别 用 r 族 和 d 族 指 标 , 而 Larson-


型且分析精辟,在学界被广泛使用,但若能加 Hall (2010:116)提出“两者均可”。 笔者建议
入效应幅度,则能更好地惠及读者,更有利于 研究者根据其所在研究领域的情况, 优先使
国内外研究的接轨。 用前人研究中常用的指标;若有必要,可参照
d 族和 r 族指标之间的转换公式 (见 Larson-
2. 效应幅度的界定 Hall 2010 :117-119)换算。

张文提出效应幅度是 “变量间实际关系 3. 效应幅度的应用详例一则


关 联 强 度 的 测 度 值 ”。 Coe (2000:1, 转 引 自
Cohen et al. 2007:521) 把效应幅度界定为 中国语言文字使用情况调查是 1997 年
“对两组受试间差异的量化”。 这两种定义都 1 月 6 日国务院第 134 次总理办公会议决定
有偏颇:张文仅强调关联强度,Coe 仅突出差 开展的一项国情调查, 旨在了解我国语言文
异幅度。 笔者建议采用 Morgan et al. (2004 : 字使用的全面状况, 包括民众使用外语的信
89 ) 的 定 义 : 效 应 幅 度 测 度 “ 自 变 量 ” 和 “ 因 息。 中国语言文字使用情况调查领导小组办
变 量 ” 之 间 的 关 联 强 度 (strength of the 公 室 (2006,转 引 自 魏 日 宁 、苏 金 智 2011)已
relationship )和 / 或自变量不同水平所引致的 发布部分数据和技术报告, 一系列数据的深
因 变 量 的 差 异 幅 度 (magnitude of the 入分析报告也在陆续发表。 笔者参与撰写了
difference )。 该定义较为全面,它得到不少学 其 中 一 份 报 告 (魏 日 宁 、苏 金 智 2011),其 研
者 (如 Field 2009 :56;吴 明 隆 、涂 金 堂 2005: 究问题包括: 学过外语的中国人的外语阅读
74)的支持。 能力如何? 所选七市的情况与全国的情况是
据 Kirk (2003)估计,效应幅度具体测度 否存在显著差异?
指标高达 70 余种;它们大致 2 可分为 d 族和 相应数据来自入户调查问卷中 “您这种
r 族 两 类 ,前 者 除 了 常 见 的 Cohen’s d, 还 包 外语的阅读能力怎样”一题。 选项赋分如下:
括 Cohen ’s f2,Glass ’s delta ,Hedge ’s g 等,后 1= 看 不 懂 ,2= 能 看 懂 简 单 句 子 ,3= 大 致 能 看
者除了常见的相关系数 r 及 R2,还有 η2、ω2、 懂 简 易 读 物 ,4= 能 借 助 工 具 书 阅 读 书 刊 ,5=
Ф (phi)、Cramer ’s V 等 (Ellis 2010 :6-15; 能自由阅读书刊。 全国有效回答数是 60589,
Larson-Hall 2010 :115-120; Leech et al. 均值为 1.9223,标准差是 0.930。 上述研究问
2005:55-56)。 有人认为汇报关联强度和差异 题后半部分 的 分 析 方 法 为 单 样 本 t 检 验 ,对

表1 七市外语阅读能力与全国均值的比较
地区 自由度 标准差 样本均值 均值差异 t值 p值 r值
北京(n1=486 ) 485 1.259 2.284 0.362 6.332 0.000 0.276
上海(n2=425 ) 424 1.174 2.172 0.249 4.380 0.000 0.208
天津(n3=125 ) 124 1.362 2.912 0.990 8.124 0.000 0.589
广州(n4=340 ) 339 1.210 2.059 0.137 2.079 0.038 0.004
深圳(n5=114 ) 113 1.205 2.553 0.630 5.583 0.000 0.197
重庆(n6=274 ) 273 1.087 1.975 0.052 0.794 0.428 0.048
大连(n7=190 ) 189 1.006 2.479 0.557 7.624 0.000 0.485

2
例如机会比率(odds ratio )这一效应幅度测度指标,有学者(如 Rosenthal & DiMatteo 2001 )认为它既不属于 d 族也不属于 r
族。
418 再谈外语定量研究中的效应幅度

每次 t 检 验 结 果 (见 表 1)提 供 r 值 (计 算 公 的多种算法为例, 强调效应幅度有算法多样


式见 4.1 节)。 化的特点。
t 检 验 的 显 著 性 水 平 (p 值 )反 映 某 市 和 对 t 检验,Field (2009 :332 )坦承他“就是
全 国 均 值 差 异 存 在 的 可 靠 程 度 ,p 小 于 预 设 喜欢”用 r ,而王国 川 (2002 :34 )推 荐 用 η2 也
的显著性水平(如 0.05 )表明 “差异存在” 这 只是 “为了计算上的方便”。 Ellis (2010 :10-
一论断是较可靠的 (即较不可能是抽样等误 15) 指 出 除 了 d 和 η2,t 检 验 还 可 用 Glass ’s
差 引 起 的 ); 效 应 幅 度 (r 值 ) 反 映 “ 差 异 幅 delta 和 Hedge ’s g 作为效应幅度 测 度 指 标 ,
度”,r (绝对值)越大,表明某市均值和全国均 但未提 r 亦可用。 由于利用公式可便利地对
值的差距越大。 表 1 显示,尽管深圳、北京和 d 族 和 r 族 指 标 进 行 转 换 (Rosenthal &
天津对应的 p 值均为 0.000 ,但它们差异颇大 DiMatteo 2001 :71),采用何种具体的效 应 幅
的 r 值表明各市与全国均值的差异幅度存在 度测度指标并无刻板标准, 研究者宜优先采
较 大 差 异 ;这 有 助 于 厘 清 “p 值 越 小 于 0.05 , 用相关领域中前人研究常用的指标。 只要论
自变量对因变量的作用就越大, 或者两变量 文根据学术规范交代清楚必要的信息 (如均
的关系就越强”这类常见误解(张少林 2009 : 值、标准差、自由度等),无论研究者采用 d 、r
68)。 此外,尽管表面上北京与全国的均值差 还是 η2 等作为效应幅度的测度指标,读者均
异 (0.362 ) 小 于 深 圳 与 全 国 的 均 值 差 异 可以根据相关公式和判定标准去理解研究发
(0.630 ),但是北京的 r 值(0.276 )却大于深圳 现,进行跨研究的比较或元分析。
的 r 值(0.197 )。 这表明北京与全国的差异实 张文给出的计算 d 的公式是:
际上大于深圳与全国的差异; 若简单对比均
d = Mean1-Mean
2
2
(1 )
2
值差异而不利用标准化的效应幅度值, 就会 SD1-SD2
得出 “北京与全国的差异小于深圳与全国的
差异”这一截然相反的结论。
姨 2
而 Morgan et al. (2004 :90 )给出的公 式
表 1 的数据体现了外语定量研究中重 则是:
视效应幅度的好处。 效应幅度与显著性水平 Mean1-Mean2
d= 2
(2 )
其实是 一 枚 硬 币 的 两 面 ( Fan 2001 ),只 有 在 2
(n1-1 )SD1-(n2-1)SD2
定量报告中充分重视两者,才能更好地解读
数据。
姨 n1+n2-2
其 中 Mean1 和 Mean2、SD1 和 SD2、n1 和
n2 分别是两个样本的均值、标准差和样本量。
4. 常用参数推断统计结果的效应幅度计算 其实计算公式 (1) 是当两个样本量相等时
(n1=n2)公式(2 )的简化变体。换言之,公式(1 )
4.1 t 检验的效应幅度 的使用是有前提条件的(Morgan et al. 2004 :
对此类效应幅度, 张文称 “一般用 90),而张文对公式(1)未说明“两个样本量相
Cohen ’s d 公式”。 这里的 “一般” 尚需阐述 同”这一使用前提。
清楚。 研究者对某一推断统计检验的结果可 一言蔽之, 各种独立样本 t 检验和匹配
选择不同的效应幅度算法, 这种选择有一定 样本 t 检验均可使用公式(2 );而只有两组样
的主观性。 由于 t 检验是外语定量研究中的 本量相同时才可使用公式(1)。 d (绝对值)有
常用方法, 笔者将以 t 检验结果的效应幅度 1.0 (极大)3、0.8 (大)、0.5 (中)、0.2 (小)四个参

3
张少林(2009 :70 )在介绍 d 的分界点时未提及 1 ,其实 d 的绝对值可能大于或等于 1 (Larson-Hall 2010 :116 ),尽管这种情 况
较少见(Leech et al. 2005 :46 )。
魏日宁 419

考分界点(Leech et al. 2005 :56)。 必须指出, “Measures of Association”,其中有 η 和 η2 值。


本文所涉的各指标的分界点是仅供参考的一 秦晓晴(2003 :144-149 )用文秋芳(2001 )
般性判定标准, 某具体研究方向的研究者们 的数据在 SPSS 中进行独立样本 t 检验,发现
完 全 有 可 能 提 出 另 一 套 判 定 标 准 (Ellis 男生和女生在 “第四学期课外学英语时间”
2010 :35-42 )。 (学生努力程度指标)这一变量上“有显著性
对独立样本 t 检验和匹配样本 t 检验,王 差 异 ”(t (70 ) = -2.576 , p=0.012 ), 由 于 女 生
国川(2002 :34-100 )推荐使用 η 作为效应幅 2
在均值上高于男生,作者得出的结论是女生
度的测度指标,但对应的公式(从略)稍有不 比男生更努力地学习英语 ;作者最后还特别
同。 Cohen (1988 ,转引自王国川 2002 :34 )提 补 充 道 ,“但 如 果 将 男 生 和 女 生 的 英 语 四 级
出 0.20 (很大)、0.14 (大)、0.06 (中)、0.01 (小) 成绩进行比较会发现一个有趣的现象 :这两
四个参考分界点。 η 值还可以表示“自变项 2
组的成绩没有显著性差异 ,说明男生虽然课
可以解释依变项之变异数多少百分比”(吴明 外花的时间少于女生, 但学习效率比女生
隆、涂金堂 2005 :75)。 如讨论性别(自变量) 高 ”。 如 果 对 本 例 套 用 公 式 (3 ), 会 得 到 r =
对英语成绩(因变量)的 影 响 时 ,在 t 检 验 结 0.29 , 若外语学习性别差异领域的文献发现
果达显著水平后计算 η2 值得 0.10 ,则表示性 该值属于较小的效应幅度范围 4, 则对学生
别可以解释英语成绩的 10% 的差异,性别的 成绩可有不同的解读:尽管男生女生的努力
效应幅度介于中到大之间。 程度达统计意义上的显著差异 (见 p 值),但
对独立样本 t 检验、匹配样本 t 检验和单 差异幅度较小(见 r 值),这一定程度上 可 解
样 本 t 检 验 三 类 ,Field (2009 :332-341 ) 均 推 释为何两组学生的成绩没有显著性差异 ;换
荐用 r 作为效应幅度的测度指标: 言之,两组成绩无显著差异未必可归因为学
t 2 习效率。
r=
姨 t +df
2
(3 )
4.2 方差分析的效应幅度
公 式 (3 )所 需 的 t 值 和 自 由 度 (df ) 可 在 张文提 出 用 η2 作 为 单 因 素 方 差 分 析 结
SPSS 的输出表格中找到。 据 Cohen(1988 ,转 果 的 效 应 幅 度 , 随 后 说 “SPSS 在 One-way
引自 Field 2009 :57 )的建议,r (绝对值)的大、 ANOVA 命令中不提供此结果”,接着列出公
中、小分界点是 0.5 、0.3 、0.1 。 式主张手动计算。 其实在 SPSS 中进行单因
此外,张文中 “SPSS 未提供 t- 检验显著 素方差分析, 不仅可通过张文给出的
性水平的效应幅度” 这一陈述需要修订。 对 Compare Means 圯 One-way ANOVA 过 程
独立样本 t 检验, 若用 η 测度效应幅度,则 2
实现,还有如下两种操作。
可用 SPSS 计算。 吴明隆、涂金堂(2005 :345- 其 中 一 种 是 :Analyze 圯 General Linear
349) 给 出 了 两 套 操 作 步 骤 , 其 中 之 一 为 : Model 圯 Univariate , 在 Means 对 话 框 选 择
Analyze 圯 Compare Means 圯 Means, 在 好自变量和因变量后, 按右下角的 Options ;
Means 对话框选择好自变量和因变量后,按右 此 时 出 现 “Means : Options ” 次 对 话 框 , 勾 选
下 角 的 Options; 此 时 出 现 “Means: Options” 下方的“Anova table and eta ” 后按 Continue ,
次对话框,勾选下方的“Anova table and eta” 回到主对话框后运行检验。 这样 SPSS 输出
后按 Continue,回到主对话框后运行检验。 这 的 多 个 表 格 中 有 一 表 名 为 “Measures of
样 SPSS 输 出 的 多 个 表 格 中 有 一 表 名 为 Association ”,其中有 η 和 η2 值。

4
若此研究方向的文献发现该值属于较大的效应幅度范围 ,则秦晓晴(2003 :149 )的补充说明成立。 由于文秋芳(2001 )原文未
综述相关文献的效应幅度,秦晓晴仅基于显著性水平作出的解读欠妥。
420 再谈外语定量研究中的效应幅度

另 一 种 在 Compare Means 圯 Means 过 秦晓晴(2003 :283-285 )还用 Wilcoxon signed


程中实现(详见秦晓晴 2003 :171-175 )。 秦晓 ranks 检验讨论这 72 名受试在第一学期和第
晴 (2003 :161 ) 用 一 个 假 设 性 例 子 说 明 如 何 四学期每周课外花在英语学习的平均时间是
用单因素方差分析检验三种不同的外语教 否有显著差异,发现 Z=-2.604 ,p=0.009 。 若用
学方法的效果差异。 他在 Options 次对话框 公 式 (4 )算 得 r=0.22 ,据 r 值 的 一 般 性 标 准 ,
中 勾 选 了 “Anova table and eta ”(p. 172 ), 指 此差异幅度为小。 必须强调,相关研究领域中
出 η 和 η2 “ 测 量 的 是 变 量 间 关 联 的 程 度 ” 若已有一套特定的判定标准, 则不宜采用一
( p. 174 )。 他虽未使用 “效应幅度” 这 一术 般性标准来解读。
语,但在行文中已给出其测度值。 但据上文对 5.2 三个及以上样本的差异显著性检验的效
效应幅度的界定,宜说明 η 在本例中测量的 2
应幅度
是“差异幅度”。 若样本是独立的,可用 Kruskal-Wallis H
检 验 ; 若 样 本 是 匹 配 的 , 则 用 Friedman ’s
5. 常用非参数推断统计结果的效应幅度 ANOVA 检验 (Corder & Foreman 2009 :4)。
对 Kruskal-Wallis H 检验, Field (2009 :570 )
5.1 两个样本的差异显著性检验的效应幅度 提出:1 )用公式(4 )可算出效应幅度值,但它
参数推断统计方法往往要求数据满足正 描述的是一种笼统的差异效果。 2 )H 检验若
态性等前提假设,若假设无法被满足,常需用 达到统计上的显著性水平, 则需进一步进行
对应的非参数方法(丁国盛、李涛 2006 :234 ; 样本的两两 Mann-Whitney U 检验, 以确认
Field 2009 :540)。 与 独 立 样 本 和 匹 配 样 本 t 差异究竟存在于哪一对或哪几对样本之间 ;
检 验 分 别 对 应 的 非 参 数 法 是 Mann-Whitney 对差异达到显著性的两两 U 检验可用公式
U 和 Wilcoxon signed ranks 检验 (Corder & (4 )计算效应幅度,如此得来的效应幅度值反
Foreman 2009 :4)。 两种检验均可用公式(4) 映了更具体的差异效果, 因此更有用。 Field
计算效应幅度: (2009 :579 ) 对 Friedman ’s ANOVA 检 验 亦
Z 有 类 似 的 观 点 ,Larson-Hall (2010 :385 ) 也 给
r= (4 )
姨n 出了同样的建议。
其 中 Z 是 SPSS 生 成 的 表 格 中 的 Z 分 对 Kruskal-Wallis H 检 验 ,Cohen (2008 :
值,n 是观测值总数。 需要注意的是,n 未必总 750 )则建议用 η2 作为效应幅度(公式略)。 这
是等于受试人数。 若对 30 名学生进行外语学 再次体现出效应幅度的算法多样化。
习动机的问卷调查, 同一份问卷在学期初和 Field (2009 )建议三个及以上样本笼统的
学期末对每位同学各施测一次, 随后进行前 效应幅度情况需转为两两样本间的效应幅度
后两次总分的(匹配样本)差异显著性检验, 情况来讨论。 Kline (2004 )则无类似的偏向,
则观测值总数为 60 , 而非受试人数 30 (Field 他建议要么汇报一个笼统的效应幅度, 要么
2009 :550-558 )。 r 值的一般性判定标准同第 汇报两两样本比较的效应幅度, 但不宜同时
4 节。 汇报两类效应幅度。 而 Volker (2006 )却建议
秦晓晴(2003 :292-294 )对文秋芳(2001 ) 同时汇报两类效应幅度。 换言之,学界对效应
的原始数据用 Mann-Whitney U 检验探讨不 幅度汇报方式尚无共识。 因此,研究者做决定
同性别大学生(男 15 ,女 57 )入学时英语成绩 时,最好首先考量研究目的和数据,其次是考
是否有差异,发现 Z=-1.044 ,p=0.296 。 若套用 量前人研究的做法。 秦晓晴(2003 :295-296 )
公 式 (4 ), n 为 72 , 得 r=0.12 , 据 r 值 的 一 般 用 Kruskal-Wallis H 检 验 三 组 共 15 名 不 同
性判定标准,男女生平均分的差异幅度颇小。 努力程度的学生的成绩差异。 在此例中,若研
魏日宁 421

究者像秦晓晴那样仅关注三组之间是否存在 其值越接近 1 (0 ),表明变量间的关联性越强


差异,那么基于他提供的 H 值(7.62 ),套用公 (弱)。 Muijs (2004 ,转引自张少 林 2009 :70 )
式 (4 ),得 η = 0.468 ,据 η2 的 一 般 性 标 准 (见 提出教育学界可参考的四个分界点为 0.8 (极
第 4.1 节),该效应幅度非常大。 但若研究者 强)、0.5 (强)、0.3 (中)、0.1 (有限)。 尽管秦晓
旨在了解显著差异存在于哪一(几)组之间, 晴 (2003 :139 )书 中 也 呈 现 了 张 文 的 图 2 , 但
则需用 Mann-Whitney U 检验考察每两组的 他未提及效应幅度, 亦未区分上述指标的适
情况(见 5.1 节)。 用情况。
5.3 卡方检验的效应幅度
张文在“列联卡方检验效应幅度计算”一 6. 结语
节中介绍了六种常用测度值,它们可在 SPSS
中 Crosstabs 过程下的 Statistics 备选框(张文 效应幅度涵盖“关联强度”和“差异幅度”
图 2 )中找到。 但需注意:两个变量均为称名 两种情况,它有算法多样化的特点。 在效应幅
变量时,张文仅说“一般用 phi and Cramer ’s 度测度指标的具体操作上, 本文提出的注意
V 或 Lambda”。 其实 phi 值只适用于 2×2 列 事项包括:
联表 (即有两个变量, 每个变量各有两个层 1) t 检验常用 Cohen ’s d、r 或 η2; SPSS
次 );contingency coefficient 适 用 于 3×3 、4×4 只 能 计 算 η2;d 和 r 需 分 别 参 照 公 式 (2 )和
这类较大的正方形列联表。 Cramer ’s V 适用 (3 )计算;
于除了 2×2 列联表以外的所有情况,特别是 2 ) 单 因 素 方 差 分 析 常 用 η2 , 可 通 过
长方形列联表(即行、列变量的层次数不同) SPSS 计算;
( Morgan et al. 2004 : 99-105 ; 吴 明 隆 、 涂 金 3) Mann-Whitney U 检 验 和 Wilcoxon
堂 2005:287-288)。 Lambda 和 uncertainty signed ranks 检验可用 r,参照公式(4)计算;
coefficient 的使用和解读较复杂, 有兴 趣 的 4) Kruskal-Wallis H 检验等涉及三个及
读者可参考吴明隆、涂金堂(2005 :313 )的 实 以上样本的非参数检验, 若有必要可转为两
例。 两样本间的效应幅度情况来讨论, 或仅通过
两个变量均为顺序变量时, 虽然亦可用 公式(4 )计算一个笼统的效应幅度值;

SPSS 中 Nominal 复 选 框 中 的 效 应 幅 度 测 度 5) 对于卡方检验,SPSS 提供的多个指标


指标,但最好还是在 Ordinal 复选框中选用适 各有适用条件。
当的指标。 Ordinal 复选框中的四个指标的关 虽然具体选择何种测度指标有一定的

系 是 :Gamma 系 数 经 改 进 后 得 Kendall ’s 主观性, 但研究者宜优先采用相关领域中


前人研究常用的指标。 为了更好地解读推
tau-b , 后 者 的 改 进 形 式 有 Somers ’d 和
断统计数据, 研究者需充分重视显著性和
Kendall ’s tau-c 两种 (张文彤 2002:263 );这
效应幅度, 这是统计学的新近发展对包括
就 解 释 清 楚 了 张 文 所 言 的 “Gamma 比 较 宽
外语研究在内几乎所有社会科学领域的新
松,Kendall ’s tau-c 比较严格”这一关系。 另
要 求 ( Ellis 2010 : xiv , 24 , 30 )。 有 鉴 于 此 ,
外 , 上 面 提 过 SPSS (Analyze圯Correlation圯
我国相关的统计学书籍宜早日引入效应幅
Bivariate 过 程 ) 可 计 算 Kendall ’s tau-b 和
度的内容。
Spearman 两种相关系数(均可做效应幅度测
度指标),它们的区别是前者往往适用于受试 参考文献
人 数 较 少 的 情 况 ( 吴 明 隆 、 涂 金 堂 2005 : Cohen , B. H. 2008. Explaining Psychological
243 )。 rd
Statistics (3 edition ) [M ]. Hoboken , N. J. :
上述指标的绝对值均介于 0 至 1 之间, John Wiley & Sons.
422 再谈外语定量研究中的效应幅度

Cohen , L. , L. Manion & K. Morrison. 2007. methods for literature reviews [J ]. Annual


Research Methods in Education (6th edition ) Review of Psychology 52 : 59-82.
[M ]. London : Routledge. Volker , M. A. 2006. Reporting effect size estimates
Corder , G. W. & D. I. Foreman. 2009. in school psychology research [J ]. Psychology in
Nonparametric Statistics for Non-statisticians : A the Schools 43 : 653-672.
Step-by-step Approach [M ]. Hoboken , N. J. : 丁 国 盛 、李 涛 ,2006 ,SPSS 统 计 教 程——
—从 研 究 设 计
Wiley. 到数据分析[M ]。 北京:机械工业出版社。
Ellis , P. D. 2010. The Essential Guide to Effect Sizes : 焦 璨、黄泽娟 、张 敏 强 、吴 利 、王 宣 承 ,2010 ,心 理 研
Statistical Power , Meta-analysis and the 究 中 统 计 方 法 应 用 的 元 分 析——
—以 《心 理 学 报 》
Interpretation of Research Results [M ]. 《 心 理 科 学 》 (1998-2008 ) 统 计 方 法 应 用 为 例
Cambridge : Cambridge University Press. [J ]。 心理科学(1 ):48-54 。
Fan , X. 2001. Statistical significance and effect size 秦 晓 晴 , 2003 , 外 语 教 学 研 究 中 的 定 量 数 据 分 析
in education research : Two sides of a coin [J ]. [M ]。 武汉:华中科技大学出版社。
Journal of Educational Research 94 : 275-282. 王 国 川 ,2002 , 图 解 SAS 在 变 异 数 分 析 上 的 应 用
Field , A. 2009. Discovering Statistics Using SPSS (3rd [M ]。 台北市:五南图书出版股份有限公司。
edition ) [M ]. London : Sage. 王 立 非 , 2002 ,应 用 语 言 学 统 计 研 究 方 法 的 实 证 调
Kirk , R. E. 2005. The importance of effect magnitude 查——
—态度与实践[J ]。 外语研究(1 ):66-70 。
[A ]. In S. F. Davis (ed. ). Handbook of Research 魏 日 宁 、 苏 金 智 , 2011 , 中 国 大 城 市 外 语 使 用 情 况
Methods in Experimental Psychology [C ]. 调 查 分 析 :以 北 京 、上 海 、天 津 、广 州 、深 圳 、重
Oxford : Blackwell , 83-105. 庆 和 大 连 为 例 [ J ]。 外 语 教 学 与 研 究 ( 6 ): 924-
Kline , R. 2004. Beyond Significance Testing : 933 。
Reforming Data Analysis Methods in Behavioral 文秋芳,2001 ,英 语 学 习 者 动 机 、观 念 、策 略 的 变 化 规
Research [M ]. Washington : American 律与特点[J ]。 外语教学与研究(2 ):105-110 。
Psychological Association. 吴明隆、涂金堂,2005 ,SPSS 与统计应用分析[M ]。 台
Larson-Hall , J. 2010. A Guide to Doing Statistics in 北:五南图书出版股份有限公司。
Second Language Research Using SPSS [M ]. 张 少 林 ,2009 ,效 应 幅 度 :外 语 定 量 研 究 不 能 忽 视 的
New York : Routledge. 测度值[J ]。 外语教学理论与实践(3 ):67-70+96 。
Leech , N. L. , K. C. Barrett & G. A. Morgan. 2005. 张 文 彤 ,2002 ,SPSS11.0 统 计 分 析 教 程 ( 基 础 篇 )
SPSS for Intermediate Statistics : Use and [M ]。 北京:北京希望电子出版社。
Interpretation (2nd edition ) [M ]. Mahwah , N.
J. : Lawrence Erlbaum Associates. 收稿日期:2011-08-05 ;
Morgan , G. A. , N. L. Leech , G. W. Cloeckner & K. 作者修改稿,2012-03-22 ;
C. Barrett. 2004. SPSS for Introductory Statistics : 本刊修订,2012-09-06
Use and Interpretation (2nd edition ) [M ]. 通讯地址: 香港 九 龙 红 磡 香 港 理 工 大 学 人 文 学 院 中
Mahwah , N. J. : Lawrence Erlbaum Associates. 文及双语学系
Rosenthal , R. & M. R. DiMatteo. 2001. Meta- <tonydingdang@hotmail.com>
analysis : Recent developments in quantitative
438

markers and their effects on listening comprehension in teaching and extra-curricular role plays.
The results show that the experimental group with explicit teaching of discourse markers had
significant improvements in the mastery of the forms and functions of discourse markers as well as
in the development of listening comprehension which the control group with implicit learning did
not have. Furthermore , in comparison with other subgroups , the improvements were greatest for
the low-scoring experimental subgroup. This indicates that explicit teaching of implicit spoken
grammatical knowledge can have a greater positive effect than implicit learning in EFL
interactional settings.

An investigation into the feasibility of equating multiple English test forms with the Rasch
Model , by Liu Jianda and Lǚ Jiantao , p.401
Different test forms are usually used in large-scale tests which last for several days to ensure
test security. The equality of these test forms , especially in terms of test difficulty is very important
to guarantee test fairness. Test equating is a normal practice to ensure the equality of the different
test forms. This paper explores the possibility of equating multiple test forms by using the Rasch
model. The results show that the Rasch model is applicable to the equating of up to 10 alternative
test forms. Critical issues in multiple test form equating are also discussed.

A corpus-based study on lexical patterns in simultaneous interpreting from Chinese into


English , by Li Dechao and Wang Kefei , p.409
This paper examines whether Laviosa ’s (1998 ) corpus-based findings on vocabulary patterns
in translations are evident in the self-developed corpora BICCSL. Our study shows that in
interpreted texts , as compared to translational texts , the proportion of high frequency words versus
low frequency words is relatively higher , and the lexical density is lower. These two lexical
features support “simplification ” universal in interpreting. But the study also reveals that in
interpreted texts , the average word length , sentence length and the degree of nominalization are
higher , which suggests a more formal , difficult and objective style in interpreted texts. It is
proposed that these two contradictory findings result from inherent differences between translation
and interpreting , and from interpreters ’ customized vocabulary lists and professional ethics.

Effect size in L2 quantitative research revisited , by Wei Rining , p.416


The role of effect size is as important as , if not more important than , that of significance
level in studies utilizing inferential statistical methods. Based upon the first paper on effect size
published in Chinese L2 research journals , this article further expounds the concept of effect size
and challenges some points raised in that paper. It discusses procedures for calculating effect size
measures for some commonly used methods , highlighting that a certain method may correspond to
more than one effect size measures. It suggests that effect size largely complements significance
level , and therefore should be incorporated into statistics textbooks for L2 studies published in
China as soon as possible.

An empirical study of FL teachers ’ knowledge and psychology against the background of CBI
curriculum reform , by Xia Yang , Zhao Yongqing and Deng Yaochen , p.423
This study explores the effects of CBI (Content-Based Instruction ) curriculum reform on
foreign language teachers with regards to their knowledge and psychology. The findings reveal that
the teachers are lacking in content knowledge , though they value its acquisition. The teachers are
unsure about the sources of their Pedagogic Content Knowledge and pay little attention to its
acquisition. The majority of teachers in this survey claim high self-efficacy in teaching CBI
courses , while some teachers question their own identities as professionals. Stress , anxiety and a
sense of being lost appear in some CBI teachers. Pearson correlation analysis shows that there is a
significant positive correlation between teachers ’ knowledge and their psychology.

You might also like