Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 17

BCN3112 语文测验原理与实施

单元(三) 语文测验的过程

3.0 内容提要
本单元涵盖四个小课题,即设计测验蓝图、编制测验试卷、实施与评分与测验结果的
分析。

3.1 预期学习成果
学习了这个单元后,你将能够:
1. 设计测验蓝图
2. 编制测验试卷
3. 列明测验实施与评分的一般程序
4. 正确分析测验的结果

3.2 单元概念架构

语文测验的过程

a. 设计测验蓝 b. 编制测验试卷 c. 实施与评分 d 测验结果的分析


- 确 - 基本要求 - 测量质量的分析
- 试场组织管理
定测验目的 - 试题的编排 - 测验的评分 - 测验分数的解释
- 制定测验大纲 - 复份试卷的编排 - 影响评分的 百分等级
- 编制双向细目 因素 标准分数
表 - 提高评分客 - 教学情况的分析
观性的方法

阅读材料
BCN3112 语文测验原理与实施

A 语文测验蓝图的制定

确定测验目的

从总体上明确所要测验的知识和能力。例如考查对课文的理解、运用语文知识的
能力,或推力思考能力。这也可明确测验的功能。如:选拔新生、将学生分班分组;
评价教学质量、诊断学习困难。
这可分为三个部分:分数解释参照标准、目标要求以及实施时间和功能。
分数解释参照标准的类型有常模参考测验以及目标参照测验。常模参考测验是
用来衡量学生在某一集体中的成绩地位。把学生成绩与某规定集体的平均状况进行比
较,从而确定学生在这一集体中的地位。它主要用以鉴别学生语文学习的个别差异,
客观的评出孰优孰劣。竞赛、选拔性测验属于常模参考测验。这项测验的要求目标陈
述可具体,可抽象;内容范围较广,每一内容的试题很少。这通常用在选择题;试题
难度适中,要有较高的区分度。这也可用传统的方法来估计信度。
而目标参照测验是用来衡量达成教学目标的程度。它把学生的学习情况与预先设
定的语文教学目标要求比较,指名学生完成教学目标的程度。通常把掌握教学目标中
60%的内容定为及格分。其中测验、单元测验属于目标参照测验。标参照测验要求目标
陈述具体;内容范围较窄,每一内容的试题很多。这项测验较少用选择题;难度不计,
区分度可低;不可用传统的方法估计信度(因测验分数离差小)。
第二个分类是目标要求。这项分类也可分成两个类型。第一是难度测验。这适合
用来衡量能力的高低。一般要求有答题时间充裕,题目难度有等级差别,其中有一定
难度的试题要占较大的比重。第二个类型是速度测验。它是用来衡量解决问题的速度。
这项的要求是答题时间有严格限制,无法完成全部试题,题目难度一致。
最后一个分类是实施时间和功能。它可分为四个类型。第一是安置性测验。在
一个新的教学阶段开始之前进行,以具体了解学生是否具有学习新的语文内容所必备
的知识和能力基础,或了解学生对于新教学内容的掌握情况,为按水平分组、分班,
设计教学计划提供依据。如果测验发现,学生缺乏进一步学习的基础,必须补课;如
新内容已为大多数同学掌握,则应加快教学进度,跳过某些内容。这项测验是用来衡
量学习基础,为制定教学计划、分班分组提供依据。它的要求有内容包括学习前基础
知识和能力,选择新课程代表性样本;各试题难度不一,但总体上较低。
第二是形成性测验。在教学过程某特定的阶段进行,以了解学生在这一阶段达到
语文教学目标的程度,发现存在的问题,调整教学过程。期中测验即为形成性测验。
BCN3112 语文测验原理与实施

它是为了了解学生教学内容的掌握情况。它要求内容包括所有的教学目标或最必要的
目标,紧扣教学大纲,教材内容,配合单元目标的难度。
第三是诊断性测验。在形成性测验后已知学生存在着学习困难,但又不知症结之
所在时进行。目的是找出困难的症结,从而采取相应的补救措施,使得教学得以正常
的进行。它是为了诊断学习困难及其原因。这项测验是以学生共同的学习错误为依据,
内容较少,难度较低。
最后是总结性测验。在一个学期、一个学年或一个更长时间的学习结束后进行,
以了解学生经过一个完整阶段预测的作用。如期末或升学,语文测验,既是全面评定
学生语文学习的成果,又为升学、留级、编班分组提供依据。的学习是否达到语文教
学目标而进行全面的总结性评定。总结性测验实际上能起到它是全面评定学习成绩。
这项测验的要求有选择课程目标的代表性样本,题目难度分散,范围广。

制定测验大纲
测验大纲的制定工作包括决定试卷的组成部分,个部分比例,相对重点,题目
主要形式、数量,测验方法及时间安排等。测验大纲主要供试卷的编制者使用,但一
般情况,可向学生公开,便于学生有针对性的复习。如英国文化协会和爱丁堡大学为
制定语言测试规格列出以下内容条目:
1. 对象、目的和要求
2. 试卷结构:测试时间、测试项目、各项目要求、得分比例
3. 项目结构:各项目具体要求、题量、试题形式时间、得分比例等。如有可能,
还需各举一例说明试题形式和难度。
4. 试题与答案界限:如,试题行文不得超过多少词汇量;答案要求在四个正确答
案中选择一个最佳答案,还是区别一个正确答案与三个错误答案;回答问题或
作文不得超过多少词或字。
5. 附件:如,制定测试规格表,测试的各项具体内容以供命题人员从中抽样编制
试题。

编制双向细目表
双向细目表指明测验的知识内容、水平两个方面及其各自所占的相对比重。
确定知识内容,首先应按“整体-局部-整体”的分析过程,理清教材的知识体系。从
整体到局部易于把握局部在整体中的地位、明了整体对局部的要求,同时将教材分析
细致;从局部到整体,易于将教材的各部分有机地联系起来。对语文教材的分析有这
样的过程:所有语文教学—中小学各阶段语文教学—各年级各学期语文教学—各单元
BCN3112 语文测验原理与实施

语文教学—各课文教学(包括课文、注释、思考题、基础训练)。在分析教材的基础
上,列出知识体系框架图。以下是朱川彬等人归纳的初中语文第一册阅读部分的知识
体系:
1. 字的知识:183 个生字的音形义和三种构字法。
2. 词的知识:433 个词(包括文学词语、成语、专门名词)以及成语和双音节合
成词的构词方法。
3. 句的知识:练词造句的方法和修辞方法。
4. 篇的知识:段落结构、故事情节、人物性格、中心思想、表现方法等。如记叙
文主要有记叙要素、观察和记叙、记叙的顺序、记叙和描写;议论文主要是有
理有据、用事实证明观点;说明文主要是抓住特征和说明顺序;文言文的字、
词、句可分别归到前三类。
5. 拼音和标点。
6. 文学常识:作家、作品及一些文学体裁。

其次,把整个教学内容划分为一个个独立的知识点。知识点即相对独立的知识
单元,其大小是相对而言,如有时课把识一个字作为知识点,有时又可把识几个字作
为一个知识点。知识的大小,直接关系到测验的详略。知识点的划分必须考虑到各种
测验目标的不同特点,形成性测验以 8-15 个知识点为宜。诸多的知识可按教材章节、
前后内容依次排列,如第一单元、第二单元等等,但这种方法缺乏概括性,条理性不
强。另一种方法从整体上把学科内容划归为相对独立的几个部分,如识字写字、听话
说话、阅读、作文等。
最后,确定相应的学习水平。当中有六个六个学习水平那就是识记、理解、应
用、分析、综合、评价。识记是记忆先前学过的材料。目标:知道具体事物名称、普
遍原理、方法、过程、模式、结构等。理解是掌握意义能力。理解事实和原理、法则,
解释语言材料、图像,对要点做出分类、摘要、归纳;将材料从一种形式转换成另一
种形式;推理未来的结果;确定方法和程序。应用是在特定的情况下,对抽象概念的
使用。这些抽象概念可能是一般的观念、程序的规则、概括化的方法,也可能是专门
性的原理、观念和理论。分析是将材料分解成部分,以了解它的组织结构。综合是将
所分解的各个要素或组成部分组合成一个整体。是对各个要素或各个组成部分进行加
工的过程和进行排列组合以构成一个比较清楚的模式或结构的过程。(综合知识解决
问题;写出组织得很好的作文;制定计划或提出方案)评价是根据一定目的判断材料
价值的能力。也就是说,对材料和方法符合标准的程度所作出的定量或定性的判断。
BCN3112 语文测验原理与实施

编制双向细目表的具体步骤如下。第一,逐条将教学知识内容填入细目表左端
纵行里所列的教学知识内容应包括语文教材的基本内容,是测验有足够的覆盖率,保
证测验内容的效度。第二,对教材内容加权。根据教学内容相对重要性或授课时数,
分配适当的加权。加权一百分比表示。各内容权重之和为 100 或 100%。第三,逐条将
认知能力填入细目表的上端横行里。第四,对认知能力加权。根据语文学科知识特点,
确定认知目标的相对重要性,并分配权重。由于“识记”目标易于测量,在分配权重
时应避免予过高的权数,否则会促使学生死记硬背,抑制语文能力的发展,最后影响
到语文教学目标的实现。一般的学业成绩测验,各级认知目标的试题在整份试卷中以
如下的比例分配为宜:知识 15%,理解 25%,应用 30%,分析 15%,综合 10%,评价
5%。在对认知目标加权时,还应注意随年级的升高,逐步重视后面几个层次的认知目
标。最后将列出的权重系数填入细目表的下端横行的“合计”栏中。
编制双向细目表的接下来的具体步骤是确定表内空格的权重系数。从理论上讲,
各空格的权重系数应依如下的原则确定教学知识内容权重乘以教学认知目标权重,然
后再除以总分。如学生“阅读”部分权重为 18,“理解”认知目标的权重为 30,两者
乘积为 18 乘以 30 再除以 100 等于 5.4,阅读内容用以测“理解”这一认知水平的比重
应为 5.4%。但是,由于各教学内容对于各认知目标的可测性是不一致的,如作文不宜
测“理解”却宜测“综合”,识字不易测“评价”而易测“识记”,所以确定表内空
格的权重系数时不能过分拘泥于上述计算所得比例。在保证总权数分配没有太大偏离
的情况下,可根据定性分析灵活调节各权重系数。以下是一个较为典型的语文测验双
向细目表:
知识 识记 理解 应用 分析 综合 合计
语音 2 0 6 0 0 8
识字 0 0 5 7 0 12
词语 0 6 2 7 0 15
句子 0 0 9 6 0 15
阅读 6 12 8 4 0 30
作文 0 0 0 0 20 20
合计 8 18 30 24 20 100

如果做具体分析,学生在掌握语文基础知识,进行阅读和作文时所表现出来的
认知目标是有差异的。如语文基础知识表现为识记、理解、运用,而作文则表现为加
工、提炼、组织、表达和创造。
双向细目表的价值是多方面的,主要表现在编制试卷时确定测验知识内容、认
知目标,根据权重系数确定试题各部分的数量、测验时间、分数以及测验的总长度。
BCN3112 语文测验原理与实施

如细目表规定测验某知识内容的权重为 3,那么测定该内容的试题数量和分数应占总
试题的 3%,学生答题也占总时间的 3%。测验长度以能否覆盖教学内容为依据细目表中
开列的每项知识内容和认知目标,应有 10 个或 10 个以上的试题整个测验的长度据此
权衡决定。

B 编制测验试卷

编制语文试卷的基本要求
语文测验形式繁多,类型各异,但任何测验编制试卷均需遵循下列基本要求:
测验既要顾及全面,又要突出重点。根据文学科的性质,语文测验具有全面
综合性的特点。试卷的编制要以语文教学大纲为依据,以语文教材做试题的主要来源,
全面测定学生所学的内容。测验内容的偏向,很容易导致语文学习的偏差。一般重要
的有某种决定性意义的测验(如升学测验、毕业测验等)要尽可能全面反映语文学习
的整体。既要包括语文知识、语文能力、思想认识和语文学习态度、习惯等多方面的
内容。为保证全面反映学生的语文水平,试卷可扩大覆盖面。当试题有了一定的数量,
而且每个试题又有一定代表性的,测验就能较全面地反映学生所接受和掌握的教学内
容。
测验内容在顾及全面的同时,还应该有所侧重。一般而言,在语文知识和能力
之间,可适当侧重语文能力;一般能力与语文特殊能力之间,应侧重语文特殊能力
(听话、说话、识字、阅读和作文,侧重读写能力)。这是由语文学科的性质、目的
任务所决定的。从各年级来看,低年级应该以考核词语的掌握、运用和句段的理解、
写作为重点;高年级以考核阅读和作文能力为重点。测验内容应多选择那些“牵一线
而动全身”的教学重点和难点。
试题表达要明确,指导语应清楚。试题的语言应简明而易懂,忌噜苏、含糊。
指导语是用来帮助学生理解题目要求的,如指导语过于深奥或含糊不清,学生会不懂
题意或产生歧义而影响测验效度。如作文题,不能太宽以防学生不知从何写起。例如,
“学校的一天”、“路”这样的题目就不适合小学生写。是指写整个学校一天的所有
情况,还是写特定的“我”在学校的一天?要写现实中实在的路,还是写文学中象征
性的路?尽管作文题目抽象些,有时可测出学生的审题能力,但如果学生审题能力太
差,而写作其他方面的能力尚可,测验的效果显然存在问题。
为了便于学生掌握试卷题型的做法,可在试卷上举出例题示范。例题一定要典
型,有代表性,能说明问题。
BCN3112 语文测验原理与实施

试题的难度、份量要适当。编制试卷要从大多数学生实际出发,但又要使学生
的不同水平距离明显。试题难度直接制约测验的区分度。难度在 0.50 左右时区分度最
大。有人提出,小学升初中的试题难度分低、中、高三档,比例为 5:3:2。测验难度
还应考虑到不同测验的要求,如目标参照测验,难度以 0.80 为宜,整张试卷中等难度
的试题占 80%左右,以保持学生成绩的稳定性。常模参照测验难度一般以 0.50 左右为
宜,要尽力提高试题的鉴别力,拉开分数距离。除速度测验,一般测验都应给学生足
够的答题时间。时间一般控制在中等生能作完全部试题并剩有几分钟检查为佳。否则
会影响学生能力的表现。初拟的试题,数量要多,以备试测后筛选。
各试题必须彼此独立。题目之间不可连环,也不可有暗示性。前一题目解答的
正误,应不影响后一题目的解答。如要求学生分段的文章,就不宜再用来考查概括段
落大意或列小标题的能力。否则,前一个题目答题错误,就直接影响后一个答题的正
确性。
选择合适的题型,注意评分方便、客观。题目的答案要明确、具体,避免模
棱两可,评分标准的拟定应准确、肯定,避免随意性和主观性。为提高评分的客观性,
在保证有效性的前提下,应多采用判断题、选择题、配合题等客观型的试题。

试题的编排
试题编排是否恰当,在一定程度上会影响试卷的质量。编排试题的方法主要有
以下几种:
按照试题内容编排。将教材中同一内容的试题编排在一起。如语文知识方面按
字、词、句、篇、标点、语法、逻辑、修辞排列。语文能力方面按识字、写字、听话、
说话、阅读、作文等顺序排列。这样编排试题便于检查学生知识、能力的缺陷,也可
使学生在同一时间内集中思考性质相同的问题。
按照试题的测量的认知目标编排。将识记的、理解的、应用的、分析的、综合
的何评价的等不同层次的试题相对集中在一起。这样编排的优点是便于检查学生实现
教育目标的程度,可使学生在同一时间内运用同一智力活动来回答试题。
按照试题类型编排。将判断题、选择题、填充题、回答题、作文题等不同类型
试题相对集中在一起。这样编排有利于减少由于试题类型变换对学生产生的干扰。
按照试题难易程度编排。将试题由易到难,逐渐增加难度,使整个试卷具有难
度的层次性。有的测验,前面几道试题可安排比较简单的,即使较差的学生也容易通
过,以提高全体学生的应试信心。
BCN3112 语文测验原理与实施

编排语文试题,要全面协调测验内容、认知目标、题目类型与难度等因素,综
合多种方法搭配试卷。

复份 试卷的编排
如果要编制复份,编排试题时要注意复份的等值性,既要符合下列条件:测量同一知
识或能力;应该具有相同的内容、水平、结构以及题量、难度和区分度,但具体题目
不应重复。
编制等价复份比较困难,解决办法最好是利用各试题的复份,也可以把所有采用的试
题按难度由小到大顺序编号,再按下面所示方式分组,分别编成若干份复份:

若编制两份等值试卷,可按下列顺序排列试题:
A 卷:1,4,5,8,9
B 卷:2,3,6,7,10

若编制三份等值试卷,可按下列顺序排列试题:
A 卷:1,6,7,12,13
B 卷:2,5,8,11,14
C 卷:3,4,9,10,15

更多分数的等值试卷,以此类推。

c. 实施与评分

a 试场组织管理
广义的测验实施,包括了试题的编排印刷、测验的实施(学生应试)和评分三个步骤。
试场组织管理主要是使学生能在相同的环境下接受测验,提供良好的环境,如光线充
足、通风顺畅、温度适宜、嘈杂声音小等等。
首先,各座位之间保持一定的间隔距离,一般在 1—1.5 米,防止学生旁窥。其
次,需随机给应试者编号,指定座位,防止相熟者坐在邻近串通作弊。另外,考官与
学生的比例以 1:25 为佳,这是为了配备足够的监考官。还有,在测验过程中,应做
到:
1. 不讲与测验无关的语言;
2. 尽可能排除一切外界干扰,应规定在测验室以外若干距离内,不准有于测验
无关的人员进入;

- 监考官在考场内走动不能太过频繁
- 澄清问题时力求简短
BCN3112 语文测验原理与实施

3. 监考教师不能给学生提供暗示。

此外,学生交卷后应立即离开试场,不得在试场或其周围讨论答题情况,以免
影响其他学生应试。最后,在测验后,监考者不得向外泄漏任何测验情况。

b. 测验的评分
(一)评分的基本要求
评分是在学生应试的基础上对他们的学习成绩和发展程度做出评估,通常是以
符号的形式概括地显示学生成绩,提供反馈信息。
评分应以语文教学大纲为依据。此时分数应反映出学生所达到的水平与教学大
纲规定要求之间的关系。
其次,评分要准确、正确,力求正实地反映出学生的语文能力。教师评定学生
时,态度要慎重、对学生一视同仁,杜绝私心杂念,偏好偏恶,切忌凭主观印象给分。
另外,评分应有助于鼓励学生的创造性。评分标准既要严谨,又不能框得太死,
把学生局限于书本知识。合理的评分标准在有统一的尺度前提下,应有一定的灵活性。
如果学生能理论联系实际,学以致用,作答有新颖独到之处,教师在给基本分的同时,
可再给创造分或附加分,以示鼓励。当然,附加分的比例不宜过高,并且应有明确的
评分要求,避免宽松不一。
第四种的评分的基本要求是形成性测验的评分。在评分的过程中,教师应充分
发挥其反馈、调节的功能、提高学生的学习积极性。对此,教师应以发展的观点来评
定学生的学业成绩。如果学生平时测验成绩都很好,但期末考却由于偶然的失误,如
身体不佳得了低分,学期总评时要多参考学生的平时成绩。如果学生几次测验成绩不
好,但后来由于努力赶上来了,那么要多考虑当前的成绩。因此,教师在进行评分时
应把学生的智力水平和学习态度考虑在内。一个学生尽管成绩不佳,但平时已尽力学
习,也应给于适当的表扬鼓励;相反,学习成绩虽好,但不够努力的学生,则要求他
们继续努力学习。此外,教师在评定学生成绩时要持极慎重的态度,不要轻易地给不
及格的分数,否则将会对学生精神上带来严重打击,从而造成恶性循环。
既要保持分数的客观性,又要保护学生的自信心,很多教师在这方面作了可贵
的尝试,提出了相应的方法。第一,暂不计分法。如果学生没有取得应有的成绩,教
师暂不给计分,使没有得到分数的学生知道,他不是得不到好分数,而是暂时还没有
得到,教师希望并且相信他能得到好分数。第二,半计分法。在学生没有做对的地方,
不划“X”,而是划一条斜线“/”,这种半符号,它对学生意味着:再作一次努力吧,
BCN3112 语文测验原理与实施

希望总是有的。第三,计分加评语法。即对学生的学习成绩和发展程度指出进步和希
望。

(二)计分方法
最主要有三种对测验的计分方法。第一,百分记分法。这是一种较常用的,以
表示学生学业成绩的记分方法。此方法的评定分数,最要以百分为满格,通各科平均
计算,每科得六十分为及格,不及六十分者为不及格。它的特点是等级多,可对学生
的成绩进行排队。缺点方面则是没有确定的评分标准,每一分的意义不明确。如题目
难度大,学生往往得不到及格分数;相反,若题目过于容易,则有很多学生得高分适
用于问答题、作文题,很难得到准确的结果。
第二种计分方法是五级记分法。这是等级记分法的一种,通常以
“5、4、3、2、1”五个等级记分,分别表明“优秀”、“良好”、“及格”、“不及
格”、“劣等”。五级记分法的评分标准有以下六个方面:教学大纲规定掌握的知识、
技能和技巧;对教材的理解程度;知识的巩固性;应用知识的能力;知识的口头或书
面表达能力;和错误的数量及性质。以下例子为 5 分的要求。能透彻地熟悉与理解教
材,并能深刻领会和巩固地掌握。对于问题,能作出正确的回答,在各种实际作业中
善于独立地运用所学得的知识,能在口头或书面回答中正确表达而不发生错误。这种
记分法简单明了,特别是在平时考查中运用比较方便。唯独总评分标准具体掌握时有
一定困难,如 3 分和 4 分之间有时难以确定,因此又产生了 3+,3- 等表示成绩的等级。

第三种计分方法是常态分布记分法。它是将学生的语文答卷依成绩的高低排列,
然后依据常态分布原理分等。

五级制 优秀 5% 或 7%
良好 20% 或 24%
中等 50% 或 38%
及格 20 % 或 24%
不及格 5% 或 7 %

这些比例也可根据具体情况作出适当的调整。这种记分法的特点是可以把学生
的分数拉开距离,避免分数过高,产生“分数贬值”或分数过低,产生“分数升值”,
可区分出学生的个体差异但这种等级,只能反映学生在某集体中的地位,不能显示多
大程度上实现了教学目标。
BCN3112 语文测验原理与实施

c. 影响评分的因素
影响评分主要有六个因素。首先是工作的态度。评分是极其复杂和精细的工作,
如果教师的工作态度马马虎虎,不负责任,不可避免的会带来偏差。其二是风格偏好。
以作文评分而言,有的喜欢结构严密、条理清楚;有的喜欢自由奔放。不拘一格;有
的喜欢通俗晓畅;有的则喜欢别出心裁,标新立异。而学生文章风格、笔调每每有异,
结果是评定者所喜欢的易得高分,而厌恶的易得低分。此外,气质性格也间接影响评
分。不同性格气质的人,在评分时会表现出不同的情况。有的耐心细致,始终如一;
有的马虎粗心,又缺乏毅力;有的多从学生着想,不轻易扣分,导致“雅量偏失”;
有的吹毛求疵,过分严格,导致“苛刻偏失”,有的持“中庸之道”,一般不给高分,
也不给低分,导致“趋中偏失”。不仅如此,评定者的情绪心境也决定了标准的客观
性和成绩的准确。假设在情绪忧郁,心情激动或思想不集中的情况下,评分往往有欠
客观。而且前者容易给高分,后者容易给低分。
据心理学家研究,由于已有印象“光环”的影响,对一个人的某种印象会影响
特定方面的评价,从而造成评分偏差。如语文教师认为这是一个好学生,那么对他的
语文测验成绩的评分会偏高。反之,印象差,则偏低。试卷某一部分答得极好或极差,
会影响其他方面乃至全考卷的评定。对试卷的粗略感知,或开头或结尾部分的优劣,
会给评阅者留下强烈的印象,从而影响全卷的评分。最后是位置的效应。批阅大量考
卷,先批和后批的评分标准掌握往往不同,一份试卷在一批试卷中所处的位置会影响
教师给分。在连评了几份极差的试卷后,突然出现一份较好的,就可能给予偏高的分
数。而这份试卷若放在更高水平的试卷后,却可能得到偏低的分数。

d. 提高评分客观性的方法

提高评分客观性的方法可分为四项,其中包括制定详细的评分标准、正式批阅
前概览全部试卷一遍、采用分题评阅及最后采用分析评分法和整体评分法。
首先,教师必须制定一个详细的评分标准。论文式试题的评分,都应有明确的
规定。在评分前,教师可抽取几份试卷让几位教师试评;若评分者只有一人,则间隔
一定时间重评,如果发现几次评分不一致,就要随即修订原来的评分标准。
为了提高评分的客观性,教师应在正式批阅前,概览全部试卷一遍。在概览的
过程中,教师能够了解学生大略水平,根据此,把试卷分为上、中、下若干组。如果
BCN3112 语文测验原理与实施

有必要,可再阅一遍,把原来的分组再细分,并对归类不当的加以调整。在这基础上
再进行评分,可以把水平相当的试卷放在一起,通过比较斟酌给分
接着,教师能够采用分题评阅。教师先只评阅全部试卷中这一个题目,直至评
完再换一题。用这种方式,教师可能比较熟练地掌握各个题目的评分要点和给分比例,
而且便于对学生的作答情形逐题进行比较.
另外,为了提高评分的客观性,教师也能采用分析评分法和整体评分法。分析
评分法根据事先拟定的若干项评定标准逐项评定成绩,然后综合出一个总成绩的评定
方法。如作文:可从中心、材料、详略、条理、语言基本修辞等方面逐项评定后再判
定总分。这对不同教师强调不同的方面所造成的评分偏差可得到较好的平衡。整体评
分即根据学生答案的总体印象给定成绩。如传统的作文评分就采用这种方法。此法可
较好地反映出学生答题(特别是作文)的整体效应,但由于程序笼统,经常会出现较
大的误差。
最后,一些其他方法该注意的事项包括重要的测验可由诸多人评分,然后求出
平均分;全部试卷尽量在短期内评完,不要把时间拖得太久;如评卷着疲劳厌倦,精
神不能集中,或者周围环境过于嘈杂,建议暂停评阅,或稍事体整,或调整环境,等
等。
D 语文测验结果的分析

a. 测验质量的分析

测验的结果分析是整个测验过程中很重要的一个环节。它包括对测验质量的分
析和通过测验结果对教学情况的分析。借助测验结果的分析,可有效地发现测验和教
学中存在的问题,借以提高测验水平和教学质量。
(壱) 定性分析

定性分析即依靠分析者的知识、经验,经过逻辑判断,对测验过程的科学性进
行分析。分析的主要内容有:
1. 分析测验目的的适宜性。考察测验目的是否恰当,知识覆盖率如何,能否有效
地促进教学目标的实现。并检查测验类型、题型是否适应测验的目的需要。
2. 分析试卷所测的知识和能力,检核双向细目表。通过对试卷实际测到的知识和
能力分析,检查测验内容与测验目标配合是否合理,以及它们各自间的权重是
否适当,核实测验内容与双向细目表是否吻合。
3. 试题难度和长度是否适宜,学生能否在限定的时间内完成测验。
4. 检查测验的实施情况。试题编排是否恰当,试卷印刷是否易读、经济,测验实
施是否符合无偏向性要求。
5. 评价试题本身质量。试题有无知识、思想性错误,试题陈述是否准确、清晰,
符合命题的技术性要求等等。
BCN3112 语文测验原理与实施

(弐) 定量分析

测验质量的定量分析即运用数理统计方法,通过计算难度、区分度、信度和效
度对测验质量进行分析。
1. 项目分析
 难度

题目难度就是题目的难易程度。试题难度指数(P)是答对试题的人数除以参加测
验的人数,或该题平均得分除以该题满分数。
公式:

一般来讲,不同目的的测验难易要求有所不同。目标参照测验,试题难度以
0.80 为宜,常模参照测验以 0.50 左右为宜。但无论哪种测验,都应避免难度过大或
过小的情况,否则会出现全体学生分数都偏高或偏低的现象,不能真实反映应试者水
平。
 区分度

区分度指某题能够区分出学生高低水平的程度。在分析区分度时,可用测验
总分作为试题是否具有区分能力的依据,对测验各题得分与测验总分的内部一致性进
行分析。
试题的区分度一般采用极端分组法求得:
1. 将参加测试的所有学生的分数由高至低排列。
2. 学生人数(N)x0.27,小数点后四舍五入,取得整数 n。
3. 取 n 个最高和最低分数,分别为上组和下组。
4. 把该题的上组答对人数减去下组答对人数,得两组的差数;或该题上组得分
的平均分减去下组得分的平均分,得两组差数。
5. 把上述第 4.步的前者两组差数除以每组人数(n);或后者两组差数除以该题
满分数。

公式:

2. 信度

语文测验中可采用以下几种计算信度系数的方法估计信度。
(1) 稳定系数:使用重测法计算稳定系数。把同一测验在适当的时间间隔里
对相同的学生施测两次,然后计算出二次测验得分的相关系数。若相关系数较
高,说明两次测验所得结果相似。即同一学生在重测中的相对地位相近,稳定
系数较好;反之,稳定系数较差。
BCN3112 语文测验原理与实施

计算稳定系数,常用皮尔逊积差相关法。公式为:

(2) 等值性系数:采用复份法计算等值性系数。以题型、题数、难度和区分
度相同的但具体内容不同的两个等值测验,在最短时间内对相同的学生分别施
测,然后计算两次测验得分的相关系数。若相关高,信度则高。

此法达到科学性的关键在于,两个测验必须等值,否则结果没有意义。两次的
测验的时距尽可能缩短,避免知识经验积累、练习效应等因素影响。由于两个
测验相似,信度系数有时有偏高的倾向。

(3) 内部一致性系数:对同一测验的两个部分的得分求相关系数。此法常在
难以进行两次测验时使用,而以一次测验所获得的资料计算信度系数。

方法有三种:
a. 折半法

根据题号把测验分为奇偶两半,然后求得两部分试题得分的相关系数。测验
长度对信度系数大小有一定的影响。测验越长,信度越高。鉴于折半法实际
上把测验长度缩短一半,因此最后还需对相关系数进行矫正。
矫正一般采用斯皮尔曼—布朗公式。

b. 库得--理查森法

根据个人总分的平均数和标准差求信度系数。当测验答案只有正确和错误两
种(得分也只有两种)求信度常用此法。
如果信度系数低,说明测验并非具有相同的特性,即题目的同质性差或难度
相差悬殊,内部一致性差。

c. 克隆巴赫法

论文式测验,学生作答很不一致,评分也很难客观化,计算信度系数可使用
此法。

(4) 评分一致性系数

论文式测验,评分越不一致,评分者信度越差。计算方法由于评分者人次多少
不同而差异。
斯皮尔曼等级相关:用于 2 人评 N 份试卷或 1 人先后两次评 N 分试卷。
肯德尔和谐系数:用以计算三人以上评分者的信度。
BCN3112 语文测验原理与实施

(5) 目标参照测验的信度

两种较简便的方法:
I. 精熟教材决断法。实施难度较低的目标参照测验,并划定判断学生掌握教材
内容的临界分数,称决断分数(cut off score)。
II. 复本决定法。用等值的两个测验施用于相同的学生,根据两次测验都在决断
分数以上和以下的人数百分比来判断测验的信度。

公式:

一致性系数越大,测验越可靠。

(6) 速度测验的信度。速度测验可采用传统的估计方法,但不十分精确。
I. 把测验的时间分为两半,并分别印制试卷施测,最后用折半法估计信度。
II. 把测验等分为 4 段,分别印制试卷施测,然后把第 1 段和第 4 段得分相加,
把第 2 段与第 3 段得分相加,最后把上述两列分数求得相关,得信度系数。
测验信度系数多大为宜,一般应达 0.90,标准化测验常达 0.95。

3. 效度
(1) 内容效度

指测验能代表所欲测量的内容和引起预期反应的程度。语文测验所欲测量的
内容可以是教材,预期反应指学生的行为变化,如对教材的记忆、理解和应
用等。尽管测验能反映学生所学的全部内容,但若只需牢记便能答题,那么
内容效度仍不佳,因为没有测到理解和应用的特性。估计内容效度最常用的
方法是把测验题目与教材内容进行比较。如在拟题前已编有双向细目表,则
可编制试卷的试题分类表加以对照,根据教材内容与行为水平相符合程度判
断内容效度。
(2) 结构效度

指测验能够说明心理学理论某种结构或特性的程度,即测到了欲测量的心理
结构和心理特性的程度。

(3) 效标关联效度

指测验与另一测验结果之间的一致程度,方法是通过计算相关系数来进行。

b. 测验分数的解释

将学生的答卷与标准答案作比较而判定的分数。
(壱) 百分等级
BCN3112 语文测验原理与实施

全体应试者为 100,最高分和最低分分别居于 100%和 1%的位置,其他的分数


依次向中间填补,已在百分等级中的位置反映每个应试者的成绩与应试者总体
成绩的关系。各分数的百分等级,实际上就是在一定团体中低于该分数人数
的百分比。百分成绩高于 50%,表示高于一般水平,低于 50%,说明低于一般
水平。百分等级越低,个体所处的地位也就越低。
计算方法:要先列出次数分布表,然后算出低于某一特定分数的人数,将此
数除以应试者总人数再乘以 100。也可采用图解法,从累加次数曲线(S 型曲
线)上直接获得。
百分等级容易计算,容易理解,各种测验普遍适用。百分等级表示顺序,不
能做加减乘除运算,大多数统计分析无法进行。在转换百分等级时,接近中
间部分的原始分数的差异往往被夸大,而竭尽分数两端的原始分数则被缩小。

(弐) 标准分数

是原始分数与平均数的距离已标准差为单位表示的。
计算公式:从原始分数(X)中间去一个核定值(平均数 x),再除去以一个
恒定值(标准差 S)得到的。用等距离量表来表示测验分数,使进一步统计分
析成为可能;常态化标准分数可以照常态曲线面积表直接转换成百分等级,因
而容易解释。

c. 教学情况的分析
(壱) 教学分析的内容
1. 统计测验总成绩
a. 平均数

即算术平均数,用以说明学生的总体水平。
公式:

( = 所有学生所得分数,N=应考学生人数)

b. 全距

实为分数分布的最大范围。
公式:
-
( = 最高分, = 最低分)

c. 标准差

为使用较广的统计值。
公式:
BCN3112 语文测验原理与实施

( =各学生得分, =所有学生平均数,N=应试学生总数)

d. 各分数段学生的百分比

分数段可划分为 100-90,89-80,79-70,69-60,59-0,看学生的分数主要集中
在哪一分数段。

e. 画 S-P 表

即一班中的每个学生(S)在各个测验题(P)上的得分情况。

2. 学生内部差异的分析
(a) 横断分析

在同一时间,对一个人所具有的特性进行比较。例如在学业成就与学习能力、
兴趣、态度、各学科成绩之间,语文学科领域内不同能力之间进行比较。

(b) 纵向分析

对学生不同时间内的几次语文测验进行比较。比较时也应把学生的测验原始得
分标准化。

上网浏览
1 www.bctest.ntnu.edu.tw/flying/flying1.../betweenus2-3.ht...

单元结束!

You might also like