基于学习测评数据的个性化评价建模与工具设计研究牟智佳

电化教育研究
DOI:10.13811/j.cnki.eer.2019.08.012 学习分析与测评
基于学习测评数据的个性化评价
建模与工具设计研究
牟智佳 1，李雨婷 2，彭晓玲 3
（1.江南大学教育信息化研究中心，江苏无锡 214122；

2.江南大学教育技术系，江苏无锡
214122；
3.华东师范大学教育信息技术学系，上海 200062）
[摘要 ] 大量的测评练习是基础教育中开展学习测评的一种常态化评价活动，学习者由此产生的各类测评数据为
分析其知识掌握水平和目标达成情况提供了数据基础。首先，对个性化评价以及教育测量理论进行了分析，将研究问题
与理论的优劣进行耦合，确定以布鲁姆教学目标分类学和 Q 矩阵理论为理论支撑，以属性掌握概率方法为算法实现支
撑，结合教育评价的实施过程构建了基于学习测评数据的个性化评价模型。该模型包括教学目标达成情况、知识点掌握
程度两个维度以及知识点掌握度、学习风险问题点、学习目标达成度、课程成绩四个方面。其次，以江苏某高中高一 50
名学生的学习测评数据对个性化评价模型进行了数据检验，测评数据包含关于《解三角形》和《数列》的六个知识点。最
后，在模型构建的基础上设计了个性化评价工具原型，并进行了 UAT 测试。研究结果表明：所构建的模型能够对学习者
的学习结果进行个性化评价，帮助学生及时进行具有针对性的补救；相较于认知水平，教师更加关注学生的知识点掌握
程度，其中，学习风险问题点是师生最关心的个性化评价数据；学生的认知水平和知识点的掌握程度正相关，表明测评
数据是学生对知识点内化的外显形式；工具原型在不同维度上的 UAT 测试平均评价得分为 8.834 ，表明该工具整体接受
度较高，可用性较好，为后期工具的技术实现奠定了基础。
[ 关键词 ] 测评数据；个性化评价；教学目标分类； Q 矩阵理论；知识点掌握
[ 中图分类号 ] G434 [ 文献标志码 ] A
[ 作者简介 ] 牟智佳 (1987 — ) ，男，山东栖霞人。副教授，博士，主要从事教育大数据与学习分析、信息技术与课程整合
等方面的研究。 E-mail ：ambitionyt@163.com 。
和利用。当人数、试题数及题型过多时，会因其计算时
一、研究背景
间长、工作负荷重导致错误情况的发生，影响评价结果
测量是评价的基础，评价是对测量结果教学意义的准确性和时效性。美国 2016 国家教育技术计划《未
的阐述。在测量理论指导下，学习评价结果逐渐由笼统来学习准备：重塑技术在教育中的角色》[2]和我国《教育
测验分数转向精准个性化诊断结果[1]，以此来了解学习信息化 2.0 行动计划》[3] 都强调，教育应依托大数据和
者认知结构与学习水平。然而，传统考试中教师多采用人工智能技术，创新完善教育数据系统，促进个性化
人工计算的方法，对学习者成绩、班级平均分、排名变学习和教育治理。当前，数据驱动学习评价逐渐趋向
化等进行统计分析，往往忽略试卷内容和试题作答情智能化，针对基础教育考试数据收集不全面、分析浅
况等细节信息，造成数据信息不能得到有效记录、挖掘层次、仅以分数论优劣的现状，本研究基于学生学习
基金项目：2018 年度教育部人文社会科学研究青年基金项目 “ 基于测评大数据的学习预警与干预研究 ” （项目编号：
18YJC880068 ）；江苏省社会科学基金青年项目 “基于教育大数据的学习风险预警与干预研究 ”（项目编号：18JYC006 ）
96
2019 年第 8 期（总第 316 期）
测评数据构建个性化测评模型，从不同教学目标达成化评价的个人资料库，而且该系统可以无缝集成到

情况、知识点掌握程度等维度分析学生的学习测评数任何学习管理系统中 [7]。
据，进而为学生和教师提供个性化的评价报告，为各（三）个性化评价的数据收集及评价标准研究
类学习平台实现个性化评价提供有效参考。学习测评数据作为学习分析的基础，直接决定学
习评价的信效度。陈明选等认为，学习测评数据主要包
二、个性化评价研究现状分析
括以知识点为核心的知识点内容、类别、难度、多知识
为了解近年来国内外个性化评价研究的整体状点关系等试题维度的数据，以及以学习者的作答情况
况，我们对国内外相关文献进行了梳理和内容分析，为核心的得分、选项、解题过程等学习者维度的数据[8]。
从而合理把握其整体研究状态，洞察其研究现状，发此外，在网络在线学习和移动学习管理系统中，学习测
现可探索方向和亟待解决的问题。在此基础上，对个评数据还应包括在线学习时间、学习行为点击次数、电
性化评价相关文献运用聚类分析及横纵对比方法发子档案袋等[9-10]。在评价标准方面，陈敏等认为，不同的
现目前相关研究主要集中在以下方面：学习者应采用不同的评价方案，即不同的学习者的评
（一）教育测量理论及其差异对比研究价维度、内容和标准是不同的 [11]。基于此，他们设计了
教育测量是根据测验理论和心理计量学的原理六种个性化的评价方案，以满足学生个体差异需求。
与方法，对学生学业成绩、智力水平、人格特征、品德目前，国内外研究者从不同视角对学习评价进行
状况等教育现象进行量化的过程，主要测量的是学生了探索，构建了多种学习评价模型和系统，例如：基于
心理特征，侧重考查学生对特定知识、技能的掌握程过程性信息的个性化学习评价系统、基于网络学习行
度，关注教育对个体产生的影响，具有客观性、间接为的个性化评价模型、基于大数据的个性化学习评价
性、复杂性。教育测量领域先后出现了经典测量理
[4]
模型与系统设计，从中我们发现，评价领域的学者开
论、概化理论、项目反应理论及认知诊断理论等多种始关注评价系统的个性化、全面性、自适应性。在算法
理论。其中，经典测量理论模型简单，使用性广，但是趋向上，研究者开始交叉使用多种新的算法来构建评
参数估计依赖于样本，试题难度和学生能力水平难以价模型，并结合新的测量理论来不断提高个性化评价
耦合；概化理论使用条件较容易得到满足且便于控制系统的信效度，以解决实际教学问题。尽管个性化评
测量误差，但是对测量设计要求较高且容易受随机误价在模型构建、系统设计方面已经取得了一定成果，
差的影响；项目反应理论对学生和试题的分析估计准但在数据采集的针对性、评价维度的基本性方面还存
确，但计算方法复杂、工作量大，对能力的测量比较笼在不足，具体包括：（1）数据采集较为宽泛。现有的评
统；认知诊断理论可以深入学生的认知过程、加工技价研究为确保模型和系统数据的全面性而采集大量
能和知识结构层面，但与大脑内部加工机制相关的描不同类型的数据，在运算过程中出现数据仓库中数据
述性指标难以量化。的细化和综合程度低、参数软化、权重混乱等问题。
（二）个性化评价模型构建与系统设计研究（2）缺乏从知识点和认知层面进行的个性化评价。已
随着教育测量的发展和计算机辅助教学的应有探索多从课程内容、线上及线下学习行为、课程结
用，个性化评价模型构建与系统设计研究引起了教果等层面设计个性化评价模型及系统，没有落实到产
育领域和学术领域专家学者的重视。其中，比较具有生学习问题的最根本层面，即知识点和认知层面。针
代表性的是 Yankovskaya 等基于三个单棱镜和两个对上述问题，本研究基于学习者日常产生的测评试题
单棱镜的认知组件，构建了用于评估学生专业技能、数据，依据评价结果理论分析计算并设计个性化评价
设计课程学习轨迹的混合诊断智能系统。牟智佳构 [5]
数学模型，解决数据与评价之间的转化问题。
建了基于电子书包的个性化学习评价模型，设计了
三、核心概念界定与理论基础
基于教育大数据的个性化评价层次塔，并通过云管
理层实现对教育云服务平台、云存储池和云集群计（一）核心概念界定
算平台的调控和管理，为后面开展个性化评价系统 1. 学习测评数据
的设计与开发奠定了基础。 Hlaoui Bendaly 等提出
[6]
从数据范围来看，学习测评数据是教育大数据的
了一个名为 Cloud-AWAS 的云适应工作流电子评估子集，它是整个学习过程中所产生的有关测评数据的
系统，该系统根据电子评估活动、文件日志和个人信集合，通过学习系统的测量工具可以记录、测量和评
息等方面提取数据，创建了为学习者个体提供个性估学习者的学习过程、知识技能掌握情况、学习表现
97
电化教育研究
及其他学习情况。在对国内外相关研究文献梳理与分含义，将每一道试题分别在两个维度上进行分类；（2）

析的基础上，我们对洋葱数学、猿搜题、易题库和极课属性划分，以布鲁姆教学目标分类学作为学生认知结
数据等主流的题库型教育软件及平台进行浏览、分构构成的理论基础，将知识和认知过程维度分别作为
析、梳理，最终将本研究中涉及的测评数据划分为学一个测量过程的属性，计算得到学生对于知识维度各
科知识点及其相关关系数据、测试题目及测评结果数类知识和认知过程维度各层级的掌握概率；（3 ）结果
据等两个维度。其中，测试题目及测评结果数据是本阐述，基于布鲁姆教学目标分类学中各类教学目标的
研究的核心数据，测试题目数据包括试题内容、编号、含义，对计算得到的客观掌握概率结果进行阐述，作
所涉及的教育目标、所涵盖的知识点等，学生作答情为相应的评价反馈。
况包括答题正误、解题过程等。 2. Q 矩阵理论
2. 个性化评价在布鲁姆教学目标分类学的基础上，本研究借鉴
个性化评价是以每个学习者原有的知识水平和朱金鑫等人基于 Q 矩阵的属性掌握概率分类模型[16]，为
学习情况为基础，按照不同学习者表现出的不同起学生知识掌握情况和认知结构变化的评价计算提供
点和学习特征，设计出相应的评价标准和评价方法，具体的方法和流程。 Q 矩阵是大部分认知诊断模型的
由此评价学生的学习效果。个性化的学习评价在于
[12]
基础，最早由 Embreston 提出，后经 Tatsuoka 完善形
采用适合学习者学习特点的评价方式，以最大限度成 Q 矩阵理论。该理论通过确定不可观察的认知属
地促进具有不同个性特征的学习者自主、创造性的性，并将其转化为可观察的试题作答模式，从而使不
发展，经过不断强化反馈，最终实现提高学习效率的可直接观察的认知结构与项目上可观察的作答反应
目的 [13]。从上述定义对比中可以看出，有关个性化评联系起来，为了解学生的认知结构提供基础 [17]。个性
价的概念界定缺少了相应的理论支撑及环境考虑，化评价是通过学生的作答表现系统地分析测评数据，
基于此，结合大数据和人工智能的时代背景，我们认对学生的知识水平和目标达成度等属性进行分析评
为个性化评价即依据教育测量理论和教育目标分类判，而 Q 矩阵理论在量化不可观测数据方面有独特优
理论，通过学生的作答表现系统地分析测评数据，对势，可以通过测评数据分类、处理、计算实现对学生认
学生的知识水平和目标达成度等属性进行分析评知水平的可视化呈现，且测评数据到有效评价信息的
判，提供个性化评价报告，以达到促进个性化学习目过程外显，契合教师的理解需求。
的的一种自适应评价方式。
四、基于学习测评数据的个性化评价建模
（二）个性化评价模型设计理论基础
每种研究理论的合理性与优势皆有限度，单独的（一）测评试题的分类及其标准化处理
理论与教学实际和待解决问题不能实现契合。因此，试题归类作为考查知识点类型的基础，是了解学
我们通过对教育测量理论进行横纵分析对比，将研究生对知识点掌握情况的重要手段。本研究将从教学目
问题与理论的优劣进行耦合，最终以布鲁姆教学目标标分类和知识点分类两个维度对试题进行归类，以了
分类学支撑学习者内部认知维度，它为目标属性的划解学生学习目标掌握情况，并依据学生测评数据隐含
分提供依据 [14]；以 Q 矩阵为个性化评价方法，它以数信息深度挖掘各知识点掌握情况，以此构建对学生个
学公式的形式展现学生知识点的掌握程度，解决数据体具有针对性的个性化评价模型。具体内容为：（1 ）教
与评价之间的转化问题。学目标分类，实现从教学内容、学习结果到目标属性
1. 布鲁姆教学目标分类学修订版的转换。在使用布鲁姆教学目标分类学时，只需将教
布鲁姆教学目标分类学修订版是安德森等人在学目标中的名词、动词与两个维度上各层级之间的关
原有理论基础上，借鉴现代心理学的研究成果，从知系相对应，实现教学目标归类划分。例如：“运用正弦
识和认知过程两个维度来区分教学目标。其中，知识定理解答问题”这一教学目标中，动词“运用”与分类
维度包括事实性知识、概念性知识、程序性知识和元表认知过程类别中的应用对应，名词“正弦定理”与知
认知知识，主要协助教师区分教什么；认知过程维度识类别中的概念性知识对应，该教学目标属于应用概
分为记忆、理解、应用、分析、评价、创造六类，帮助教念性知识。（2）知识点分类，明晰知识点相关关系，实
师明确促进学生掌握和应用知识的阶段历程。本研 [15]
现从测评数据、知识点数据到编码数据的转换。首先，
究中，布鲁姆教学目标分类学的指导意义包括以下三需要分析教材内容，将教材内容以相关知识点的形式
个方面：（1 ）试题分类，根据两个维度各层级所代表的呈现。在此基础上，确定试题涉及的所有知识点。进而
98
2019 年第 8 期（总第 316 期）
将题目数据拆分成各个相互关联的知识点，以满足 Q 概率为 g23=f21。由此可得到学生 i 答对试题 j 的概率：

矩阵将学生的作答情况用 1 和 0 进行编码计算的前 l
gij =仪（fik∨（1-qjk）），x∨y=max （x，y）

提需求，确保测评数据可以和 Q 矩阵进行耦合，从而 k = 1
扩大题目类型的适用范围。步骤五：最后，学生 i 对属性 k 的掌握概率等于
（二）基于 Q 矩阵的评价结果理论计算涉及属性 k 且学生 i 答对的所有项目的答对概率之
在上述研究结果的基础上，我们基于 Q 矩阵的属和除以涉及属性 k 的所有项目的答对概率之和。至
性掌握概率模型来实现对学习评价结果的计算、认识此，可得到所有学生对这次考试涉及的所有属性的掌
水平层级的诊断，该模型的可行性、有效性均已得到握概率估计值：
验证，满足教师从明晰数据到有效信息转化过程的现 m
实需求。其计算步骤如下：
Σmin（r ij ，qjk ）×gij m
pik= j = 1
m
，x∧y=min （x，y），若 Σqik
步骤一：假设在某个测试中，共有 m 个试题，n 个 j = 1
学生，答对记为 1，答错记为 0。可得到所有学生在所

Σq
j = 1
jk ×gij
有试题上答对或答错的项目反应 R 矩阵： ×gij =0，则 pik=0。

r11 r12 ... r1m （三）评价结果的可视化呈现
... 通过以上方法可以准确计算出每个学生对教学
r21 r22 r2m
Rn×m = ，rij∈{0，1} 目标及各知识点的掌握情况，但教师和学生缺乏的往
... ... ... ...
往不是数据而是有效信息，基于此问题，我们采用数
rn1 rn2 ... rnm
据可视化技术呈现结果信息，帮助教师和学生快速掌
步骤二：假设所有试题只涉及 l 个属性，通过对握测评结果，提升教育决策的科学性 [18]。考虑到认知
试题进行分析，若试题涉及该属性则记为 1，不涉及评价结果的二维性，本研究选取了可将二维数据外显
则记为 0。由此组成一个描述测试试题与所测属性间的数据可视化图形来对测评结果进行可视化呈现。其
关系的 Q 矩阵：中，我们用三维柱形图表示学生对教学目标各个属性
q11 q12 ... q1l 的达成情况，可以帮助师生明晰学生擅长或生疏的学
q21 q22 ... q2l 习领域，并针对此因材施教，实现个性化评价的教学
Qm×l= ，qjk∈{0，1} 价值；用雷达图表示学生不同考试的测评结果数据，
... ... ... ...
qm1 qm2 ... qml 以此观察知识点掌握情况的动态变化过程；用网络图
表示相关知识点的影响关系和单个知识点的掌握程
步骤三：根据以上得到的 Q 矩阵和 R 矩阵，利用度，可以直观发现学习困难的根本原因及学习成绩不
矩阵乘法，可以得到每个学生在各个属性上的答对个理想的问题知识点，对存在学习风险的知识点及时进
数 Nik ，即学生 i 对涉及属性 k 的项目的答对个数：行有针对性的补救。
r11 r12 ... r1m q11 q12 ... q1l （四）基于测评数据的个性化评价模型生成
r21 r22 ... r2m q21 q22 ... q2l 在确定研究数据、研究方法的基础上，我们对个

Nn×l= = 性化评价维度和评价内容进行了梳理和划分，并由此
... ... ... ... ... ... ... ...
构建了个性化学习评价模型，如图 1 所示。学生学习
rn1 rn2 ... rnm qm1 qm2 ... qml
掌握情况包含内在和外在两种表现形式，在模型中我
n11 n12 ... n1l 们以布鲁姆的二维教学目标来评判学生的内在认知
n21 n22 ... n2l 水平，以此评价各个学习者不同认知层级的达成度；

以知识点掌握情况为量化形式，以属性掌握概率方法
... ... ... ...
为算法实现支撑，用直观数据展示学习者外在知识点
nn1 nn2 ... nnl
掌握程度。在设计思路方面，个性化评价模型左侧圆
步骤四：将学生 i 正确作答试题 j 的概率估计为轮是以 Padagogy 轮 [19]为设计思路来源，以此表现数据
该试题涉及的所有属性答对频率的乘积，若题目 1 涉基础以及评价维度的划分。并在此基础上，将模型加
及属性 2 和属性 3，则学生 1 答对题目 1 的概率 g11= 以引申、完善，该模型包含教学目标达成情况、知识点
f12×f13，题目 3 只涉及属性 1，则学生 2 答对题目 3 的掌握程度两个维度，从知识点掌握度、学习风险问题
99
电化教育研究
点、学习目标达成度、课程成绩四个方面来实现对学必修 5 第 11 章《解三角形》和第 12 章《数列》。在此基

生学习掌握情况的个性化评价分析。础上，将题目数据分解成相关知识点数据以完成标准
其中，个性化评价模型的优势为：（1）以测评数据化处理，得到测试的知识点可以划分为正弦定理、余弦
为基础，使得计算过程及反馈结果更加具有针对性，为定理、正弦定理和余弦定理的应用、等差数列、等比数
实际教学提供个性化评价反馈信息，从而提高学习质列、数列的综合应用六个知识点。
量。（2）随着测评数据的累积，个性化评价与学生个体（二）学习目标达成度的个性化评价与分析
的真实学习情况趋于一致，并会逐渐起到个性化评价、依据评价模型中基于 Q 矩阵的评价结果计算方
问题诊断、预测预警等作用。在微观层面可以帮助师生法，学生教学二维目标达成度计算过程如下：首先，根
了解学生个体对各个知识点的掌握状况，帮助教师制据某数据分析平台上的学生答题数据，计算过程中答
定针对学习者的个性化培养方案。在宏观层面，教师也对记为 1，答错记为 0，通过统计学生对所有题目的作
可以从繁杂的测评数据中发现隐含的教学规律，从而答情况，完成学生和试题的项目反应 R50x52 矩阵。其次，
为教师提供相关教学方案完善建议。通过对试题进行分析、归类，将试题与所涉及的布鲁姆
教学目标分类学中的 12 个二维目标进行耦合，详情见
五、个性化评价模型的数据检验与计算分析
表 1。将涉及的某一目标属性记为 1，不涉及记为 0，得
（一）研究对象与数据选取到 52 道试题和 12 个二维目标属性的关联矩阵 Q52×12
本研究以江苏某高中高一 50 名学生为研究对象，矩阵，明晰测试试题与所测属性间的关系。
其中男生 28 名，女生 22 名，以研究对象在某数据分析计算得到学生对二维目标属性的掌握概率估计
平台上的三次考试信息作为数据来源，对模型进行数值，将认知水平用具体的数值外显化，可以帮助教师
据检验。经过和任课教师协同筛选，排除不在本次教学掌握学生对不同知识属性的内化吸收状态，详见表
内容之内和学生作答数据不全的 21 道试题，共选取了 2。我们在上述表征学生作答情况的项目反应矩阵 R
52 道考试试题数据。涉及的题型包含选择、填空、解答矩阵和表征试题、属性间关系的 Q 矩阵的基础上，利
题，其中考试试题涉及的教学内容为苏教版高中数学用矩阵乘法 N50×12=R50×52Q50×12，计算每个学生对涉及 12
图1 基于学习测评数据的个性化评价模型
表1 基于试题和二维目标属性的关联 Q 矩阵
目标记忆事理解事应用事评价事记忆概理解概应用概分析概评价概应用程分析程评价程
实性知实性知实性知实性知念性知念性知念性知念性知念性知序性知序性知序性知
试题识识识识识识识识识识识识
1 0 0 0 0 0 1 0 0 0 0 0 0
2 0 0 0 0 0 1 0 0 0 0 0 0
3 0 1 0 0 0 0 0 0 0 0 0 0
… … … … … … … … … … … … …
49 0 0 0 0 0 0 1 0 0 0 1 0
50 0 0 0 0 0 1 0 0 0 0 0 0
51 0 0 0 0 0 0 0 1 0 0 0 0
52 0 0 0 0 0 0 0 0 1 1 0 0
100
2019 年第 8 期（总第 316 期）
表2 学生二维目标掌握概率估计值
目标记忆事理解事应用事评价事记忆概理解概应用概分析概评价概应用程分析程评价程
实性知实性知实性知实性知念性知念性知念性知念性知念性知序性知序性知序性知
学生识识识识识识识识识识识识
1 1.00 0.74 1.00 1.00 1.00 1.00 0.87 1.00 0.47 0.91 0.65 0.50
2 1.00 0.69 1.00 1.00 0.80 0.93 0.84 0.64 0.27 0.75 0.60 0.73
3 1.00 0.87 0.78 1.00 0.60 0.80 0.58 0.56 0 0.51 0.65 0.46
… … … … … … … … … … … … …
47 0.87 1.00 1.00 1.00 1.00 0.93 0.77 0.78 0.50 0.71 0.70 0
48 1.00 0.69 0.56 1.00 1.00 0.66 0.68 0.75 0.17 0.63 0.14 0
49 0.82 0.73 0.73 1.00 1.00 0.92 0.82 0.92 0.48 0.81 0.65 0.70
50 1.00 0.65 0.70 1.00 1.00 0.72 0.69 0.50 0.44 0.66 0.23 0.23
个二维目标属性试题的答对个数，得到 50 个学生在不一定是优生辅导差生，量化认知属性等级、找出互补

12 个二维目标属性试题上的答对个数 N50x12 矩阵。之区间、增加生生有效互动显得尤为关键。
m
Nik
后，通过公式 fik =，其中 Sk=Σqjk 为涉及属性 k 的
Sk j = 1
所有试题个数，计算每个学生对 12 个二维目标属性

试题的答对频率，得到 50 个学生对 12 个目标属性的
试题的答对频率 F50×12。再将学生 i 答对试题 j 的概率
估计为该项目涉及的所有属性答对频率的乘积：g ij =
l
仪（f ∨（1-q ）），x∨y=max （x，y），计算得到 50 个学

k = 1
ik jk
生在 52 道试题上的答对概率 G50×52 矩阵。最后，学生

对属性 k 的掌握概率等于涉及属性 k 且学生作答正（a ）
确的所有试题的答对概率之和与涉及属性 k 的所有
试题的答对概率之和的比值，即 pik =
m
Σmin（r
j = 1
ij ，qjk ）×gij
m
，x∧y=min （x ，y）。
Σq
j = 1
jk ×gij
在得到每位学生在知识目标、认知过程目标以及
知识与认知过程二维目标的达成度的基础上，进一步
从班级的平均情况和学生的个体情况两个方面对其进
行统计分析。分析结果表明：在班级平均情况方面，整（b ）
个班级对布鲁姆教学目标的平均达成情况随层级的升图2 教育目标达成度、相同分数学生教育目标达成度对比
高而降低；学生普遍对“记忆”“事实性知识”掌握最好，（三）知识点掌握程度的个性化评价与分析
随着认知过程层次的升高，知识越来越抽象，学生的目通过上述计算，我们得到该班级 50 名学生在所
标达成度依次降低，详情如图 2（a）所示。在学生个体有知识点上的掌握概率估计值，具体见表 3。从班级
情况方面，将 A 学生对布鲁姆教育目标的达成情况与的平均情况和学生的个体情况两个方面对知识点掌
班级平均情况进行对比，发现该学生高层次认知能力握计算结果进行统计分析，结果如下：（1）通过对班级
低于班级平均水平，应该加强对事实性知识的学习，逐知识点平均掌握程度的分析，可以帮助教师找准薄弱
步提高自己的高层次认知水平。此外，将不同分数段具知识点，对班级普遍掌握较差的知识点进行统一讲
有相同分数的学生进行对比，发现分数相同的学生认解。如图 3 所示，学生整体对知识点掌握情况由高到
知分布也存在差异，如图 2（b）所示。因此，生生帮扶并低依次是余弦定理 > 正弦定理 > 等差数列 > 等比数列 >
101
电化教育研究
正弦定理和余弦定理的应用 >数列的综合应用。（2）在评价工具原型进行质疑以及漏洞检测，以此得到有效

学生的个体情况方面，我们进行了学生个体的各个知反馈信息，迭代优化工具原型，提高普适性与实用性。
识点掌握情况横向对比，发现存在学习风险的知识期望我们的评价工具最终能够以插件的形式嵌入各
点，例如：48 号学生的数列综合应用明显低于其他知个学校的网络教学平台中，为各类学习平台实现个性
识点的掌握程度，以此提出有针对性的指导建议；其化评价提供参考。
次，针对各个知识点进行不同学生掌握情况的纵向对（一）个性化评价工具的功能结构设计
比，以此发现互补点，寻找合适的学习伙伴。在现阶段基础教育当中，教师和学生依旧是学习
表3 学生知识点的掌握程度评价的主要参与者。在评价实施过程中，教师通过设
知识点正弦定置不同测评目标的考试来对学生的学习进行评价，学
数列的
正弦余弦理和余等差等比
综合应生则通过参与考试来获得评价。因此，评价工具在用
定理定理弦定理数列数列
用户分类上可分为教师和学生两大类，在功能设计上可
学生应用
分为测试子系统、评价子系统和用户管理子系统。
1 1.00 1.00 0.88 0.92 0.80 0.79
2 1.00 0.75 0.75 0.67 0.80 0.71
1. 测试子系统功能
3 0.67 0.75 0.50 0.83 1.00 0.29 测试子系统的功能包括考试的整个过程，主要实
… … … … … … … 现试题的录入与管理、编制试卷、在线考试、在线阅
48 0.67 1.00 0.75 0.67 0.80 0.36 卷、成绩查询、试题推荐等功能。但在教学过程中，由
49 1.00 1.00 0.88 0.83 0.80 0.64 于教师和学生所扮演的身份不同，在测试子系统的功
50 0.78 1.00 0.75 0.83 0.60 0.29 能需求上也会有所差异。其中，教师模块包括多种编
我们将知识点掌握程度的计算结果与教师对学制试卷的方式、通知阅卷、在线阅卷、创建试题、试题
生的宏观评价、学生知识点掌握情况自评进行了对录入与管理、题库管理、相关试题推荐等功能，主要帮
比，其中，36 名学生认为计算结果和自己的真实状况助教师完成试卷的编制、考试的实施以及测评的组
一致；9 名学生认为该计算结果比自己更加清楚自己织。学生模块包括自我联系、同学竞赛联系、查看成
的学习状态。在计算结果中，掌握程度较差的知识点绩、查看解析、综合测评推荐、经典试题推荐等功能，
即学习风险问题点引起了师生的共同关注，把该方面主要是帮助学生能够快速地获取考试信息。
的个性化评价数据当作是解决学习问题，提高教、学 2. 评价子系统功能
效率的核心关键点。部分教师认为，随着测评数据的评价子系统主要是对收集到的学习测评数据进行
增加和完善，使得发现学习风险知识点、解决学习问分析，包括纸笔测试的考试数据录入、布鲁姆教学目标
题、减轻教学负荷、实现因材施教成为可能。达成度、知识点掌握程度测评、答题时间分析、测评轨迹
正弦定理
追踪记录以及常规分析等功能。教师模块与学生模块在
功能上也有差异，教师模块重点是帮助教师通过分析考
数列的综
合应用
余弦定理
试数据，掌握班级学情，及时发现问题，调整教学，主要
包括成绩的录入与管理、试卷分析、常规分析、目标达成
度、知识点测评、答题时间分析、测试追踪、教学建议等
正弦定理和余
等比数列弦定理的应用
功能。学生模块重点是帮助学生了解自身学习情况，发
现不足与薄弱点，促进学习，主要包括查看个人或班级
等差数列的成绩单、观察试卷得分情况、获得布鲁姆教学目标达
图3 班级知识点平均掌握程度成度和知识点测评结果、学科追踪、总分追踪、名词追
踪、知识点掌握程度追踪以及学习建议等功能。
六、个性化评价工具的原型设计与 UAT 测试
3. 用户管理子系统功能
在个性化评价模型构建与 UAT 检测的基础上，用户管理子系统主要是指教师、学生对用户信息
我们运用 Axure 对个性化评价工具进行了原型设计，的管理，包括学科管理、班级管理、账号管理、接收通知
并进行个性化评价模型的 UAT 测试。 UAT 即 User 等功能。教师模块提供了较为全面的用户管理功能及较
Acceptance Test ，也就是用户可接受测试，在本研究中高权限分配，主要包括任教学科、其他学科、任教班级、
主要是邀请师生参与测试流程，并鼓励师生对个性化其他班级、分组权限、阅卷通知、测评报告、账号信息等
102
2019 年第 8 期（总第 316 期）
功能。学生模块包括账号信息、考试通知、测评通知等。界面简洁、理论基础扎实和理论先进等 10 个二级编码

（二）个性化评价工具的原型设计节点。通过分析发现，功能全面、评价多样、布鲁姆教育
在以上评价工具的功能结构设计基础上，结合现目标达成度测评、知识点掌握程度测评等测评功能方
有网络学习平台测评功能和实践应用分析结果，采用面节点编码数量远高于界面与操作方面，说明相比于
Axure 软件制作了评价工具各部分功能原型。其中，根简洁的界面和简便的操作，该工具的测评功能更受被
据工具的结构功能设计，该原型主要可以分为三大模访谈者的认可。但也发现，相比于布鲁姆教育目标达成
块：测试模块、评价模块和用户信息管理模块。测试模度测评，教师更倾向于知识点的掌握程度测评。
块对应于测试子系统中的各部分功能，体现在编制试
七、结语
卷、在线阅卷和数据录入三部分内容当中；评价模块
对应于评价子系统中的各部分功能，主要体现在测评基于学生测评数据的个性化评价为教师因材施
分析部分，包括了常规分析（成绩单、得分分布等）、目教提供了可能，基于 Q 矩阵的学习结果评价模型满
标达成度、知识点测评等评价内容当中；用户信息管足了教师理解教育测量理论中的各种数理统计知识
理模块对应于用户管理子系统中的各部分功能，在原的需求。本研究对个性化评价流程、计算过程进行了
型中用个人信息 UI 图标作为该模块的入口。剖析，并以布鲁姆教育目标分类理论和 Q 矩阵理论
（三）个性化评价工具的 UAT 测试为理论依据，以属性掌握概率方法为算法实现支撑，
在原型设计的基础上，选取了 10 位中小学一线从学习测评数据、个性化评价计算两个维度构建了
教师和 30 位与本研究方向相近的高校研究者进行工个性化评价模型。同时，结合江苏某高中高一 50 名
具的试用，之后采用面对面访谈、视频访谈和电话访学生在某数据分析平台上的测评数据对模型进行了
谈等多种方式对这 40 位试用者展开用户体验访谈。数据检验，通过一线师生的有效反馈对模型进行迭
访谈内容为：如果从理论基础、测评功能、内容呈现、代优化以提高其科学性和准确性，对该模型的效能
界面设计、用户体验感五个维度给该工具评分，每个维进行了实地考察以确保该模型的可行性与有效性。
度的满分为 10 分，您会给多少分，为什么？对访谈问题在确保个性化模型可行、科学、有效的基础上，我们
量化评分结果进行统计，得到本次访谈的 40 名对象在运用 Axure 设计了个性化评价工具原型设计，并邀请
不同维度上的平均评价得分，分别为 9、8.75、8.75、相关研究人员进行了工具测试、体验，通过实践反馈
8.92、8.75，分值普遍较高，说明该工具整体接受度较进一步改善工具原型以提高其完整性和准确性。后
高，可用性较好。在以上访谈结果材料基础上，采用面我们将个性化评价工具以插件形式进行技术实
Nvivo 软件对该工具的优点进行编码分析。经过三轮的现，并将其整合到现有的教学平台中，对学习者进行
调整，我们获得测评功能、界面与操作和理论基础 3 个个性化的过程分析评价，助力教师因材施教，最终帮
一级编码节点，评价分析深入、知识点掌握程度测评、助学生提高学习效果。
[参考文献 ]
[1] SHUTE V J ，ZAPATA-RIVERA D. Educational assessment using intelligent systems [R].Tallahassee ： ETS Research Report Series ，
2008 ：5-6.
[2] U.S. Department of Education ，Office of Educational Technology.Future ready learning ：reimagining the role of technology in education
[R].Washington ，D.C. ：American Institutes for Research ，2016.
[3] 中华人民共和国教育部 . 教育部关于印发《教育信息化 2.0 行动计划》的通知 [DB/OL]. （2018-04-18 ）[2018-07-26].http ：//www.moe.
gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html.
[4] 檀慧玲，李文燕，万兴睿 . 国际教育评价项目合作问题解决能力测评：指标框架、评价标准及技术分析 [J]. 电化教育研究，2018 ，39
（9 ）：123-128.
[5] YANKOVSKAYA A，DEMENTYEV Y ，YAMSHANOV A.Application of learning and testing intelligent system with cognitive
component based on mixed diagnostics tests[J]. Procedia-social and behavioral sciences ，2015 ，206 ：254-261.
[6] 牟智佳 . 电子书包中基于教育大数据的个性化学习评价模型与系统设计 [J]. 远程教育杂志， 2014 （5 ）：90-96.
[7] HLAOUI Y B ，HAJJEJ F ，AYED L J B.Learning analytics for the development of adapted e -assessment workflow system ：
CLOUD_AWAS[J].Computer applications in engineering education ，2016 ，24 （6 ）：951-966.
103
电化教育研究
[8] 陈明选，王诗佳 . 测评大数据支持下的学习反馈设计研究 [J]. 电化教育研究，2018 （3 ）：35-42.

ˊ Z ， BARAc
[9] BOGDANOVIc ˊ B ，et al.Evaluation of mobile assessment in a learning management system [J]. British journal
ˊ D ， JOVANIc
of educational technology ，2014 ，45 （2 ）：231-244.

[10] SHARIFI M ，SOLEIMANI H ，JAFARIGOHAR M.E-portfolio evaluation and vocabulary learning ： moving from pedagogy to andragogy
[J]. British journal of educational technology ，2017 ，48 （6 ）：1441-1450.
[11] 陈敏，杨现民 . 泛在学习环境下基于过程性信息的个性化学习评价系统的设计与实现 [J]. 中国电化教育，2016 （6 ）：21-26.
[12] 谢冬梅 . 网络学习的个性化评价系统的研究与设计 [D]. 上海：华东师范大学，2010.
[13] PARSAZADEH N ，ALI R ，REZAEI M. A framework for cooperative and interactive mobile learning to improve online information
evaluation skills[J]. Computers & education ，2018 ，120 ：75-89.
[14] HUBALOVSKY S ，HUBALOVSKA M ，MUSILEK M.Assessment of the influence of adaptive e-learning on learning effectiveness of
primary school pupils[J]. Computers in human behavior ，2019 ，92 （3 ）：691-705.
[15] REX HEER.A model of learning objectives based on a taxonomy for learning ， teaching ， and assessing ：a revision of bloom's
taxonomy of educational objectives[EB/OL]. （2017-02-08 ）[2017-07-26].http ：//www.celt.iastate.edu/teaching/Revised Blooms1.html.
[16] 朱金鑫，张淑梅，辛涛 . 属性掌握概率分类模型——
—一种基于 Q 矩阵的认知诊断模型 [J]. 北京师范大学学报（自然科学版），2009
（2 ）：117-122.
[17] 罗照盛，李喻骏，喻晓锋，等 . 一种基于 Q 矩阵理论朴素的认知诊断方法 [J]. 心理学报，2015 （2 ）：264-272.
[18] IFENTHALER D ，ERLANDSON B E.Learning with data ：visualization to support teaching ， learning ， and assessment[J].Technology ，
knowledge ，and learning ，2016 ，21 （1 ）：1-3.
[19] COCHRANE T D ，NARAYAN V ，OLDFIELD J. iPadagogy ： appropriating the iPad within pedagogical contexts [J]. International
journal of mobile learning & organisation ，2010 ，7 （1 ）：146-154.
Research on Personalized Evaluation Modeling and

Tool Design Based on Learning Evaluation Data
MOU Zhijia1, LI Yuting2, PENG Xiaoling3

(1.Research Center for Educational Informatization, Jiangnan University, Wuxi Jiangsu 214122;
2.Department of Educational Technology, Jiangnan University, Wuxi Jiangsu 214122;
3.Department of Education Information Technology, East China Normal University, Shanghai 200062)
[Abstract] A large number of evaluation exercises are a kind of normal evaluation activities in basic
education. The various evaluation data generated by learners provide a data basis for analyzing their level
of knowledge acquisition and achievement of goals. Firstly, the paper analyzes the personalized evaluation
and the theory of educational measurement, and couples the research problems with the advantages and
disadvantages of theories. Then, a personalized evaluation model based on learning evaluation data is
established, which is supported by Bloom's teaching target taxonomy and Q matrix theory, and attribute
mastery probability method as well. The model includes two dimensions of the achievement of teaching
objectives, the degree of knowledge point mastery, and four aspects of knowledge points, learning risk
points, the achievement of learning goals, and course achievements. Secondly, the personalized evaluation
model is tested with the learning evaluation data of 50 students in a senior high school in Jiangsu province.
The evaluation data contains six knowledge points about "Solution Triangle" and "Number Sequence".
Finally, based on the model construction, a prototype of personalized evaluation tool is designed and tested
by UAT. The research results show that the model can make personalized evaluation of learners' learning
results and help students to make targeted remedies in time. Compared with the cognitive level, teachers
（下转第 113 页）
104
2019 年第 8 期（总第 316 期）
the future research and practical application of "AI plus education".

[Keywords] Sino-German Science Center; AI + Education; Learning Analytics; Intelligent Education;
Interactive AI
（上接第 86 页）
significance for the development of personalized adaptive learning driven by data intelligence.
[Keywords] Educational Knowledge Graph; Conceptual Model; Knowledge Element; Pre -and -after
Relationship; Cognitive State; Learning Path
（上接第 104 页）
pay more attention to students' mastery of knowledge points. Among them, learning risk point is the
personalized evaluation data that teachers and students are most concerned about; students' cognitive level
is positively correlated with their mastery of knowledge points, indicating that the evaluation data is an
explicit form of students' internalization of knowledge points. The average evaluation score of UAT test of
the tool prototype in different dimensions is 8.834, indicating that the tool has a high overall acceptance
and good usability, which lays a foundation for future technical implementation of the tool.
[Keywords] Evaluation Data; Personalized Evaluation; Taxonomy of Educational Objectives; Q Matrix
Theory; Mastery of Knowledge Points
113

基于学习测评数据的个性化评价建模与工具设计研究 牟智佳

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于学习测评数据的个性化评价建模与工具设计研究 牟智佳

Uploaded by

Copyright:

Available Formats

电化教育研究

牟智佳 1， 李雨婷 2， 彭晓玲 3

（1.江南大学 教育信息化研究中心， 江苏 无锡 214122；

测评数据构建个性化测评模型，从不同教学目标达成 化评价的个人资料库， 而且该系统可以无缝集成到

及其他学习情况。 在对国内外相关研究文献梳理与分 含义，将每一道试题分别在两个维度上进行分类；（2）

将题目数据拆分成各个相互关联的知识点，以满足 Q 概率为 g23=f21。 由此可得到学生 i 答对试题 j 的概率：

gij =仪（fik∨（1-qjk）），x∨y=max （x，y）

学生，答对记为 1，答错记为 0。 可得到所有学生在所

有试题上答对或答错的项目反应 R 矩阵： ×gij =0，则 pik=0。

r21 r22 ... r2m q21 q22 ... q2l 在确定研究数据、研究方法的基础上，我们对个

n21 n22 ... n2l 水平， 以此评价各个学习者不同认知层级的达成度；

点、学习目标达成度、课程成绩四个方面来实现对学 必修 5 第 11 章《解三角形》和第 12 章《数列》。 在此基

个二维目标属性试题的答对个数， 得到 50 个学生在 不一定是优生辅导差生，量化认知属性等级、找出互补

所有试题个数， 计算每个学生对 12 个二维目标属性

仪 （f ∨（1-q ）），x∨y=max （x，y），计 算 得 到 50 个 学

生在 52 道试题上的答对概率 G50×52 矩阵。 最后，学生

正弦定理和余弦定理的应用 >数列的综合应用。 （2）在 评价工具原型进行质疑以及漏洞检测，以此得到有效

功能。 学生模块包括账号信息、考试通知、测评通知等。 界面简洁、理论基础扎实和理论先进等 10 个二级编码

[8] 陈明选，王诗佳 . 测评大数据支持下的学习反馈设计研究 [J]. 电化教育研究，2018 （3 ）：35-42.

of educational technology ，2014 ，45 （2 ）：231-244.

Research on Personalized Evaluation Modeling and

MOU Zhijia1, LI Yuting2, PENG Xiaoling3

the future research and practical application of "AI plus education".

You might also like

基于学习测评数据的个性化评价建模与工具设计研究牟智佳

基于学习测评数据的个性化评价建模与工具设计研究牟智佳

牟智佳 1，李雨婷 2，彭晓玲 3

（1.江南大学教育信息化研究中心，江苏无锡 214122；

测评数据构建个性化测评模型，从不同教学目标达成化评价的个人资料库，而且该系统可以无缝集成到

及其他学习情况。在对国内外相关研究文献梳理与分含义，将每一道试题分别在两个维度上进行分类；（2）

将题目数据拆分成各个相互关联的知识点，以满足 Q 概率为 g23=f21。由此可得到学生 i 答对试题 j 的概率：

学生，答对记为 1，答错记为 0。可得到所有学生在所

n21 n22 ... n2l 水平，以此评价各个学习者不同认知层级的达成度；

点、学习目标达成度、课程成绩四个方面来实现对学必修 5 第 11 章《解三角形》和第 12 章《数列》。在此基

个二维目标属性试题的答对个数，得到 50 个学生在不一定是优生辅导差生，量化认知属性等级、找出互补

所有试题个数，计算每个学生对 12 个二维目标属性

仪（f ∨（1-q ）），x∨y=max （x，y），计算得到 50 个学

生在 52 道试题上的答对概率 G50×52 矩阵。最后，学生

正弦定理和余弦定理的应用 >数列的综合应用。（2）在评价工具原型进行质疑以及漏洞检测，以此得到有效

功能。学生模块包括账号信息、考试通知、测评通知等。界面简洁、理论基础扎实和理论先进等 10 个二级编码