Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

情报学报 2020 年 8 月 第 39 卷 第8期

Journal of the China Society for Scientific and Technical Information, Aug. 2020, 39(8): 852-862

DOI: 10.3772/j.issn.1000-0135.2020.08.007

基于全文内容的学术论文研究方法
自动分类研究
章成志 1,李 卓 1,储荷婷 2
(1. 南京理工大学经济管理学院信息管理系,南京 210094;
2. Palmer School of Library and Information Science,Long Island University,New York 11548)

摘 要 对学术论文所采用的研究方法进行自动分类,有助于研究方法使用行为的分析与研究方法的评估,进而为
科研人员推荐或选择合适的研究方法提供依据。相比于摘要信息,全文内容包含更多关于研究方法的上下文信息,因
此探索基于全文内容的学术论文研究方法自动分类具有重要的意义。本研究以图书情报领域的 820 篇学术论文全文为
研究对象,邀请专家对其研究方法进行标注得到研究方法训练语料;采用多标签分类任务中问题转换法和算法自适应
法,将朴素贝叶斯与支持向量机作为问题转换法的底层分类器,构建 6 种不同的分类模型,同时选用算法自适应法中
的 ML-KNN 模型,分别对论文中使用的研究方法进行自动分类。实验结果表明,相较于学术论文的摘要信息,全文
内容在研究方法分类的性能上有较大的提升;朴素贝叶斯算法在问题转换法的分类器链策略中表现最佳,F1 值达到
0.705;另外结果也表明不同的学术论文研究方法的特征表征能力不同,训练集的规模较少会导致分类的泛化效果差。

关 键 词 研究方法分类;文本分类;全文内容;多标签分类

Using Full Content to Automatically Classify the


Research Methods of Academic Articles
Zhang Chengzhi1, Li Zhuo1 and Chu Heting2
(1. Department of Information Management, School of Economics and Management, Nanjing University of Science & Technology,
Nanjing 210094; 2. Palmer School of Library and Information Science, Long Island University, New York 11548)

Abstract:Automatic classification of the research methods used in academic papers is helpful for the evaluative analysis
of these research methods in that it provides a basis for researchers to recommend or select the appropriate methods for
their scholarly endeavors. Compared with using only abstracts for classification, the full content of articles contain more
context regarding research methods, which is of great significance in exploring such automatic classification. This study
examines the full content of 820 academic papers in the field of library and information science (LIS). Experts in the field
of the LIS annotated method went through these academic papers. Subsequently, a training corpus for the classification of
research methods was generated. We adopted the problem transformation method and algorithm adaptive method in the
multi-label classification task. Naïve Bayes and Support Vector Machine were used as the underlying classifiers of the
problem transformation method to construct six different classification models. Meanwhile, the ML-KNN model in the al‐
gorithm adaptive method was selected to automatically classify the research methods used in the chosen articles. The ex‐
perimental results showed that classification performance with the full article improved greatly when compared to using

收稿日期:2019-04-15;修回日期:2019-12-20
基金项目:国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(17ZDA291)。
作者简介:章成志,男,1977 年生,博士,教授,博士生导师,主要研究领域为信息组织、信息检索、数据挖掘及自然语言处理,E-mail:
zhangcz@njust.edu.cn;李卓,男,1997 年生,本科生,研究方向为文本挖掘;储荷婷,女,1957 年生,教授,博士生导师,主
要研究领域为信息检索、研究方法与科学交流等。
第8期 章 成 志 等 :基 于 全 文 内 容 的 学 术 论 文 研 究 方 法 自 动 分 类 研 究 853

only the abstract. The Naïve Bayes algorithm performed the best in the classifier chain strategy of the problem transforma‐
tion method, and the F1 value reached 0.705. In addition, the results also demonstrated that research methods used in differ‐
ent academic papers are represented differently. A small training set would lead to low generalizability of automatic classi‐
fication results.
Key words:classification of research methods;text classification;full-text content;multi-label classification

1 引 言 习技术有了快速发展,也为全文文本的分析与处理
提供了便利 [5] 。
学术论文是科研人员的成果展示,也是学术交 为此,本文以学术论文全文信息作为研究对
流的重要载体。学术论文所运用的研究方法是科研 象,采用多标签分类任务中问题转换法和算法自适
人员进行研究的思维形式和手段,其规范性标志着 应法,将朴素贝叶斯与支持向量机作为问题转换法
一 门 学 科 的 成 熟 程 度 [1] 。 从 某 种 意 义 上 来 讲 , 研 究 的底层分类器,构建 6 种不同的分类模型,同时选
方法是连接理论与实践的桥梁,其相关研究也就成 用算法自适应法中的 ML-KNN 模型,分别对学术论
为决定学科能否健康发展的关键。以图书情报领域 文使用的研究方法进行自动分类,并对分类结果进
为例,近几十年来,已有众多学者对研究方法的定 行评估。
义和分类体系构建进行探讨,并结合定量和定性等 利用学术论文的全文内容进行研究方法的自动
[2]
方法分析研究方法在学科中的演变及创新 。 分类研究尚属首次。本研究的意义在于:一方面,
在实证分析的过程中,学者多采用人工识别的 可以减少人工分类存在的不足,提高分类的效率,
方式对学术论文中运用的研究方法进行分类,如储 从而有助于研究人员利用大规模的数据对学术论文
荷 婷 和 Chu 等 利 用 人 工 分 类 对 发 表 在 图 书 情 报
[2] [3] 中研究方法的使用行为进行分析与评估;另一方
领域中三种国际期刊的研究方法进行内容分析,探 面,可以帮助科研人员了解学术论文的更多信息,
讨图书情报领域研究方法的分类体系以及分类标准 进而为科研人员推荐或选择合适的研究方法提供依
的合理性。人工分类目前主要面临两个问题:一方 据,在一定程度上促进相关学科的发展。
面是人工分类需要具有相关理论知识的专家进行标
注,人工成本高,同时分类过程较为烦琐,耗费时
2 相关研究工作概述
间长,无法对大规模数据进行定性和定量研究;另
研究方法是人类进行科学研究的思维形式,是
一方面,人工分类存在一定程度的主观性,不同学
构成一门学科的重要科学要素,因此对研究方法的
者对某些研究方法的理解可能有所差异,分类的准 深入探究有利于推动学科的发展和进步。早期学者
确性易受人的主观意识影响。由此可见,对学术论 主要针对学术论文所运用的研究方法进行归类和解
文所运用的研究方法进行自动分类具有重要的研究 释,并从时间的跨度来分析学科中研究方法的演
意义。 变。之后随着计算机技术的不断发展,学者开始尝
随着机器学习、自然语言处理等技术的日益成 试从学术论文中抽取与研究方法相关的信息,并利
熟,在文本自动分类和信息抽取等领域已取得了较 用机器学习的方式对研究方法进行自动分类。下面
多的成果,也有学者利用文本分类的技术对研究方 将从学术论文研究方法的研究现状、学术论文研究
法自动分类进行了探究,如 Eckle-Kohler 等 [4] 以社会 方法的抽取与分类以及文本的自动分类研究三个方
科 学 领 域 期 刊 的 1992 篇 文 章 作 为 数 据 来 源 , 对 15 面分别进行简要概述。
种不同的研究方法进行自动分类。由于学术文献开
2.1 学术论文研究方法的研究现状
放程度等问题,目前学者在语料库的选择上主要以
学术论文的题录信息为主,如文章的标题和摘要 不同学者对学术论文所运用的研究方法的分类
等,因此在分类的准确性上有待进一步提高。相比 标准有着不同的理解,由此提出了相关的理论体
而言,全文内容包含有更多的关于研究方法上下文 系,并从研究方法的使用频率和应用趋势等方面进
信息,能在一定程度上提高分类的准确性,而且全 行了探究。1983 年,Peritz[6] 选取 1972—1973 年发表
文数据相对于以前易获取,自然语言处理与机器学 在三大高影响力社科期刊的 150 篇文章,人工标注
854 情 报 学 报 第 39 卷

其研究方法类别,结果表明,发表在这些社科期刊 个阶段,分别是对方法句的抽取和方法术语的抽
上的方法论的文章要比理论性或经验性的文章被引 取,采用的方法主要包括基于规则、基于机器学习
频 率 更 高 。 2003 年 , Palvia 等 调 研 了 1993—1997
[7]
以 及 基 于 规 则 与 机 器 学 习 相 结 合 的 方 式 。 2012 年 ,
年这 5 年期间,7 种主要管理信息系统期刊使用的 Houngbo 等 [11] 提 出 了 一 种 从 大 型 科 学 语 料 库 中 提 取
调查法、框架和概念模型、实验室实验、案例研究 细粒度方法句子的简单方法,并使用基于规则和机
等 13 种方法,结果表明,调查方法始终位居前列, 器学习技术从科学研究论文中自动提取方法术语,
框架和概念模型、实验室实验和案例研究方法被广 研究表明,方法提及的背景可以帮助提取关于方法
泛应用,案例研究方法和其他定性技术有不断增长 术 语 的 重 要 信 息 。 Kovačević 等 [12] 提 出 了 一 个 用 于
的 趋 势 。 杨 溢 等 [8] 对 《全 国 报 刊 索 引》(哲 社 版) 识别自然语言处理领域科学出版物中方法论的系
收录的 1990—2001 年有关我国图书馆学情报学方法 统,该系统主要包括两个步骤,第一步是对方法句
论研究论文进行计量分析,并指出在众多研究方法 的 自 动 识 别 , 第 二 步 是 对 方 法 句 中 的 方 法 (片 段)
中,专门研究方法是图书馆学情报学方法论的核 进行提取,并归为 4 个语义类别:任务、方法、资
心,其运用是这门学科成熟的标志。2010 年,王芳 源/功 能 和 实 现 。 2013 年 , 化 柏 林 [13] 提 出 了 一 种 词
等 [9] 对 1999—2008 年这 10 年间 《情报学报》 全部学 表与规则相结合的方法,从中文学术文献中抽取情
术 论 文 共 1174 篇 的 研 究 方 法 进 行 了 逐 篇 分 析 与 统 报方法术语,进行同义归并处理,得到情报方法术
计,结果表明,我国情报学研究方法的科学化与理 语库,并以 《情报学报》 2012 年全文作为实验数据
论化趋势正在逐年增强。2014 年,储荷婷 对图书 [2]
证明了该方法的有效性。随后,化柏林 [14] 将方法知
情 报 领 域 三 种 国 际 期 刊 2001—2010 年 发 表 的 1162 识元总结为 5 种类型,对论文中关于方法描述的句
篇论文的研究方法进行内容分析,研究发现,图书 子进行抽取,通过过滤句子中的领域关键词形成句
情报学领域的学者比以前采用了更多的研究方法, 子描述结构,在此基础上经过人工审核与合并归
与以前相比,内容分析、实验方法和理论方法成为 类,形成方法知识元的描述规则。
这个领域选择较多的研究方法。在随后的研究中, 关于研究方法的分类主要分为人工分类和计算
Chu 等 对 16 种 研 究 方 法 进 行 了 详 细 的 解 释 , 并 表
[3]
机自动分类两种方式。由于早期的研究多是探究性
明研究方法包括数据收集技术 (如访谈、观察) 和 的,且计算机技术以及电子数据库不完善等因素,
数 据 分 析 技 术 (如 定 性 、 定 量); 研 究 方 法 也 许 应 采用的语料规模较小,学者通过全文信息人工识别
该按照数据收集技术进行分类,因为它比研究方法 论 文 的 研 究 方 法 [1-3,6-10] , 并 将 学 科 中 所 运 用 的 研 究
被标记为定性或定量更有意义。2016 年,魏瑞斌 [1] 方法进行归类和比较,以确定其分类体系。近些年
提出一个研究方法创新的分类体系和分析流程,基 来,随着文本挖掘技术的不断成熟,也有相关学者
于内容分析法对共词分析论文进行实证研究,发现 采用机器学习的方式对研究方法进行自动分类。如
共词方法改进性研究的成果相对较少,而在共词方 2013 年 , Eckle-Kohler 等 [4] 以 社 会 科 学 领 域 期 刊 的
法 应 用 方 面 的 研 究 较 多 。 2017 年 , Togia 等 [10] 对 图 1992 篇 文 章 作 为 数 据 来 源 , 并 确 定 了 15 种 不 同 的
书情报领域五大国际知名期刊中 440 篇文章进行分 研究方法,利用不同的分类器对文章的摘要进行模
析,结果表明,绝大多数实证研究文章采用了定量 型训练,研究结果显示,在所有的研究方法类别
方法,且研究方法的数量和种类有所增加,定性方 中,最高的 F1 值为 0.68,作者表示使用全文内容进
法越来越重要,并且在图书情报领域中发挥作用, 行研究方法自动分类可能带来性能的提升。相比于
而混合方法在图书情报领域研究中尚未得到足够的 人工识别研究方法,对研究方法进行自动分类可以
认可。由上述研究可以看出,不同学者对研究方法 处理更大规模的数据,且运行效率较高、人工成本
的立论角度和分类标准是不同的,为了更好地分析 低,但由于对研究方法的自动分类研究多采用监督
研究方法的使用趋势,学者们构建了各种不同的专 学习的方式,前期依旧需要人工标注少量数据以作
门性方法体系结构,进而形成当前多种体系并存的 为训练样本。目前关于研究方法的自动分类研究相
格局。 对较少,一方面,由于开放访问策略还不常见,许
多大型出版物数据库仅免费提供摘要和基于摘要的
2.2 学术论文研究方法的抽取与分类
关键词搜索,对全文的访问受到限制,因此很难基
对学术论文中的研究方法进行抽取一般采取两 于全文信息进行研究方法自动分类;另一方面,目
第8期 章 成 志 等 :基 于 全 文 内 容 的 学 术 论 文 研 究 方 法 自 动 分 类 研 究 855

前学者针对研究方法的定义和分类体系还没有统一 习自动分类来量化社科类论文的跨学科性的方法,
的标准,在对研究方法关于技术层面的研究也多以 根 据 论 文 的 题 录 信 息 , 使 用 KNN 算 法 对 社 科 类 论
方法术语抽取为主,很少涉及研究方法的自动分 文进行自动分类,根据分类结果提出定量研究跨学
类,因此相关成果也较少。 科性的指标——跨学科度,并提出其计算方法。近
年来,随着深度学习的兴起,利用卷积神经网络的
2.3 文本的自动分类研究
文 本 分 类 方 法 也 得 到 了 一 些 有 效 的 尝 试 , 如 Zhang
随着互联网的快速发展,信息已经呈现爆炸增 等 [19] 对字符级卷积网络在文本分类中的应用进行了
长的趋势。同样在学术领域中,文献的数量也在急 实证研究,并构建了几个大规模的数据集,以证明
剧增加,以往通过人工对文献进行分类的方式,由 字符级卷积网络可以达到最先进的或具有竞争力的
于过程烦琐、耗时长等问题已无法满足实际工作的 结 果 。 Lai 等 [20] 引 入 一 种 不 需 要 人 工 设 计 特 征 的 卷
需要,因此关于文本自动分类的相关研究也日益 积神经网络进行文本分类,利用循环结构来尽可能
增多。 识别上下文信息,并使用最大池化层以识别文本中
徐军等 [15] 利用朴素贝叶斯和最大熵方法进行新 的关键特征,实验结果表明,该方法在文档级数据
闻及评论语料的情感分类研究,结果表明,对于基 集上优于最新的方法。从以上研究可以看出,文本
于情感的文本分类,选择具有语义倾向的词汇作为 自动分类技术已在新闻、文献等语料中得到了广泛

特征项、对否定词正确处理和采用二值作为特征项 的应用,利用传统的机器学习方式进行文本分类研
究相对较为成熟,而且学者针对特定的任务,在特
权重能提高分类的准确率。王昊等 [16] 将机器学习的
征工程方面做了改进,以提高文本分类的准确性。
思想运用到期刊论文的自动分类领域,利用特征加
权和浅层次分类方法以实现期刊论文的中图法分
3 研究内容
类,研究表明,机器学习方法在期刊论文的自动分
类方面具有较高的可行性、合理性和有效性。Hef‐ 本研究从机器学习的角度,以图书情报领域为
fernan 等 [17]
提出一种识别科技文本中问题和解决方 例,将学术论文的全文信息作为研究对象,分析学
案语句的方法,利用多种分类器采用监督学习的方 术论文中研究方法的自动分类情况,并进一步从分
式对自然语言处理领域的文章进行训练,结果显 类的模型和语料的角度对结果进行评估,以探究研
示 , 对 问 题 的 识 别 准 确 率 为 82.3%, 对 方 案 的 识 别 究方法自动分类的准确性和合理性。基本研究框架
准 确 率 达 到 79.9%。 刘 浏 等 [18]
提出一种利用机器学 如图 1 所示。

图1 研究框架图

3.1 研究数据集 研 究 方 法 (如 表 1 所 示), 研 究 方 法 主 要 是 依 据 相


应的数据收集法命名的,例如,以问卷收集数据的
本 文 利 用 Chu 等 [3] 标 注 的 数 据 集 , 即 《美 国 信
研究方法为问卷法,而访谈收集数据的研究方法则
息 科 学 与 技 术 学 会 会 刊》(Journal of the American 为 访 谈 法 [2] 。 两 位 专 家 采 取 人 工 标 注 的 方 式 , 参 照
Society for Information Science and Technology, 已 改 相同的原则,分别识别论文中出现的研究方法,两
名 为 Journal of the Association for Information Science 者 之 间 所 有 标 注 的 一 致 性 为 91.7%, 经 比 较 和 讨 论
and Technology,简称 JASIS&T) 2003—2008 年刊载 最终确定统一的标注结果 [2-3] 。根据标注数据中提供
的总共 820 篇文章作为研究对象。在该研究中,储 的文章 DOI 信息 (如表 2 所示),本文从 Wiley 数据
荷 婷 与 柯 青 两 位 专 家 归 纳 了 图 书 情 报 领 域 的 16 种 库 (https://www.wiley.com) 中 下 载 已 标 注 文 章 的 题
856 情 报 学 报 第 39 卷

表1 研究方法分类编码[3]
编号 研究方法 编号 研究方法
1 文献计量学(包括引文分析、情报计量学与科学计量学) 9 观察法
2 内容分析法(包括语篇分析) 10 问卷法
3 德尔菲研究 11 研究日记/日志
4 民族志/实地调查 12 理论研讨法(如概念分析、模型/理论构建)
5 实验法 13 出声思考法
6 焦点小组 14 系统使用记录分析
7 历史研究法 15 Web 计量法(包括链接分析、网络计量学和新兴计量学)
8 访谈法 16 其他方法(如行动研究、卡片归类法、信息范畴法)

表2 学术论文研究方法的标注样例
年份/卷期/起止页码 论文标题 研究方法 论文 DOI
2003-54(1)p.3-15 Matchsimile:A flexible approximate matching tool for searching proper names 实验法 10.1002/asi.10178
Mapping information policy frames:The politics of the digital millennium copyright 内容
2004-55(1)p.3-12 10.1002/asi.10339
act 分析法
访谈法、内容
2005-56(1)p.13-22 The social and discursive construction of computing skills 10.1002/asi.20091
分析法
问卷法、
2006-57(1)p.36-43 Factors governing the consumption of explicit knowledge 10.1002/asi.20250
民族志

录信息及其全文信息,并构建学术论文研究方法自 果不好等问题。为了避免样本过少所造成训练结果
动分类的数据集。 欠拟合等问题,本文对数据的标签进行了处理,通
过筛除样本数较少的类别来保证分类的有效性,其
3.2 数据预处理
步骤主要如下:①将文献计量法与万维网计量法合
为了更加明确分类任务的处理方式和策略,本 并为计量法,由于两者都属于计量内容的范畴,故
文对获取到的 820 篇论文所涉及的 16 种研究方法的 在特征上有较多的相似之处;②将包含样本较少的
样本数量进行了统计,其分布情况如图 2 所示。需 类别 (样本数量低于 100 条的研究方法) 进行合并
要说明的是,一篇学术论文可能存在多种研究方 处理,统一标注为其他方法,经过处理之后,本文
法,该图只是显示包含某种研究方法的样本数量。 中包含其他方法的样本为 131 条。由此本研究分类
任务中所涉及的研究方法为 7 种,且每种类别的样
本数量均超过 100 条。
构建学术论文研究方法的数据集后,本文对数
据的文本内容进行了预处理,以去除一些无用的信
息,从而提高分类结果的准确性。预处理过程主要
包括两个方面:去停用词与词干提取。其中词干提
取主要是将具有相同词根的单词识别出来,并用统
一的词根进行表示。在此基础之上,本文还对文本
图2 不同类别研究方法的样本数量比较图
进行统一大小写、去标点和数字、去除少于 3 个字
由图 2 可见,在该标注数据集中,包含样本最 母的单词的处理。
多的类别为实验法,总共有 299 篇文章,而文献计
3.3 特征选择与文本表示
量法、内容分析法、问卷法、理论研讨法也均超过
了 100 篇 文 章 。 相 对 而 言 , 德 尔 菲 研 究 、 民 族 志 、 在对学术论文的文本内容进行预处理之后,需
焦点小组、历史研究、研究日记、出声思考、其他 要选取有意义的特征项,以降低特征空间的维数,
等 研 究 方 法 样 本 数 量 均 不 超 过 20 篇 。 因 此 在 分 类 提高分类的效率和精度。由于本文主要将文本信息
的过程中,需要考虑到类别不均衡所造成的泛化效 作为训练数据的输入,故考虑采用词类型特征 (N-
第8期 章 成 志 等 :基 于 全 文 内 容 的 学 术 论 文 研 究 方 法 自 动 分 类 研 究 857

Gram) 作 为 分 类 的 特 征 项 , 并 通 过 卡 方 检 验 (χ 2) 其 中 向 量 空 间 模 型 (vector space model, VSM) [22]


的方法进行特征提取。考虑到本研究中不同类别的 具有代表性,为了更好地表示文档中特征项的权重,
样本较少,本文利用特征项的词频对卡方公式进行 本文采用 TF*IDF 方法作为计量指标,其公式为
改进,其公式 [21] 为

χ 2 ( t,c ) =
N × ( AD - CB )
2

(1)
TF ij *IDF i = tf ij * log ( N +1
ni + 1
+1 ) (3)

(A + C) (B + D) (A + B) (C + D) 式 中 , N 为 文 档 总 数 ; ni 表 示 文 档 集 合 中 包 含 特 征
式中,N 表示训练语料中的特征项的总数量;C 为 项 i 的文档个数。通过 TF*IDF 方法为每个特征项赋
某一研究方法类别; t 表示特征项; A 表示属于 c 类 予权重之后,可能会存在一篇文档中不同特征项的
且包含 t 的频数;B 表示不属于 c 类但是包含 t 的频 权重差别过大的问题,进而会影响后续过程中涉及
数; C 表示属于 c 类但是不包含 t 的频数; D 是既不 的余弦距离计算等问题,因此还需要对向量的权重
属于 c 也不包含 t 的频数。在卡方特征提取的过程 进行标准化处理,以缩小值之间的差距。本文采用
中,对于多类别问题,当特征项对于某类的 χ 2 统计 欧 几 里 得 范 式 (Euclidean-norm) 来 进 行 标 准 化 处
值越高,则它与该类别之间的相关性越大,携带的 理,让权重值位于(0,1)区间内,其公式为
类别信息也越多,因此需要分别计算特征项 t 对于 v
V = (4)
每个类别的 χ 2 值,并将该特征项归到其最大的 χ 2 值 v 1 + v 2 + ⋯ + v 2n
2 2

所对应的类别,其公式 [21] 为
3.4 研究方法分类模型构建
2
χ max ( t ) = max mi= 1 χ 2 ( t,c i ) (2)
式 中 , m 为 研 究 方 法 的 种 类 数 ; ci 为 研 究 方 法 的 类 在本研究中,一篇学术论文可包含多种研究方
别。本文将不同类别的特征项的 χ 值降序排列,通 2 法。为此,本文对数据集中样本所包含研究方法的
过设置百分比的方式来选取一定数量的特征项,最 种数进行了统计,结果如表 3 所示。由表 3 中实际
后用筛选出的特征项构建特征词表。 样本的标签分布情况,可以观察到 73.9% 的样本为
在分类的过程中,需要将具有结构化的数据作 单标签,即文章中只包含一种研究方法,而在剩下
为输入项,通常情况下会将文本表示成向量形式, 的多标签样本中,研究方法主要包含 2~3 个类别。

表3 包含不同种数研究方法的论文分布情况
方法类别数 1 2 3 4 5 6 合计
论文数(比例) 606(73.90%) 134(16.34%) 59(7.20%) 16(1.95%) 4(0.49%) 1(0.12%) 820(100%)

由此可见,本研究属于文本分类任务中的多标 该二分类器的类别,最后将全部二分类器结果组合
签分类问题。假设本研究的数据集为 D = { d 1 ,d 2 ,⋯, 在一起,作为该样本最终的标签分类结果,此方法
d i ,⋯d m} , 研 究 方 法 的 类 别 集 合 为 C = { c 1 ,c 2 ,⋯,c n}, 并没有考虑标签之间的相关性。
其中 m 表示数据集中样本的规模,n 表示研究方法 (2) 分 类 器 链 法 [25] 在 BR 的 基 础 上 , 将 n 个 二
的类别数量,则对于每一篇学术论文 d i ,其运用的 分类器连接成一条链,即将 n 个标签按照一定的顺
研究方法都可表示为 C i = { c i1 ,c i2 ,⋯,c ik },且 C i ⊆ C 。 序进行排序,然后依次对每个标签构建一个二分类
在多标签分类任务中,常见的分类方法包括问 器,并将每次训练的结果继续代入下一个二分类器
题转换法和算法适应法。依据是否考虑标签之间的 中训练,依据每个二分器的预测结果得到最终的标
关联性,可以将问题转换法分为三种策略,分别为 签集合,这在一定程度上考虑了标签之间的关联
二 元 关 联 法 (binary relevance, BR)、 分 类 器 链 法 性,但结果的好坏受到标签顺序的影响。
(classifier chain, CC) 以 及 标 签 幂 集 法 (label pow‐ (3) 标签幂集法 [26] 的基本思想是:将每一个样
erset,LP) [23] 。 本的标签集看做一个单标签,并将出现的标签集划
(1) 二 元 关 联 法 [24] 的 基 本 思 想 为 : 对 于 n 个 标 分成不同类别,进而转化成单标签中多类别分类问
签训练 n 个二分类器,即产生 n 个数据集,每个数 题。为了弥补 LP 方法可能产生的数据偏斜等问题,
据集包含所有的训练样本,对于每个二分类器,包 通 常 采 用 LP 的 改 进 方 法 ——RAkEL (random k-la‐
含在该数据集中的所有样本,仅被标注出是否属于 belsets), RAkEL 方 法 充 分 考 虑 了 标 签 之 间 的 依 赖
858 情 报 学 报 第 39 卷

关系,该方法首先随机生成互不相同的小规模标签 的调和平均数。
子 集 , 然 后 依 据 标 签 子 集 的 数 量 训 练 多 个 LP 分 类
4.2 参数设置
器,通过统计每个子分类器对相应标签的投票,由
投票支持率对所有标签进行相关程度排序,通过阈 本文采用五折交叉验证,利用类型抽样法将数
值筛选得到最相关的几个类别作为待预测样本的最 据 集 以 4∶1 的 比 例 划 分 为 训 练 集 和 测 试 集 , 训 练
终预测结果 [27]
。 集和测试集不含有重复的样本,选取 F 1 值作为评价
算法适应法是将常规的分类算法进行改进以适 指标,以得到训练过程的最优参数,其详细的参数
应 多 标 签 分 类 任 务 , 其 中 应 用 较 广 的 为 ML-KNN 设置信息如表 4 所示。
(multi-label k-nearest neighbor) [28]
,该方法基于 K 近
表4 训练过程的参数设置
邻 算 法 (k-nearest neighbor, KNN), 基 本 步 骤 为 :
①首先,为每个测试样本选择训练集中最近的 k 个
参数 具体设置

示例;②接着,获得这些相邻实例的标签分布信
N-Gram 1-Gram、2-Gram
χ2 percent:
[20%,30%,40%,50%,60%]
息;③最后,根据后验概率最大化的规则确定测试
SVM kernel:
['rbf','linear']、C:
[0.1,0.3,0.5,0.7,1.0]
实例的标签集,此方法并不考虑标签之间的相
NB alpha:
[0.1,0.3,0.5,0.7,1.0]
关性。 ML-KNN K:
[1,2,3,4]、S:
[0.1,0.3,0.5,0.7,1.0]
本文在问题转换法中,考虑到训练样本规模较
小、分类算法自身的准确性等因素,最终选择朴素 (1) 特 征 参 数 。 在 词 类 型 特 征 (N-Gram) 中 ,
贝叶斯算法 (naïve Bayes,NB) [29] 和支持向量机算 主 要 考 虑 1-Gram 以 及 2-Gram, 即 文 本 的 一 元 特 征
法 (support vector machine,SVM) [30] 作为底层分类 和二元特征。在卡方特征提取中,以 10% 的梯度设
器。在本研究中,我们通过以上几种分类方法分别 置相应的比例作为筛选特征项的阈值。结果表明,
对数据进行训练,并根据分类的结果评估不同方法 在卡方特征提取中选取前 30% 的 1-Gram 效果最佳。
之间的适用性,以及不同分类器之间的差异性。 (2) 分 类 器 参 数 。 在 SVM 分 类 器 中 主 要 考 虑
的 参 数 有 核 函 数 (kernel) 以 及 惩 罚 因 子 (C), 在
4 实验与结果分析 NB 分 类 器 中 考 虑 平 滑 因 子 (α), 而 ML-KNN 分 类
器主要考虑了 K 值以及平滑因子 (S),其他参数设
4.1 评价指标
置 均 为 默 认 。 需 要 说 明 的 是 , 在 NB 分 类 器 中 , 由
在多标签分类任务中,常见的评价指标主要包 于 特 征 为 词 类 型 , 权 重 为 TF*IDF 值 , 因 此 条 件 概
括两类:基于样本的评价指标和基于标签的评价指 率分布的形式选用多项式分布,对于 RAkEL 算法,
[27]
标 。考虑到样本的标签实际分布情况,即大部分 标签子集大小设置 k=3 (类别数量的一半),模型的
的样本为单标签,且类别的样本数量不均衡,以及 个数设置 m=14 (类别数量的 2 倍)。
分类策略的选择等因素,本文选取基于样本的准确
4.3 结果分析
率、召回率和 F1 值作为评价指标。其计算公式为
1 N yi ∩ h ( xi )
| | 4.3.1 不同分类模型的结果比较分析
N∑
Precision = (5)
i=1 h ( xi ) 本文将学术论文的全文内容数据集按照多标签
1 N yi ∩ h ( xi )
| | 分类中问题转换法和算法自适应法,将朴素贝叶斯
N∑
Recall = (6)
i=1 |y i| 与支持向量机作为问题转换法的底层分类器,构建
2 × Precision × Recall 6 种不同的分类模型,同时选用算法自适应法中的
F1 = (7)
Precision + Recall ML-KNN 模型,分别进行自动分类研究,得到结果
式中, N 表示样本空间的数量; y i 表示实际的研究方 如表 5 所示。
法标签; h ( x i ) 表示预测的研究方法标签; Precision 由表 5 可见,在学术论文研究方法自动分类任
表示准确率,即被正确预测出来的研究方法数量占 务中,朴素贝叶斯算法在分类器链上表现最佳,整
被 预 测 出 的 研 究 方 法 数 量 的 比 例 ; Recall 表 示 召 回 体 的 F1 值 达 到 0.705。 就 总 体 来 看 , 使 用 不 同 的 分
率,即被正确识别出来的研究方法数量占实际样本 类算法和分类策略所产生的结果存在一定的差异,
中的研究方法数量的比例; F 1 表示准确率和召回率 对比支持向量机和朴素贝叶斯算法的结果可以发
第8期 章 成 志 等 :基 于 全 文 内 容 的 学 术 论 文 研 究 方 法 自 动 分 类 研 究 859

表5 不同分类器之间的结果比较 接近于单标签分类中的多类别分类任务,这也能合
分类器 理地解释二元关联法与分类器链法中的结果较为接
指标 ML- BR- CC- RAkEL- RAkEL- 近,且结果表现较好的现象。
BR-NB CC-NB
KNN SVM SVM SVM NB
P 0.558 0.578 0.656 0.569 0.646 0.478 0.449 4.3.2 全文信息对分类结果的影响
R 0.598 0.826 0.751 0.836 0.775 0.796 0.404
与 Eckle-Kohler 等 [4] 的研究相比,本文在分类结
F1 0.577 0.680 0.701 0.677 0.705 0.597 0.426
果 上 表 现 较 好 , 最 好 的 分 类 器 F1 值 达 到 0.705, 而
现 , SVM 算 法 在 召 回 率 上 表 现 较 好 , 而 朴 素 贝 叶 在 Eckle-Kohler 的 研 究 中 , 最 好 的 分 类 器 F1 值 为
斯算法在准确率上更胜一筹,但两者之间的 F1 值差 0.532。其主要原因可能与训练集的文本规模不同有
异较小;对比不同的分类方式,可以发现问题转换 关 , Eckle-Kohler 的 研 究 将 摘 要 作 为 模 型 输 入 , 尽
法的结果表现较好,而 ML-KNN 算法无论是在准确 管他们的数据样本包括 1992 篇语料,但本研究将全
率还是召回率中均表现一般。在问题转换法中,发 文的信息作为模型输入,在 820 篇语料的分类中结
现不同的算法在二元关联法与分类器链法中的结果 果表现仍然较好。为了比较全文内容所能反映的分
较为接近,相比而言,标签幂集法的分类效果较 类效果,本文设置三组对比实验,分别将全文内
差。考虑到标签密集法侧重于标签之间的关联性, 容、摘要内容和全文加摘要内容作为模型的输入,
由此可以推测出不同研究方法之间的关联性较小, 利用五折交叉验证,依次得到不同分类器的结果以
这也能从侧面反映出研究方法划分体系的独立性。 及不同数据的特征项平均数,以探究不同数据规模
此外由于单标签样本占比较多 (见表 3),分类任务 所带来的分类性能差异。结果如表 6 所示。

表6 不同文本内容作为模型输入的结果比较
分类器 特征项
依据 指标
ML-KNN BR-SVM BR-NB CC-SVM CC-NB RAkEL-SVM RAkEL-NB 平均数

P 0.481 0.465 0.593 0.458 0.581 0.440 0.581


摘要 R 0.509 0.811 0.727 0.800 0.752 0.756 0.533 621
F1 0.494 0.591 0.653 0.583 0.656 0.557 0.556
P 0.558 0.578 0.656 0.569 0.646 0.478 0.449
全文 R 0.598 0.826 0.751 0.836 0.775 0.796 0.404 3713
F1 0.577 0.680 0.701 0.677 0.705 0.597 0.426
P 0.556 0.581 0.655 0.570 0.649 0.503 0.518
摘要+全文 R 0.594 0.830 0.746 0.833 0.774 0.808 0.454 3735
F1 0.575 0.683 0.697 0.677 0.706 0.620 0.483

从表 6 中的结果可以看出,在以上 7 种分类模 加摘要的内容,只是在一定程度上增加了部分特征


型 中 , 分 别 有 ML-KNN、 BR-NB、 BR-SVM、 CC- 项的权重,对结果的影响不是很大。若仅仅只是将
SVM、 CC-NB、 Rakel-SVM 共 6 种 模 型 , 基 于 全 文 摘要内容作为输入,则由于文本规模的限制,在很

的结果相比于基于摘要的结果,无论是准确率还是 大程度上缺失了许多重要的特征,从而影响分类性
能 。 另 外 , 从 表 6 中 的 结 果 可 以 发 现 , 在 RAkEL-
召回率,均得到了较大的提升,这与预期的结果较
NB 模 型 中 , 摘 要 比 全 文 作 为 模 型 输 入 的 结 果 表 现
为相符。同时,将基于全文的结果与基于全文和摘
更好,通过对样本的具体分类结果进行深入分析,
要的结果进行比较,发现两者之间的差异较小。而
发现该模型在样本较少的类别的训练结果中表现较
在 所 有 分 类 结 果 中 可 以 看 出 , 以 CC-NB 作 为 分 类 差,随着特征项增多,样本少的类别泛化能力更
器,将摘要和全文作为模型输入的分类效果最好, 弱,从而影响整体的分类结果,由此导致该模型在
F1 值达到 0.706。 包含特征项较少的摘要的结果中优于全文的结果,
在实际的分类任务中,摘要中所涉及的特征项 这也说明该模型受数据不均衡的影响较大。
在全文中一般均有反映,因此与全文内容相比,增 由于学术文献开放获取等一系列因素的限制,
860 情 报 学 报 第 39 卷

在已有关于学术论文的分类任务中,多以论文的题 由于“内容分析法”主要是通过对使用文本或其他
录信息作为数据来源,如摘要、关键词、标题等, 段 落 的 情 况 进 行 系 统 审 查 来 收 集 数 据 [3] , 因 此 与 其
虽然题录内容包含了论文所表达的重要观点和信 较为相关的特征项较少,从而导致特征的表征能力
息,但在文本规模上仍属于短文本分类的范畴。由 不强,分类效果较差;而“其他方法”在本文中定
此可见,随着学术文献开放获取的日益成熟,文献 义为许多方法的综合,因此无较为明显的特征。
全文的信息将更加容易获取,相关分类任务的性能 为了更好地说明不同研究方法的特征表征能力
也将得到一定的提升。 不同,本文将计量法与内容分析法的一元特征与二
4.3.3 不同方法类型的分类结果比较分析 元 特 征 进 行 了 统 计 , 并 将 χ 2 值 前 10 位 的 特 征 项 通
过词根还原展示在表 8 中,其中括号内为特征项的
为了探索本研究在实际分类任务中的可行性,
取整 χ 2 值。由表 8 可见,在计量法中,排在前 10 位
本文将表现最好的模型 (CC-NB) 在全文数据上进
的特征项的 χ 2 值相比于内容分析法更大,且如“ci‐
行了训练,并将不同研究方法的五折交叉验证结果
tation”、“impact factor”、“highly cited”等词汇与引
进行了统计,其结果如表 7 所示。
文分析和科学计量的内容相关,较能反映计量法中

表7 不同研究方法之间的结果比较(CC-NB)
一些常用的特征,而在内容分析法中,并没有较为

研究方法类别 训练集数量平均值 测试集数量平均值 F1 均值


明显反映该研究方法的相关词汇,出现的多为研究
实验法 240 59 0.836 内容的词汇,因此其表征能力较弱。
计量法 133 39 0.803 将 以 上 关 于 不 同 方 法 类 型 的 研 究 结 果 与 Eckle-
问卷法 132 35 0.556 Kohler 等 [4] 的研究进行对比,可以发现一些异同点。
理论研讨法 114 25 0.534 两者均在样本较多的研究方法中表现较好,但本文
内容分析法 99 34 0.460 中 最 高 的 F1 达 到 0.836, 而 Eckle-Kohler 等 [4] 的 研 究
访谈法 80 20 0.525 为 0.678, 其 原 因 可 能 是 由 于 文 本 的 规 模 不 同 所 造
其他方法 108 23 0.443
成 的 , 具 体 细 节 在 第 4.3.2 节 中 已 作 阐 述 。 综 上 所
述,在实际的分类任务中,对于出现频次较多以及
由表 7 可见,分类器针对不同研究方法的分类
具有较强表征能力的研究方法,本研究的分类模型
效果不同,其中在“实验法”中分类效果最好,F1
具有一定的实用性,另外,随着训练的样本增多,
值 达 到 0.836。 从 训 练 的 样 本 规 模 来 看 ,“ 实 验 法 ”
本文的分类效果也将会在一定程度上得到提升。
的样本数量最多,这也说明模型训练的结果容易受
样本集的规模影响,训练集的数据越多,越有利于 5 结论与未来展望
模型找到更多相关的特征,从而使泛化能力更强。
尽 管 如 此 ,“ 计 量 法 ” 样 本 规 模 虽 然 与 其 他 的 本文以图书情报领域为例,对学术论文中使用
研 究 方 法 相 似 , 但 是 F1 值 也 达 到 了 0.803, 而 “ 内 的研究方法进行自动分类研究,通过对比不同的分
容 分 析 法 ” 与 “ 其 他 方 法 ” 的 F1 值 分 别 为 0.460 和 类器和分类策略,可以得出朴素贝叶斯算法在分类
0.443,这说明不同研究方法的特征项的表征能力不 器 链 上 表 现 最 佳 , 整 体 的 F1 值 达 到 0.705。 在 对 比
同,运用计量法的文章具有更加容易区分的特征, 不同的数据作为模型输入时,发现全文信息相对于
其原因可能与不同研究方法的定义有一定的关联; 摘要信息在分类性能上有较大的提升。另外,在分

表8 计量法与内容分析法的 Top 10 特征项及权重样例(以每个类别分类结果最高 F1 值对应的训练集为例)


类别
特征
计量法 内容分析法
citation(19257)、journal(16295)、cited(7341)、article(5071)、author patent(1591)、genre(1100)、portfolio(748)、abstract(714)、disaster
一元
(4203)、public(3095)、impact(3072)、science(3043)、count(2086)、 (608)、political(581)、errata(514)、tier(455)、patron(454)、librarian
特征
paper(2584) (433)
impact factor(2486)、citation counts(1641)、journal impact(1023)、 web portfolios(555)、school librarianship(318)、search experience
二元 journal articles(1006)、web citations(989)、articles published(964)、 (311)、book loans(296)、web communities(292)、category labels
特征 cited articles(902)、highly cited(827)、citation analysis(814)、cited (253)、feature article(255)、structural elements(253)、basic level
papers(754) (244)、personal web(213)
第8期 章 成 志 等 :基 于 全 文 内 容 的 学 术 论 文 研 究 方 法 自 动 分 类 研 究 861

析不同标签的分类效果时,发现不同的研究方法所 289-309.

在的文章的特征表征能力不同,如“计量法”所包 [8] 杨溢, 李伟超 . 1990—2001 年我国图书馆学情报学方法论研究

含的特征项表征能力较强,同时结果也表明训练集 统计分析[J]. 图书馆, 2003(5): 31-34.


[9] 王芳, 王向女 . 我国情报学研究方法的计量分析: 以 1999~2008
的规模在一定程度上会影响分类的结果,样本规模
年《情报学报》为例[J]. 情报学报, 2010, 29(4): 652-662.
较少的类别在分类的泛化效果中表现较差。
[10] Togia A, Malliari A. Research methods in library and information
就全文来看,本研究在基于全文信息的研究方
science[EB/OL]. [2019-04-01]. https://www. intechopen. com/
法自动分类任务中得到有效的尝试,但也存在一定
books/qualitative-versus-quantitative-research/research-methods-
的局限性,由于数据集的规模较小,本文只对使用
in-library-and-information-science.
频次较多的研究方法进行分类研究,而忽略了包含 [11] Houngbo H, Mercer R E. Method mention extraction from scien‐
样本较少的研究方法。另外本文只考虑了全文的词 tific research papers[C]// Proceedings of 26th International Con‐
类型特征,因此在结果上仍有很大的提升空间。在 ference on Computational Linguistics. The COLING 2012 Orga‐
今后的研究中,我们可以从五个方面对研究方法自 nizing Committee, 2012: 1211-1222.
动分类问题进行进一步优化,即:①进一步优化文 [12] Kovačević A, Konjović Z, Milosavljević B, et al. Mining method‐
本多标签分类模型,提升分类效果;②进一步优化 ologies from NLP publications: A case study in automatic termi‐

可以进一步扩充数据集的规模,提升模型训练的效 nology recognition[J]. Computer Speech & Language, 2012, 26

果,同时选取不同领域的研究方法进行分析,使分 (2): 105-126.

类的结果具有一定的普适性;③通过优化数据采 [13] 化柏林 . 针对中文学术文献的情报方法术语抽取[J]. 现代图书


情报技术, 2013(6): 68-75.
样 、 算 法 优 化 (如 在 模 型 训 练 过 程 中 引 入 惩 罚 因
[14] 化柏林 . 学术论文中方法知识元的类型与描述规则研究[J]. 中
子) 等方法解决减少非均衡样本对分类结果造成的
国图书馆学报, 2016, 42(1): 30-40.
偏差,从而进一步提升不同研究方法的分类效果;
[15] 徐军, 丁宇新, 王晓龙 . 使用机器学习方法进行新闻的情感自
④可以考虑结合信息抽取的方法,识别方法句和方
动分类[J]. 中文信息学报, 2007, 21(6): 95-100.
法术语,提高特征项的表征能力,以及运用深度学
[16] 王昊, 叶鹏, 邓三鸿 . 机器学习在中文期刊论文自动分类研究
习的方法对研究方法进行分类;⑤可以从学术论文 中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
段落的角度进行分析,如引言、相关工作等,以探 [17] Heffernan K, Teufel S. Identifying problems and solutions in sci‐
究不同位置运用研究方法的差异。 entific text[J]. Scientometrics, 2018, 116(2): 1367-1382.
[18] 刘浏, 王东波 . 基于论文自动分类的社科类学科跨学科性研究
参 考 文 献
[J]. 数据分析与知识发现, 2018, 2(3): 30-38.

[1] 魏瑞斌 . 基于内容分析的国内图书情报学研究方法创新研 [19] Zhang X, Zhao J, Lecun Y. Character-level convolutional net‐

究——以共词分析方法为例[J]. 图书情报工作, 2016, 60(24): works for text classification[C]// Proceedings of the 29th Annual

107-114. Conference on Neural Information Processing Systems, Montre‐

[2] 储荷婷 . 图书馆情报学界的研究方法:实践与发展[J]. 国家图书 al, Canada, 2015: 649-657.

馆学刊, 2014, 23(3): 3-14. [20] Lai S W, Xu L H, Liu K, et al. Recurrent convolutional neural net‐

[3] Chu H T, Ke Q. Research methods: What 􀆳 s in the name? [J]. Li‐ works for text classification[C]// Proceedings of the Twenty-
brary & Information Science Research, 2017, 39(4): 284-294. Ninth AAAI Conference on Artificial Intelligence. Palo Alto:
[4] Eckle-Kohler J, Nghiem T D, Gurevych I. Automatically assign‐ AAAI Press, 2015: 2267-2273.
ing research methods to journal articles in the domain of social [21] 代六玲, 黄河燕, 陈肇雄 . 中文文本分类中特征抽取方法的比
sciences[J]. Proceedings of the American Society for Information 较研究[J]. 中文信息学报, 2004, 18(1): 26-32.
Science and Technology, 2013, 50(1): 1-8. [22] Yang Y, Pedersen J. A comparative study on feature selection in
[5] 顾立平 . 科研模式变革中的数据管理服务:实现开放获取、开放 text categorization[C]// Proceedings of the 14th International
数据、开放科学的途径[J]. 中国图书馆学报, 2018, 44(6): 43-58. Conference on Machine Learning, Nashville, USA, 1997: 412-420.
[6] Peritz B C. Are methodological papers more cited than theoretical [23] Zhang M L, Zhou Z H. A review on multi-label learning algo‐
or empirical ones? The case of sociology[J]. Scientometrics, rithms[J]. IEEE Transactions on Knowledge and Data Engineer‐
1983, 5(4): 211-218. ing, 2014, 26(8): 1819-1837.
[7] Palvia P, Mao E, Salam A F, et al. Management information sys‐ [24] Boutell M R, Luo J B, Shen X P, et al. Learning multi-label scene
tems research: What’s there in a methodology? [J]. Communica‐ classification[J]. Pattern Recognition, 2004, 37(9): 1757-1771.
tions of the Association for Information Systems, 2003, 11: [25] Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-
862 情 报 学 报 第 39 卷

label classification[C]// Proceedings of the European Conference [28] Zhang M L, Zhou Z H. ML-KNN: A lazy learning approach to
on Machine Learning and Knowledge Discovery in Databases. multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-
Heidelberg: Springer, 2009: 254-269. 2048.
[26] Tsoumakas G, Vlahavas I. Random k-labelsets: An ensemble [29] Lewis D D. Naive Bayes at forty: The independence assumption
method for multilabel classification[C]// Proceedings of the 18th in information retrieval[C]// Proceedings of the 10th European
European Conference on Machine Learning. Heidelberg: Spring‐ Conference on Machine Learning. Heidelberg: Springer, 1998: 4-15.
er, 2007: 406-417. [30] Tong S, Koller D. Support vector machine active learning with
[27] 李思男, 李宁, 李战怀 . 多标签数据挖掘技术:研究综述[J]. 计算 applications to text classification[J]. Journal of Machine Learning
机科学, 2013, 40(4): 14-21. Research, 2002, 2(1): 999-1006.

(责任编辑 王克平)

You might also like