基于全文内容的学术论文研究方法自动分类研究章成志

情报学报 2020 年 8 月第 39 卷第8期
Journal of the China Society for Scientific and Technical Information, Aug. 2020, 39(8): 852-862
DOI: 10.3772/j.issn.1000-0135.2020.08.007
基于全文内容的学术论文研究方法
自动分类研究
章成志 1，李卓 1，储荷婷 2
（1. 南京理工大学经济管理学院信息管理系，南京 210094；
2. Palmer School of Library and Information Science，Long Island University，New York 11548）
摘要对学术论文所采用的研究方法进行自动分类，有助于研究方法使用行为的分析与研究方法的评估，进而为
科研人员推荐或选择合适的研究方法提供依据。相比于摘要信息，全文内容包含更多关于研究方法的上下文信息，因
此探索基于全文内容的学术论文研究方法自动分类具有重要的意义。本研究以图书情报领域的 820 篇学术论文全文为
研究对象，邀请专家对其研究方法进行标注得到研究方法训练语料；采用多标签分类任务中问题转换法和算法自适应
法，将朴素贝叶斯与支持向量机作为问题转换法的底层分类器，构建 6 种不同的分类模型，同时选用算法自适应法中
的 ML-KNN 模型，分别对论文中使用的研究方法进行自动分类。实验结果表明，相较于学术论文的摘要信息，全文
内容在研究方法分类的性能上有较大的提升；朴素贝叶斯算法在问题转换法的分类器链策略中表现最佳，F1 值达到
0.705；另外结果也表明不同的学术论文研究方法的特征表征能力不同，训练集的规模较少会导致分类的泛化效果差。
关键词研究方法分类；文本分类；全文内容；多标签分类
Using Full Content to Automatically Classify the

Research Methods of Academic Articles
Zhang Chengzhi1, Li Zhuo1 and Chu Heting2
(1. Department of Information Management, School of Economics and Management, Nanjing University of Science & Technology,
Nanjing 210094; 2. Palmer School of Library and Information Science, Long Island University, New York 11548)
Abstract：Automatic classification of the research methods used in academic papers is helpful for the evaluative analysis
of these research methods in that it provides a basis for researchers to recommend or select the appropriate methods for
their scholarly endeavors. Compared with using only abstracts for classification, the full content of articles contain more
context regarding research methods, which is of great significance in exploring such automatic classification. This study
examines the full content of 820 academic papers in the field of library and information science (LIS). Experts in the field
of the LIS annotated method went through these academic papers. Subsequently, a training corpus for the classification of
research methods was generated. We adopted the problem transformation method and algorithm adaptive method in the
multi-label classification task. Naïve Bayes and Support Vector Machine were used as the underlying classifiers of the
problem transformation method to construct six different classification models. Meanwhile, the ML-KNN model in the al‐
gorithm adaptive method was selected to automatically classify the research methods used in the chosen articles. The ex‐
perimental results showed that classification performance with the full article improved greatly when compared to using
收稿日期：2019-04-15；修回日期：2019-12-20
基金项目：国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”（17ZDA291）。
作者简介：章成志，男，1977 年生，博士，教授，博士生导师，主要研究领域为信息组织、信息检索、数据挖掘及自然语言处理，E-mail：
zhangcz@njust.edu.cn；李卓，男，1997 年生，本科生，研究方向为文本挖掘；储荷婷，女，1957 年生，教授，博士生导师，主
要研究领域为信息检索、研究方法与科学交流等。
第8期章成志等：基于全文内容的学术论文研究方法自动分类研究 853
only the abstract. The Naïve Bayes algorithm performed the best in the classifier chain strategy of the problem transforma‐
tion method, and the F1 value reached 0.705. In addition, the results also demonstrated that research methods used in differ‐
ent academic papers are represented differently. A small training set would lead to low generalizability of automatic classi‐
fication results.
Key words：classification of research methods；text classification；full-text content；multi-label classification
1 引言习技术有了快速发展，也为全文文本的分析与处理
提供了便利 [5] 。
学术论文是科研人员的成果展示，也是学术交为此，本文以学术论文全文信息作为研究对
流的重要载体。学术论文所运用的研究方法是科研象，采用多标签分类任务中问题转换法和算法自适
人员进行研究的思维形式和手段，其规范性标志着应法，将朴素贝叶斯与支持向量机作为问题转换法
一门学科的成熟程度 [1] 。从某种意义上来讲，研究的底层分类器，构建 6 种不同的分类模型，同时选
方法是连接理论与实践的桥梁，其相关研究也就成用算法自适应法中的 ML-KNN 模型，分别对学术论
为决定学科能否健康发展的关键。以图书情报领域文使用的研究方法进行自动分类，并对分类结果进
为例，近几十年来，已有众多学者对研究方法的定行评估。
义和分类体系构建进行探讨，并结合定量和定性等利用学术论文的全文内容进行研究方法的自动
[2]
方法分析研究方法在学科中的演变及创新。分类研究尚属首次。本研究的意义在于：一方面，
在实证分析的过程中，学者多采用人工识别的可以减少人工分类存在的不足，提高分类的效率，
方式对学术论文中运用的研究方法进行分类，如储从而有助于研究人员利用大规模的数据对学术论文
荷婷和 Chu 等利用人工分类对发表在图书情报
[2] [3] 中研究方法的使用行为进行分析与评估；另一方
领域中三种国际期刊的研究方法进行内容分析，探面，可以帮助科研人员了解学术论文的更多信息，
讨图书情报领域研究方法的分类体系以及分类标准进而为科研人员推荐或选择合适的研究方法提供依
的合理性。人工分类目前主要面临两个问题：一方据，在一定程度上促进相关学科的发展。
面是人工分类需要具有相关理论知识的专家进行标
注，人工成本高，同时分类过程较为烦琐，耗费时
2 相关研究工作概述
间长，无法对大规模数据进行定性和定量研究；另
研究方法是人类进行科学研究的思维形式，是
一方面，人工分类存在一定程度的主观性，不同学
构成一门学科的重要科学要素，因此对研究方法的
者对某些研究方法的理解可能有所差异，分类的准深入探究有利于推动学科的发展和进步。早期学者
确性易受人的主观意识影响。由此可见，对学术论主要针对学术论文所运用的研究方法进行归类和解
文所运用的研究方法进行自动分类具有重要的研究释，并从时间的跨度来分析学科中研究方法的演
意义。变。之后随着计算机技术的不断发展，学者开始尝
随着机器学习、自然语言处理等技术的日益成试从学术论文中抽取与研究方法相关的信息，并利
熟，在文本自动分类和信息抽取等领域已取得了较用机器学习的方式对研究方法进行自动分类。下面
多的成果，也有学者利用文本分类的技术对研究方将从学术论文研究方法的研究现状、学术论文研究
法自动分类进行了探究，如 Eckle-Kohler 等 [4] 以社会方法的抽取与分类以及文本的自动分类研究三个方
科学领域期刊的 1992 篇文章作为数据来源，对 15 面分别进行简要概述。
种不同的研究方法进行自动分类。由于学术文献开
2.1 学术论文研究方法的研究现状
放程度等问题，目前学者在语料库的选择上主要以
学术论文的题录信息为主，如文章的标题和摘要不同学者对学术论文所运用的研究方法的分类
等，因此在分类的准确性上有待进一步提高。相比标准有着不同的理解，由此提出了相关的理论体
而言，全文内容包含有更多的关于研究方法上下文系，并从研究方法的使用频率和应用趋势等方面进
信息，能在一定程度上提高分类的准确性，而且全行了探究。1983 年，Peritz[6] 选取 1972—1973 年发表
文数据相对于以前易获取，自然语言处理与机器学在三大高影响力社科期刊的 150 篇文章，人工标注
854 情报学报第 39 卷
其研究方法类别，结果表明，发表在这些社科期刊个阶段，分别是对方法句的抽取和方法术语的抽
上的方法论的文章要比理论性或经验性的文章被引取，采用的方法主要包括基于规则、基于机器学习
频率更高。 2003 年， Palvia 等调研了 1993—1997
[7]
以及基于规则与机器学习相结合的方式。 2012 年，
年这 5 年期间，7 种主要管理信息系统期刊使用的 Houngbo 等 [11] 提出了一种从大型科学语料库中提取
调查法、框架和概念模型、实验室实验、案例研究细粒度方法句子的简单方法，并使用基于规则和机
等 13 种方法，结果表明，调查方法始终位居前列，器学习技术从科学研究论文中自动提取方法术语，
框架和概念模型、实验室实验和案例研究方法被广研究表明，方法提及的背景可以帮助提取关于方法
泛应用，案例研究方法和其他定性技术有不断增长术语的重要信息。 Kovačević 等 [12] 提出了一个用于
的趋势。杨溢等 [8] 对《全国报刊索引》（哲社版）识别自然语言处理领域科学出版物中方法论的系
收录的 1990—2001 年有关我国图书馆学情报学方法统，该系统主要包括两个步骤，第一步是对方法句
论研究论文进行计量分析，并指出在众多研究方法的自动识别，第二步是对方法句中的方法（片段）
中，专门研究方法是图书馆学情报学方法论的核进行提取，并归为 4 个语义类别：任务、方法、资
心，其运用是这门学科成熟的标志。2010 年，王芳源/功能和实现。 2013 年，化柏林 [13] 提出了一种词
等 [9] 对 1999—2008 年这 10 年间《情报学报》全部学表与规则相结合的方法，从中文学术文献中抽取情
术论文共 1174 篇的研究方法进行了逐篇分析与统报方法术语，进行同义归并处理，得到情报方法术
计，结果表明，我国情报学研究方法的科学化与理语库，并以《情报学报》 2012 年全文作为实验数据
论化趋势正在逐年增强。2014 年，储荷婷对图书 [2]
证明了该方法的有效性。随后，化柏林 [14] 将方法知
情报领域三种国际期刊 2001—2010 年发表的 1162 识元总结为 5 种类型，对论文中关于方法描述的句
篇论文的研究方法进行内容分析，研究发现，图书子进行抽取，通过过滤句子中的领域关键词形成句
情报学领域的学者比以前采用了更多的研究方法，子描述结构，在此基础上经过人工审核与合并归
与以前相比，内容分析、实验方法和理论方法成为类，形成方法知识元的描述规则。
这个领域选择较多的研究方法。在随后的研究中，关于研究方法的分类主要分为人工分类和计算
Chu 等对 16 种研究方法进行了详细的解释，并表
[3]
机自动分类两种方式。由于早期的研究多是探究性
明研究方法包括数据收集技术（如访谈、观察）和的，且计算机技术以及电子数据库不完善等因素，
数据分析技术（如定性、定量）；研究方法也许应采用的语料规模较小，学者通过全文信息人工识别
该按照数据收集技术进行分类，因为它比研究方法论文的研究方法 [1-3,6-10] ，并将学科中所运用的研究
被标记为定性或定量更有意义。2016 年，魏瑞斌 [1] 方法进行归类和比较，以确定其分类体系。近些年
提出一个研究方法创新的分类体系和分析流程，基来，随着文本挖掘技术的不断成熟，也有相关学者
于内容分析法对共词分析论文进行实证研究，发现采用机器学习的方式对研究方法进行自动分类。如
共词方法改进性研究的成果相对较少，而在共词方 2013 年， Eckle-Kohler 等 [4] 以社会科学领域期刊的
法应用方面的研究较多。 2017 年， Togia 等 [10] 对图 1992 篇文章作为数据来源，并确定了 15 种不同的
书情报领域五大国际知名期刊中 440 篇文章进行分研究方法，利用不同的分类器对文章的摘要进行模
析，结果表明，绝大多数实证研究文章采用了定量型训练，研究结果显示，在所有的研究方法类别
方法，且研究方法的数量和种类有所增加，定性方中，最高的 F1 值为 0.68，作者表示使用全文内容进
法越来越重要，并且在图书情报领域中发挥作用，行研究方法自动分类可能带来性能的提升。相比于
而混合方法在图书情报领域研究中尚未得到足够的人工识别研究方法，对研究方法进行自动分类可以
认可。由上述研究可以看出，不同学者对研究方法处理更大规模的数据，且运行效率较高、人工成本
的立论角度和分类标准是不同的，为了更好地分析低，但由于对研究方法的自动分类研究多采用监督
研究方法的使用趋势，学者们构建了各种不同的专学习的方式，前期依旧需要人工标注少量数据以作
门性方法体系结构，进而形成当前多种体系并存的为训练样本。目前关于研究方法的自动分类研究相
格局。对较少，一方面，由于开放访问策略还不常见，许
多大型出版物数据库仅免费提供摘要和基于摘要的
2.2 学术论文研究方法的抽取与分类
关键词搜索，对全文的访问受到限制，因此很难基
对学术论文中的研究方法进行抽取一般采取两于全文信息进行研究方法自动分类；另一方面，目
前学者针对研究方法的定义和分类体系还没有统一习自动分类来量化社科类论文的跨学科性的方法，
的标准，在对研究方法关于技术层面的研究也多以根据论文的题录信息，使用 KNN 算法对社科类论
方法术语抽取为主，很少涉及研究方法的自动分文进行自动分类，根据分类结果提出定量研究跨学
类，因此相关成果也较少。科性的指标——跨学科度，并提出其计算方法。近
年来，随着深度学习的兴起，利用卷积神经网络的
2.3 文本的自动分类研究
文本分类方法也得到了一些有效的尝试，如 Zhang
随着互联网的快速发展，信息已经呈现爆炸增等 [19] 对字符级卷积网络在文本分类中的应用进行了
长的趋势。同样在学术领域中，文献的数量也在急实证研究，并构建了几个大规模的数据集，以证明
剧增加，以往通过人工对文献进行分类的方式，由字符级卷积网络可以达到最先进的或具有竞争力的
于过程烦琐、耗时长等问题已无法满足实际工作的结果。 Lai 等 [20] 引入一种不需要人工设计特征的卷
需要，因此关于文本自动分类的相关研究也日益积神经网络进行文本分类，利用循环结构来尽可能
增多。识别上下文信息，并使用最大池化层以识别文本中
徐军等 [15] 利用朴素贝叶斯和最大熵方法进行新的关键特征，实验结果表明，该方法在文档级数据
闻及评论语料的情感分类研究，结果表明，对于基集上优于最新的方法。从以上研究可以看出，文本
于情感的文本分类，选择具有语义倾向的词汇作为自动分类技术已在新闻、文献等语料中得到了广泛
特征项、对否定词正确处理和采用二值作为特征项的应用，利用传统的机器学习方式进行文本分类研
究相对较为成熟，而且学者针对特定的任务，在特
权重能提高分类的准确率。王昊等 [16] 将机器学习的
征工程方面做了改进，以提高文本分类的准确性。
思想运用到期刊论文的自动分类领域，利用特征加
权和浅层次分类方法以实现期刊论文的中图法分
3 研究内容
类，研究表明，机器学习方法在期刊论文的自动分
类方面具有较高的可行性、合理性和有效性。Hef‐ 本研究从机器学习的角度，以图书情报领域为
fernan 等 [17]
提出一种识别科技文本中问题和解决方例，将学术论文的全文信息作为研究对象，分析学
案语句的方法，利用多种分类器采用监督学习的方术论文中研究方法的自动分类情况，并进一步从分
式对自然语言处理领域的文章进行训练，结果显类的模型和语料的角度对结果进行评估，以探究研
示，对问题的识别准确率为 82.3%，对方案的识别究方法自动分类的准确性和合理性。基本研究框架
准确率达到 79.9%。刘浏等 [18]
提出一种利用机器学如图 1 所示。
图1 研究框架图
3.1 研究数据集研究方法（如表 1 所示），研究方法主要是依据相

应的数据收集法命名的，例如，以问卷收集数据的
本文利用 Chu 等 [3] 标注的数据集，即《美国信
研究方法为问卷法，而访谈收集数据的研究方法则
息科学与技术学会会刊》（Journal of the American 为访谈法 [2] 。两位专家采取人工标注的方式，参照
Society for Information Science and Technology，已改相同的原则，分别识别论文中出现的研究方法，两
名为 Journal of the Association for Information Science 者之间所有标注的一致性为 91.7%，经比较和讨论
and Technology，简称 JASIS&T） 2003—2008 年刊载最终确定统一的标注结果 [2-3] 。根据标注数据中提供
的总共 820 篇文章作为研究对象。在该研究中，储的文章 DOI 信息（如表 2 所示），本文从 Wiley 数据
荷婷与柯青两位专家归纳了图书情报领域的 16 种库（https://www.wiley.com）中下载已标注文章的题
表1 研究方法分类编码［3］
编号研究方法编号研究方法
1 文献计量学（包括引文分析、情报计量学与科学计量学） 9 观察法
2 内容分析法（包括语篇分析） 10 问卷法
3 德尔菲研究 11 研究日记/日志
4 民族志/实地调查 12 理论研讨法（如概念分析、模型/理论构建）
5 实验法 13 出声思考法
6 焦点小组 14 系统使用记录分析
7 历史研究法 15 Web 计量法（包括链接分析、网络计量学和新兴计量学）
8 访谈法 16 其他方法（如行动研究、卡片归类法、信息范畴法）
表2 学术论文研究方法的标注样例
年份/卷期/起止页码论文标题研究方法论文 DOI
2003-54（1）p.3-15 Matchsimile：A flexible approximate matching tool for searching proper names 实验法 10.1002/asi.10178
Mapping information policy frames：The politics of the digital millennium copyright 内容
2004-55（1）p.3-12 10.1002/asi.10339
act 分析法
访谈法、内容
2005-56（1）p.13-22 The social and discursive construction of computing skills 10.1002/asi.20091
分析法
问卷法、
2006-57（1）p.36-43 Factors governing the consumption of explicit knowledge 10.1002/asi.20250
民族志
录信息及其全文信息，并构建学术论文研究方法自果不好等问题。为了避免样本过少所造成训练结果
动分类的数据集。欠拟合等问题，本文对数据的标签进行了处理，通
过筛除样本数较少的类别来保证分类的有效性，其
3.2 数据预处理
步骤主要如下：①将文献计量法与万维网计量法合
为了更加明确分类任务的处理方式和策略，本并为计量法，由于两者都属于计量内容的范畴，故
文对获取到的 820 篇论文所涉及的 16 种研究方法的在特征上有较多的相似之处；②将包含样本较少的
样本数量进行了统计，其分布情况如图 2 所示。需类别（样本数量低于 100 条的研究方法）进行合并
要说明的是，一篇学术论文可能存在多种研究方处理，统一标注为其他方法，经过处理之后，本文
法，该图只是显示包含某种研究方法的样本数量。中包含其他方法的样本为 131 条。由此本研究分类
任务中所涉及的研究方法为 7 种，且每种类别的样
本数量均超过 100 条。
构建学术论文研究方法的数据集后，本文对数
据的文本内容进行了预处理，以去除一些无用的信
息，从而提高分类结果的准确性。预处理过程主要
包括两个方面：去停用词与词干提取。其中词干提
取主要是将具有相同词根的单词识别出来，并用统
一的词根进行表示。在此基础之上，本文还对文本
图2 不同类别研究方法的样本数量比较图
进行统一大小写、去标点和数字、去除少于 3 个字
由图 2 可见，在该标注数据集中，包含样本最母的单词的处理。
多的类别为实验法，总共有 299 篇文章，而文献计
3.3 特征选择与文本表示
量法、内容分析法、问卷法、理论研讨法也均超过
了 100 篇文章。相对而言，德尔菲研究、民族志、在对学术论文的文本内容进行预处理之后，需
焦点小组、历史研究、研究日记、出声思考、其他要选取有意义的特征项，以降低特征空间的维数，
等研究方法样本数量均不超过 20 篇。因此在分类提高分类的效率和精度。由于本文主要将文本信息
的过程中，需要考虑到类别不均衡所造成的泛化效作为训练数据的输入，故考虑采用词类型特征（N-
Gram）作为分类的特征项，并通过卡方检验（χ 2）其中向量空间模型（vector space model， VSM） [22]

的方法进行特征提取。考虑到本研究中不同类别的具有代表性，为了更好地表示文档中特征项的权重，
样本较少，本文利用特征项的词频对卡方公式进行本文采用 TF*IDF 方法作为计量指标，其公式为
改进，其公式 [21] 为
χ 2 ( t,c ) =
N × ( AD - CB )
2
(1)
TF ij *IDF i = tf ij * log ( N +1
ni + 1
+1 ) (3)
(A + C) (B + D) (A + B) (C + D) 式中， N 为文档总数； ni 表示文档集合中包含特征
式中，N 表示训练语料中的特征项的总数量；C 为项 i 的文档个数。通过 TF*IDF 方法为每个特征项赋
某一研究方法类别； t 表示特征项； A 表示属于 c 类予权重之后，可能会存在一篇文档中不同特征项的
且包含 t 的频数；B 表示不属于 c 类但是包含 t 的频权重差别过大的问题，进而会影响后续过程中涉及
数； C 表示属于 c 类但是不包含 t 的频数； D 是既不的余弦距离计算等问题，因此还需要对向量的权重
属于 c 也不包含 t 的频数。在卡方特征提取的过程进行标准化处理，以缩小值之间的差距。本文采用
中，对于多类别问题，当特征项对于某类的 χ 2 统计欧几里得范式（Euclidean-norm）来进行标准化处
值越高，则它与该类别之间的相关性越大，携带的理，让权重值位于(0,1)区间内，其公式为
类别信息也越多，因此需要分别计算特征项 t 对于 v
V = (4)
每个类别的 χ 2 值，并将该特征项归到其最大的 χ 2 值 v 1 + v 2 + ⋯ + v 2n
2 2
所对应的类别，其公式 [21] 为
3.4 研究方法分类模型构建
2
χ max ( t ) = max mi= 1 χ 2 ( t,c i ) (2)
式中， m 为研究方法的种类数； ci 为研究方法的类在本研究中，一篇学术论文可包含多种研究方
别。本文将不同类别的特征项的 χ 值降序排列，通 2 法。为此，本文对数据集中样本所包含研究方法的
过设置百分比的方式来选取一定数量的特征项，最种数进行了统计，结果如表 3 所示。由表 3 中实际
后用筛选出的特征项构建特征词表。样本的标签分布情况，可以观察到 73.9% 的样本为
在分类的过程中，需要将具有结构化的数据作单标签，即文章中只包含一种研究方法，而在剩下
为输入项，通常情况下会将文本表示成向量形式，的多标签样本中，研究方法主要包含 2~3 个类别。
表3 包含不同种数研究方法的论文分布情况
方法类别数 1 2 3 4 5 6 合计
论文数（比例） 606（73.90%） 134（16.34%） 59（7.20%） 16（1.95%） 4（0.49%） 1（0.12%） 820（100%）
由此可见，本研究属于文本分类任务中的多标该二分类器的类别，最后将全部二分类器结果组合
签分类问题。假设本研究的数据集为 D = { d 1 ,d 2 ,⋯, 在一起，作为该样本最终的标签分类结果，此方法
d i ,⋯d m} , 研究方法的类别集合为 C = { c 1 ,c 2 ,⋯,c n}，并没有考虑标签之间的相关性。
其中 m 表示数据集中样本的规模，n 表示研究方法（2）分类器链法 [25] 在 BR 的基础上，将 n 个二
的类别数量，则对于每一篇学术论文 d i ，其运用的分类器连接成一条链，即将 n 个标签按照一定的顺
研究方法都可表示为 C i = { c i1 ,c i2 ,⋯,c ik }，且 C i ⊆ C 。序进行排序，然后依次对每个标签构建一个二分类
在多标签分类任务中，常见的分类方法包括问器，并将每次训练的结果继续代入下一个二分类器
题转换法和算法适应法。依据是否考虑标签之间的中训练，依据每个二分器的预测结果得到最终的标
关联性，可以将问题转换法分为三种策略，分别为签集合，这在一定程度上考虑了标签之间的关联
二元关联法（binary relevance， BR）、分类器链法性，但结果的好坏受到标签顺序的影响。
（classifier chain， CC）以及标签幂集法（label pow‐ （3）标签幂集法 [26] 的基本思想是：将每一个样
erset，LP） [23] 。本的标签集看做一个单标签，并将出现的标签集划
（1）二元关联法 [24] 的基本思想为：对于 n 个标分成不同类别，进而转化成单标签中多类别分类问
签训练 n 个二分类器，即产生 n 个数据集，每个数题。为了弥补 LP 方法可能产生的数据偏斜等问题，
据集包含所有的训练样本，对于每个二分类器，包通常采用 LP 的改进方法 ——RAkEL （random k-la‐
含在该数据集中的所有样本，仅被标注出是否属于 belsets）， RAkEL 方法充分考虑了标签之间的依赖
关系，该方法首先随机生成互不相同的小规模标签的调和平均数。
子集，然后依据标签子集的数量训练多个 LP 分类
4.2 参数设置
器，通过统计每个子分类器对相应标签的投票，由
投票支持率对所有标签进行相关程度排序，通过阈本文采用五折交叉验证，利用类型抽样法将数
值筛选得到最相关的几个类别作为待预测样本的最据集以 4∶1 的比例划分为训练集和测试集，训练
终预测结果 [27]
。集和测试集不含有重复的样本，选取 F 1 值作为评价
算法适应法是将常规的分类算法进行改进以适指标，以得到训练过程的最优参数，其详细的参数
应多标签分类任务，其中应用较广的为 ML-KNN 设置信息如表 4 所示。
（multi-label k-nearest neighbor） [28]
，该方法基于 K 近
表4 训练过程的参数设置
邻算法（k-nearest neighbor， KNN），基本步骤为：
①首先，为每个测试样本选择训练集中最近的 k 个
参数具体设置
示例；②接着，获得这些相邻实例的标签分布信
N-Gram 1-Gram、2-Gram
χ2 percent：
［20%，30%，40%，50%，60%］
息；③最后，根据后验概率最大化的规则确定测试
SVM kernel：
［'rbf'，'linear'］、C：
［0.1，0.3，0.5，0.7，1.0］
实例的标签集，此方法并不考虑标签之间的相
NB alpha：
［0.1，0.3，0.5，0.7，1.0］
关性。 ML-KNN K：
［1，2，3，4］、S：
［0.1，0.3，0.5，0.7，1.0］
本文在问题转换法中，考虑到训练样本规模较
小、分类算法自身的准确性等因素，最终选择朴素（1）特征参数。在词类型特征（N-Gram）中，
贝叶斯算法（naïve Bayes，NB） [29] 和支持向量机算主要考虑 1-Gram 以及 2-Gram，即文本的一元特征
法（support vector machine，SVM） [30] 作为底层分类和二元特征。在卡方特征提取中，以 10% 的梯度设
器。在本研究中，我们通过以上几种分类方法分别置相应的比例作为筛选特征项的阈值。结果表明，
对数据进行训练，并根据分类的结果评估不同方法在卡方特征提取中选取前 30% 的 1-Gram 效果最佳。
之间的适用性，以及不同分类器之间的差异性。（2）分类器参数。在 SVM 分类器中主要考虑
的参数有核函数（kernel）以及惩罚因子（C），在
4 实验与结果分析 NB 分类器中考虑平滑因子（α），而 ML-KNN 分类
器主要考虑了 K 值以及平滑因子（S），其他参数设
4.1 评价指标
置均为默认。需要说明的是，在 NB 分类器中，由
在多标签分类任务中，常见的评价指标主要包于特征为词类型，权重为 TF*IDF 值，因此条件概
括两类：基于样本的评价指标和基于标签的评价指率分布的形式选用多项式分布，对于 RAkEL 算法，
[27]
标。考虑到样本的标签实际分布情况，即大部分标签子集大小设置 k=3 （类别数量的一半），模型的
的样本为单标签，且类别的样本数量不均衡，以及个数设置 m=14 （类别数量的 2 倍）。
分类策略的选择等因素，本文选取基于样本的准确
4.3 结果分析
率、召回率和 F1 值作为评价指标。其计算公式为
1 N yi ∩ h ( xi )
| | 4.3.1 不同分类模型的结果比较分析
N∑
Precision = (5)
i=1 h ( xi ) 本文将学术论文的全文内容数据集按照多标签
1 N yi ∩ h ( xi )
| | 分类中问题转换法和算法自适应法，将朴素贝叶斯
N∑
Recall = (6)
i=1 |y i| 与支持向量机作为问题转换法的底层分类器，构建
2 × Precision × Recall 6 种不同的分类模型，同时选用算法自适应法中的
F1 = (7)
Precision + Recall ML-KNN 模型，分别进行自动分类研究，得到结果
式中， N 表示样本空间的数量； y i 表示实际的研究方如表 5 所示。
法标签； h ( x i ) 表示预测的研究方法标签； Precision 由表 5 可见，在学术论文研究方法自动分类任
表示准确率，即被正确预测出来的研究方法数量占务中，朴素贝叶斯算法在分类器链上表现最佳，整
被预测出的研究方法数量的比例； Recall 表示召回体的 F1 值达到 0.705。就总体来看，使用不同的分
率，即被正确识别出来的研究方法数量占实际样本类算法和分类策略所产生的结果存在一定的差异，
中的研究方法数量的比例； F 1 表示准确率和召回率对比支持向量机和朴素贝叶斯算法的结果可以发
表5 不同分类器之间的结果比较接近于单标签分类中的多类别分类任务，这也能合
分类器理地解释二元关联法与分类器链法中的结果较为接
指标 ML- BR- CC- RAkEL- RAkEL- 近，且结果表现较好的现象。
BR-NB CC-NB
KNN SVM SVM SVM NB
P 0.558 0.578 0.656 0.569 0.646 0.478 0.449 4.3.2 全文信息对分类结果的影响
R 0.598 0.826 0.751 0.836 0.775 0.796 0.404
与 Eckle-Kohler 等 [4] 的研究相比，本文在分类结
F1 0.577 0.680 0.701 0.677 0.705 0.597 0.426
果上表现较好，最好的分类器 F1 值达到 0.705，而
现， SVM 算法在召回率上表现较好，而朴素贝叶在 Eckle-Kohler 的研究中，最好的分类器 F1 值为
斯算法在准确率上更胜一筹，但两者之间的 F1 值差 0.532。其主要原因可能与训练集的文本规模不同有
异较小；对比不同的分类方式，可以发现问题转换关， Eckle-Kohler 的研究将摘要作为模型输入，尽
法的结果表现较好，而 ML-KNN 算法无论是在准确管他们的数据样本包括 1992 篇语料，但本研究将全
率还是召回率中均表现一般。在问题转换法中，发文的信息作为模型输入，在 820 篇语料的分类中结
现不同的算法在二元关联法与分类器链法中的结果果表现仍然较好。为了比较全文内容所能反映的分
较为接近，相比而言，标签幂集法的分类效果较类效果，本文设置三组对比实验，分别将全文内
差。考虑到标签密集法侧重于标签之间的关联性，容、摘要内容和全文加摘要内容作为模型的输入，
由此可以推测出不同研究方法之间的关联性较小，利用五折交叉验证，依次得到不同分类器的结果以
这也能从侧面反映出研究方法划分体系的独立性。及不同数据的特征项平均数，以探究不同数据规模
此外由于单标签样本占比较多（见表 3），分类任务所带来的分类性能差异。结果如表 6 所示。
表6 不同文本内容作为模型输入的结果比较
分类器特征项
依据指标
ML-KNN BR-SVM BR-NB CC-SVM CC-NB RAkEL-SVM RAkEL-NB 平均数
P 0.481 0.465 0.593 0.458 0.581 0.440 0.581

摘要 R 0.509 0.811 0.727 0.800 0.752 0.756 0.533 621
F1 0.494 0.591 0.653 0.583 0.656 0.557 0.556
P 0.558 0.578 0.656 0.569 0.646 0.478 0.449
全文 R 0.598 0.826 0.751 0.836 0.775 0.796 0.404 3713
F1 0.577 0.680 0.701 0.677 0.705 0.597 0.426
P 0.556 0.581 0.655 0.570 0.649 0.503 0.518
摘要+全文 R 0.594 0.830 0.746 0.833 0.774 0.808 0.454 3735
F1 0.575 0.683 0.697 0.677 0.706 0.620 0.483
从表 6 中的结果可以看出，在以上 7 种分类模加摘要的内容，只是在一定程度上增加了部分特征

型中，分别有 ML-KNN、 BR-NB、 BR-SVM、 CC- 项的权重，对结果的影响不是很大。若仅仅只是将
SVM、 CC-NB、 Rakel-SVM 共 6 种模型，基于全文摘要内容作为输入，则由于文本规模的限制，在很
的结果相比于基于摘要的结果，无论是准确率还是大程度上缺失了许多重要的特征，从而影响分类性
能。另外，从表 6 中的结果可以发现，在 RAkEL-
召回率，均得到了较大的提升，这与预期的结果较
NB 模型中，摘要比全文作为模型输入的结果表现
为相符。同时，将基于全文的结果与基于全文和摘
更好，通过对样本的具体分类结果进行深入分析，
要的结果进行比较，发现两者之间的差异较小。而
发现该模型在样本较少的类别的训练结果中表现较
在所有分类结果中可以看出，以 CC-NB 作为分类差，随着特征项增多，样本少的类别泛化能力更
器，将摘要和全文作为模型输入的分类效果最好，弱，从而影响整体的分类结果，由此导致该模型在
F1 值达到 0.706。包含特征项较少的摘要的结果中优于全文的结果，
在实际的分类任务中，摘要中所涉及的特征项这也说明该模型受数据不均衡的影响较大。
在全文中一般均有反映，因此与全文内容相比，增由于学术文献开放获取等一系列因素的限制，
在已有关于学术论文的分类任务中，多以论文的题由于“内容分析法”主要是通过对使用文本或其他
录信息作为数据来源，如摘要、关键词、标题等，段落的情况进行系统审查来收集数据 [3] ，因此与其
虽然题录内容包含了论文所表达的重要观点和信较为相关的特征项较少，从而导致特征的表征能力
息，但在文本规模上仍属于短文本分类的范畴。由不强，分类效果较差；而“其他方法”在本文中定
此可见，随着学术文献开放获取的日益成熟，文献义为许多方法的综合，因此无较为明显的特征。
全文的信息将更加容易获取，相关分类任务的性能为了更好地说明不同研究方法的特征表征能力
也将得到一定的提升。不同，本文将计量法与内容分析法的一元特征与二
4.3.3 不同方法类型的分类结果比较分析元特征进行了统计，并将 χ 2 值前 10 位的特征项通
过词根还原展示在表 8 中，其中括号内为特征项的
为了探索本研究在实际分类任务中的可行性，
取整 χ 2 值。由表 8 可见，在计量法中，排在前 10 位
本文将表现最好的模型（CC-NB）在全文数据上进
的特征项的 χ 2 值相比于内容分析法更大，且如“ci‐
行了训练，并将不同研究方法的五折交叉验证结果
tation”、“impact factor”、“highly cited”等词汇与引
进行了统计，其结果如表 7 所示。
文分析和科学计量的内容相关，较能反映计量法中
表7 不同研究方法之间的结果比较（CC-NB）
一些常用的特征，而在内容分析法中，并没有较为
研究方法类别训练集数量平均值测试集数量平均值 F1 均值

明显反映该研究方法的相关词汇，出现的多为研究
实验法 240 59 0.836 内容的词汇，因此其表征能力较弱。
计量法 133 39 0.803 将以上关于不同方法类型的研究结果与 Eckle-
问卷法 132 35 0.556 Kohler 等 [4] 的研究进行对比，可以发现一些异同点。
理论研讨法 114 25 0.534 两者均在样本较多的研究方法中表现较好，但本文
内容分析法 99 34 0.460 中最高的 F1 达到 0.836，而 Eckle-Kohler 等 [4] 的研究
访谈法 80 20 0.525 为 0.678，其原因可能是由于文本的规模不同所造
其他方法 108 23 0.443
成的，具体细节在第 4.3.2 节中已作阐述。综上所
述，在实际的分类任务中，对于出现频次较多以及
由表 7 可见，分类器针对不同研究方法的分类
具有较强表征能力的研究方法，本研究的分类模型
效果不同，其中在“实验法”中分类效果最好，F1
具有一定的实用性，另外，随着训练的样本增多，
值达到 0.836。从训练的样本规模来看，“ 实验法 ”
本文的分类效果也将会在一定程度上得到提升。
的样本数量最多，这也说明模型训练的结果容易受
样本集的规模影响，训练集的数据越多，越有利于 5 结论与未来展望
模型找到更多相关的特征，从而使泛化能力更强。
尽管如此，“ 计量法 ” 样本规模虽然与其他的本文以图书情报领域为例，对学术论文中使用
研究方法相似，但是 F1 值也达到了 0.803，而 “ 内的研究方法进行自动分类研究，通过对比不同的分
容分析法 ” 与 “ 其他方法 ” 的 F1 值分别为 0.460 和类器和分类策略，可以得出朴素贝叶斯算法在分类
0.443，这说明不同研究方法的特征项的表征能力不器链上表现最佳，整体的 F1 值达到 0.705。在对比
同，运用计量法的文章具有更加容易区分的特征，不同的数据作为模型输入时，发现全文信息相对于
其原因可能与不同研究方法的定义有一定的关联；摘要信息在分类性能上有较大的提升。另外，在分
表8 计量法与内容分析法的 Top 10 特征项及权重样例（以每个类别分类结果最高 F1 值对应的训练集为例）

类别
特征
计量法内容分析法
citation（19257）、journal（16295）、cited（7341）、article（5071）、author patent（1591）、genre（1100）、portfolio（748）、abstract（714）、disaster
一元
（4203）、public（3095）、impact（3072）、science（3043）、count（2086）、（608）、political（581）、errata（514）、tier（455）、patron（454）、librarian
特征
paper（2584）（433）
impact factor（2486）、citation counts（1641）、journal impact（1023）、 web portfolios（555）、school librarianship（318）、search experience
二元 journal articles（1006）、web citations（989）、articles published（964）、（311）、book loans（296）、web communities（292）、category labels
特征 cited articles（902）、highly cited（827）、citation analysis（814）、cited （253）、feature article（255）、structural elements（253）、basic level
papers（754）（244）、personal web（213）
析不同标签的分类效果时，发现不同的研究方法所 289-309.
在的文章的特征表征能力不同，如“计量法”所包 [8] 杨溢, 李伟超 . 1990—2001 年我国图书馆学情报学方法论研究
含的特征项表征能力较强，同时结果也表明训练集统计分析[J]. 图书馆, 2003(5): 31-34.

[9] 王芳, 王向女 . 我国情报学研究方法的计量分析: 以 1999~2008
的规模在一定程度上会影响分类的结果，样本规模
年《情报学报》为例[J]. 情报学报, 2010, 29(4): 652-662.
较少的类别在分类的泛化效果中表现较差。
[10] Togia A, Malliari A. Research methods in library and information
就全文来看，本研究在基于全文信息的研究方
science[EB/OL]. [2019-04-01]. https://www. intechopen. com/
法自动分类任务中得到有效的尝试，但也存在一定
books/qualitative-versus-quantitative-research/research-methods-
的局限性，由于数据集的规模较小，本文只对使用
in-library-and-information-science.
频次较多的研究方法进行分类研究，而忽略了包含 [11] Houngbo H, Mercer R E. Method mention extraction from scien‐
样本较少的研究方法。另外本文只考虑了全文的词 tific research papers[C]// Proceedings of 26th International Con‐
类型特征，因此在结果上仍有很大的提升空间。在 ference on Computational Linguistics. The COLING 2012 Orga‐
今后的研究中，我们可以从五个方面对研究方法自 nizing Committee, 2012: 1211-1222.
动分类问题进行进一步优化，即：①进一步优化文 [12] Kovačević A, Konjović Z, Milosavljević B, et al. Mining method‐
本多标签分类模型，提升分类效果；②进一步优化 ologies from NLP publications: A case study in automatic termi‐
可以进一步扩充数据集的规模，提升模型训练的效 nology recognition[J]. Computer Speech & Language, 2012, 26
果，同时选取不同领域的研究方法进行分析，使分 (2): 105-126.
类的结果具有一定的普适性；③通过优化数据采 [13] 化柏林 . 针对中文学术文献的情报方法术语抽取[J]. 现代图书

情报技术, 2013(6): 68-75.
样、算法优化（如在模型训练过程中引入惩罚因
[14] 化柏林 . 学术论文中方法知识元的类型与描述规则研究[J]. 中
子）等方法解决减少非均衡样本对分类结果造成的
国图书馆学报, 2016, 42(1): 30-40.
偏差，从而进一步提升不同研究方法的分类效果；
[15] 徐军, 丁宇新, 王晓龙 . 使用机器学习方法进行新闻的情感自
④可以考虑结合信息抽取的方法，识别方法句和方
动分类[J]. 中文信息学报, 2007, 21(6): 95-100.
法术语，提高特征项的表征能力，以及运用深度学
[16] 王昊, 叶鹏, 邓三鸿 . 机器学习在中文期刊论文自动分类研究
习的方法对研究方法进行分类；⑤可以从学术论文中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
段落的角度进行分析，如引言、相关工作等，以探 [17] Heffernan K, Teufel S. Identifying problems and solutions in sci‐
究不同位置运用研究方法的差异。 entific text[J]. Scientometrics, 2018, 116(2): 1367-1382.
[18] 刘浏, 王东波 . 基于论文自动分类的社科类学科跨学科性研究
参考文献
[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[1] 魏瑞斌 . 基于内容分析的国内图书情报学研究方法创新研 [19] Zhang X, Zhao J, Lecun Y. Character-level convolutional net‐
究——以共词分析方法为例[J]. 图书情报工作, 2016, 60(24): works for text classification[C]// Proceedings of the 29th Annual
107-114. Conference on Neural Information Processing Systems, Montre‐
[2] 储荷婷 . 图书馆情报学界的研究方法:实践与发展[J]. 国家图书 al, Canada, 2015: 649-657.
馆学刊, 2014, 23(3): 3-14. [20] Lai S W, Xu L H, Liu K, et al. Recurrent convolutional neural net‐
[3] Chu H T, Ke Q. Research methods: What 􀆳 s in the name? [J]. Li‐ works for text classification[C]// Proceedings of the Twenty-
brary & Information Science Research, 2017, 39(4): 284-294. Ninth AAAI Conference on Artificial Intelligence. Palo Alto:
[4] Eckle-Kohler J, Nghiem T D, Gurevych I. Automatically assign‐ AAAI Press, 2015: 2267-2273.
ing research methods to journal articles in the domain of social [21] 代六玲, 黄河燕, 陈肇雄 . 中文文本分类中特征抽取方法的比
sciences[J]. Proceedings of the American Society for Information 较研究[J]. 中文信息学报, 2004, 18(1): 26-32.
Science and Technology, 2013, 50(1): 1-8. [22] Yang Y, Pedersen J. A comparative study on feature selection in
[5] 顾立平 . 科研模式变革中的数据管理服务:实现开放获取、开放 text categorization[C]// Proceedings of the 14th International
数据、开放科学的途径[J]. 中国图书馆学报, 2018, 44(6): 43-58. Conference on Machine Learning, Nashville, USA, 1997: 412-420.
[6] Peritz B C. Are methodological papers more cited than theoretical [23] Zhang M L, Zhou Z H. A review on multi-label learning algo‐
or empirical ones? The case of sociology[J]. Scientometrics, rithms[J]. IEEE Transactions on Knowledge and Data Engineer‐
1983, 5(4): 211-218. ing, 2014, 26(8): 1819-1837.
[7] Palvia P, Mao E, Salam A F, et al. Management information sys‐ [24] Boutell M R, Luo J B, Shen X P, et al. Learning multi-label scene
tems research: What’s there in a methodology? [J]. Communica‐ classification[J]. Pattern Recognition, 2004, 37(9): 1757-1771.
tions of the Association for Information Systems, 2003, 11: [25] Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-
label classification[C]// Proceedings of the European Conference [28] Zhang M L, Zhou Z H. ML-KNN: A lazy learning approach to
on Machine Learning and Knowledge Discovery in Databases. multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-
Heidelberg: Springer, 2009: 254-269. 2048.
[26] Tsoumakas G, Vlahavas I. Random k-labelsets: An ensemble [29] Lewis D D. Naive Bayes at forty: The independence assumption
method for multilabel classification[C]// Proceedings of the 18th in information retrieval[C]// Proceedings of the 10th European
European Conference on Machine Learning. Heidelberg: Spring‐ Conference on Machine Learning. Heidelberg: Springer, 1998: 4-15.
er, 2007: 406-417. [30] Tong S, Koller D. Support vector machine active learning with
[27] 李思男, 李宁, 李战怀 . 多标签数据挖掘技术:研究综述[J]. 计算 applications to text classification[J]. Journal of Machine Learning
机科学, 2013, 40(4): 14-21. Research, 2002, 2(1): 999-1006.
（责任编辑王克平）

基于全文内容的学术论文研究方法自动分类研究章成志

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于全文内容的学术论文研究方法自动分类研究章成志

Uploaded by

Copyright:

Available Formats

情报学报 2020 年 8 月第 39 卷第8期

Using Full Content to Automatically Classify the

3.1 研究数据集研究方法（如表 1 所示），研究方法主要是依据相

Gram）作为分类的特征项，并通过卡方检验（χ 2）其中向量空间模型（vector space model， VSM） [22]

P 0.481 0.465 0.593 0.458 0.581 0.440 0.581

从表 6 中的结果可以看出，在以上 7 种分类模加摘要的内容，只是在一定程度上增加了部分特征

研究方法类别训练集数量平均值测试集数量平均值 F1 均值

表8 计量法与内容分析法的 Top 10 特征项及权重样例（以每个类别分类结果最高 F1 值对应的训练集为例）

在的文章的特征表征能力不同，如“计量法”所包 [8] 杨溢, 李伟超 . 1990—2001 年我国图书馆学情报学方法论研究

含的特征项表征能力较强，同时结果也表明训练集统计分析[J]. 图书馆, 2003(5): 31-34.

可以进一步扩充数据集的规模，提升模型训练的效 nology recognition[J]. Computer Speech & Language, 2012, 26

果，同时选取不同领域的研究方法进行分析，使分 (2): 105-126.

类的结果具有一定的普适性；③通过优化数据采 [13] 化柏林 . 针对中文学术文献的情报方法术语抽取[J]. 现代图书

107-114. Conference on Neural Information Processing Systems, Montre‐

[2] 储荷婷 . 图书馆情报学界的研究方法:实践与发展[J]. 国家图书 al, Canada, 2015: 649-657.

You might also like

基于全文内容的学术论文研究方法自动分类研究 章成志

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于全文内容的学术论文研究方法自动分类研究 章成志

Uploaded by

Copyright:

Available Formats

情报学报 2020 年 8 月 第 39 卷 第8期

Using Full Content to Automatically Classify the

3.1 研究数据集 研 究 方 法 （如 表 1 所 示）， 研 究 方 法 主 要 是 依 据 相

Gram） 作 为 分 类 的 特 征 项 ， 并 通 过 卡 方 检 验 （χ 2） 其 中 向 量 空 间 模 型 （vector space model， VSM） [22]

P 0.481 0.465 0.593 0.458 0.581 0.440 0.581

从表 6 中的结果可以看出，在以上 7 种分类模 加摘要的内容，只是在一定程度上增加了部分特征

研究方法类别 训练集数量平均值 测试集数量平均值 F1 均值

表8 计量法与内容分析法的 Top 10 特征项及权重样例（以每个类别分类结果最高 F1 值对应的训练集为例）

在的文章的特征表征能力不同，如“计量法”所包 [8] 杨溢, 李伟超 . 1990—2001 年我国图书馆学情报学方法论研究

含的特征项表征能力较强，同时结果也表明训练集 统计分析[J]. 图书馆, 2003(5): 31-34.

可以进一步扩充数据集的规模，提升模型训练的效 nology recognition[J]. Computer Speech & Language, 2012, 26

果，同时选取不同领域的研究方法进行分析，使分 (2): 105-126.

类的结果具有一定的普适性；③通过优化数据采 [13] 化柏林 . 针对中文学术文献的情报方法术语抽取[J]. 现代图书

107-114. Conference on Neural Information Processing Systems, Montre‐

[2] 储荷婷 . 图书馆情报学界的研究方法:实践与发展[J]. 国家图书 al, Canada, 2015: 649-657.

You might also like

基于全文内容的学术论文研究方法自动分类研究章成志

基于全文内容的学术论文研究方法自动分类研究章成志

情报学报 2020 年 8 月第 39 卷第8期

3.1 研究数据集研究方法（如表 1 所示），研究方法主要是依据相

Gram）作为分类的特征项，并通过卡方检验（χ 2）其中向量空间模型（vector space model， VSM） [22]

从表 6 中的结果可以看出，在以上 7 种分类模加摘要的内容，只是在一定程度上增加了部分特征

研究方法类别训练集数量平均值测试集数量平均值 F1 均值

含的特征项表征能力较强，同时结果也表明训练集统计分析[J]. 图书馆, 2003(5): 31-34.