Professional Documents
Culture Documents
基于深度学习的录音文本分类方法
基于深度学习的录音文本分类方法
DOI: 10.3785/j.issn.1008-973X.2020.07.003
基于深度学习的录音文本分类方法
张彦楠 1,黄小红 1,马严 1,丛群 2
(1. 北京邮电大学 信息网络中心,北京 100876;2. 北京网瑞达科技有限公司,北京 100876)
摘 要:为了提高具有关联工单数据的录音文本的分类精确率,根据录音文本及关联数据的特点,设计基于深度
学习的录音文本分类方法. 针对录音文本,通过双向词嵌入语言模型(ELMo)获得录音文本及工单信息的向量化
表 示 , 基 于 获 取 的 词 向 量 , 利 用 卷 积 神 经 网 络 ( CNN) 挖 掘 句 子 局 部 特 征 ; 使 用 CNN 分 别 挖 掘 工 单 标 题 和 工 单 的
描述信息,将 CNN 输出的特征进行加权拼接后,输入双向门限循环单元(GRU),捕捉句子上下文语义特征;引入
注意力机制,对 GRU 隐藏层的输出状态赋予不同的权重. 实验结果表明,与已有算法相比,该分类方法的收敛速
度快,具有更高的准确率.
关键词: 词向量;卷积神经网络(CNN);双向门限循环单元;注意力;文本分类
中图分类号: TP 391 文献标志码: A 文章编号: 1008−973X(2020)07−1264−08
Abstract: A classification method based on deep learning was designed according to the characteristics of recording
text and correlation data in order to improve the classification precision of the recording text with associated work
order data. The embedding of the recording text and work order information was obtained through the bidirectional
word embedding language model (ELMo). Local features of the sentence were mined by using convolutional neural
networks (CNN) based on the word embedding. Title and description information of the work order were separately
mined by using CNN. Features extracted by CNN were concatenated with a weighting factor. Then weighted features
were entered into bidirectional gated recurrent unit (GRU) in order to capture the semantic features of the context.
The attention mechanism was introduced to assign different weights to the output state of the GRU hidden layer. The
experimental results show that the classification method has faster convergence rate and higher accuracy compared
with the existing algorithms.
Key words: word vector; convolutional neural networks (CNN); bidirectional gated recurrent unit; attention;
text classification
收稿日期:2019−07−30. 网址:www.zjujournals.com/eng/article/2020/1008-973X/202007003.shtml
基金项目:中央高校基本科研专项资金资助项目(2018RC53);国家 CNGI 专项资助项目(CNGI-12-03-001).
作者简介:张彦楠(1995—),女,硕士生,从事网络空间安全研究. orcid.org/0000-0003-2462-1760. E-mail:knightzyn@163.com
通信联系人:马严,男,教授. orcid.org/0000-0001-8065-591X. E-mail:mayan@bupt.edu.cn
张彦楠, 等:基于深度学习的录音文本分类方法 [J]. 浙江大学学报:工学版,
第 7期 2020, 54(7): 1264–1271. 1265
文本情感分类的效果,但均需要人工特征提取过程. 通过在高校信息网络中心呼叫中心录音文本数据
深度学习免去了人工特征提取耗费的成本 . [7]
上,使用多种分类模型进行对比实验,精确率和
自动特征提取首先需要将文本表示为计算机可以 召回率评价指标证明了使用的混合模型在录音文
理解的形式. Mikolov 等 [8] 提出 2 种神经网络语言 本分类问题上的有效性.
模型:连续词袋模型(continuous bag-of-words mod-
el,CBOW)和 Skip-Gram,但这 2 种模型无法对多 1 基于深度学习的录音文本分类方法
义 词 进 行 建 模 . Matthew 等 [9]
提 出 的 ELMo 模 型
使 用 长 短 期 记 忆 网 络 ( long short-term memory, 录音转文字的过程中会引入一些转化错误,
LSTM)根据上下文动态调整词向量,解决了多义词建 且录音对话文本具有口语化表达、用语结构灵
模问题. 活、包含简称与缩写、特征稀疏、上下文依赖性强
针 对 深 度 学 习 文 本 分 类 问 题 , Kim [10] 提 出 将 等特点. 在录音文本数据集上作初步统计,去除
卷 积 神 经 网 络 ( CNN) 应 用 于 文 本 分 类 任 务 , 通话开始坐席人员的问候语后,90% 的文本首句
CNN 的卷积和池化操作善于捕捉局部特征. 针对 与本次通话主题直接相关,且通常包含相应类别
包含自然语言处理的序列问题,循环神经网络 中出现频率较高的关键词. 录音文本的关联工单
(recurrent neural network,RNN)具有短期记忆 [11]
, 信息通常是录音内容的概括,包含录音的主题及
可以捕捉文本上下文特征. 对于 RNN 存在的梯度 关键词信息. 针对录音文本数据的以上特点,提
消 失 和 梯 度 爆 炸 问 题 , LSTM [12]
引入门控结构可 出 的 分 类 方 法 通 过 CNN 分 别 挖 掘 录 音 文 本 和 工
以处理长序列数据,GRU [12]
是 LSTM 网络的一种 单信息的局部特征,对局部特征进行有权重的拼
变体,结构简单且效果更好,Attention 机制根据单 接,工单相关的信息与录音首句的特征权重较
词携带信息的重要程度赋予不同的权重进行特征 高,其他语句的权重较低. 将拼接后的特征向量
提取,Liang 等 [13] 提出利用 GRU 对文档进行多标 输入 GRU 神经网络进行上下文语义特征的提取,
签情感分类的 GRU+Attention 模型. Lyu 等 [14]
研究 通过上述改进设计的混合神经网络模型对录音文
TextCNN、GRU、Attention 等深度学习算法以不同 本进行分类,强调关键语句可以对录音转文本过
方式组合在中文专利文献分类问题上的表现效 程中引入语料错误、录音文本特征稀疏、主题不
果 . Wang [15]
提 出 限 制 RNN 信 息 流 的 距 离 以 加 强 清晰等问题可能造成的分类错误进行一定程度的
局部信息提取能力的 DRNN 模型. 这些深度学习 纠正,提高分类准确率.
模型根据自身特点,适用于不同场景. 提出的录音文本分类模型包含 6 个部分,各
本文根据录音文本的特点,提出应用于录音 部分的逻辑关系如图 1 所示.
文本的分类方法. 分类模型首先将录音文本通过 1)输入层:录音文本、工单标题、工单描述经
ELMo 模型训练得到词向量,CNN 和 BiGRU 网络 预处理后输入到模型中.
基于词向量分别在句子级别和文档级别捕捉局部 2)Embedding 层:使用 ELMo 双向语言模型将
特征和上下文特征. 本文方法与其他分类方法的
输出层 分类结果
区别在于加入录音关联的工单信息同时作为文本
分类特征信息,依据增加的输入数据在分类模型 BiGRU+Attention 层
中添加 CNN 结构,同时引入权重系数对表征能力 加权拼接
强的工单信息和录音文本首句的局部特征赋予较 CNN 层
录音文本 工单信息
特征提取 特征提取
高权重,通过多次模型训练比较分类效果,确定
权重系数. 增加的关联工单信息可以在一定程度 录音文本 工单信息
嵌入层 Embedding Embedding
上弥补语料错误对分类结果的影响. 混合分类模
型 使 用 Adam 算 法 , 基 于 训 练 数 据 迭 代 地 更 新 神
输入层 录音文本 工单信息
经 网 络 权 重 进 行 参 数 优 化 ; 使 用 Dropout 正 则 化
方法在隐藏层随机丢弃神经元避免过拟合,通过 图1 录音文本分类模型示意图
以上方法使模型快速收敛并获得较高的准确率. Fig.1 Schematic diagram of classification model of recording text
1266 浙 江 大 学 学 报(工学版) 第 54 卷
2)使用中文分词组件 jieba,对录音文本进行
j 是 Softmax 的标准化权重,每层的输出向量与
stask
分词. jieba 提供了 3 种分词模式,其中精确模式试
权 重 向 量 相 乘 , 通 过 γtask 缩 放 系 数 调 整 ELMo 向
图将句子最精确地切分,适用于文本分析. 量 , ELMo 使 用 神 经 网 络 所 有 层 输 出 值 的 线 性 组
3) 使 用 哈 尔 滨 工 业 大 学 停 用 词 表 [16], 并 补 充 合来表示词向量. 将工单标题、工单描述和录音
一部分通话音频中频繁出现的无意义词句,通过 文 本 经 ELMo 模 型 训 练 , 得 到 全 部 语 料 文 本 的
查表过滤和剔除停用词. Embedding,作为后续分类模型的输入.
1.2 嵌入层 1.3 句子级别 CNN
常 用 的 词 嵌 入 方 法 Word2Vec 训 练 得 到 的 是 CNN 是 一 种 局 部 连 接 的 深 层 前 馈 神 经 网 络 ,
静态词向量,无法根据上下文语境发生变化. 静 善于捕捉文本局部特征. 针对特征向量稀疏的录
态 词 向 量 无 法 解 决 一 词 多 义 的 问 题 . ELMo 通 过 音 文 本 , 可 以 有 效 提 取 关 键 词 信 息 . CNN 卷 积 核
深 度 双 向 LSTM 语 言 模 型 动 态 更 新 词 向 量 [9] , 获 权值共享和池化操作可以显著降低网络复杂度,
取 所 有 层 的 内 部 表 征 . 如 图 2 所 示 为 ELMo 结 构 减少训练耗时. 卷积神经网路的隐含层分为卷积
图 , E1, E2, · · ·, EN 为 前 一 隐 层 输 出 的 词 向 量 , T1, 层、池化层和全连接层 3 层. 卷积层通过卷积核移
T2, · · ·,TN 为经过一层双向 LSTM 后得到的词向量. 动并进行卷积操作提取局部特征;池化层对输入
双向模型的公式 [9]
如下: 的特征进行采样拼接,形成高层特征向量;全连
∑
N
→− 接层将所有的局部特征结合,形成样本全局特征.
(log2 p(tk |t1 , ..., tk−1 ; Θx , ΘLSTM, Θs )+
本文模型中提取录音文本特征的 CNN 数量,
k=1
←
− 须满足大多数文本包含的句子数目小于等于该值.
log2 p(tk |tk+1 , ..., tN ; Θx , ΘLSTM, Θs )). (1)
若 CNN 数量远大于大部分文本包含的句子数,则
T1 T2 … TN 许 多 CNN 输 入 的 是 无 意 义 的 空 值 ; 若 CNN 数 量
远小于大部分文本包含的句子数,则许多文本的
LSTM LSTM … LSTM LSTM LSTM … LSTM 后半部分信息将被截断丢弃,导致一定程度的语
… …
义 缺 失 . 设 定 阈 值 为 α , count (text) 为 所 有 录 音 数
LSTM LSTM LSTM LSTM LSTM LSTM
据 数 目 , N 为 C N N 的 个 数 ,count (textlength(t)⩽N )
E1 E2 … EN
为录音文本句子数≤N 的文本数目,则 N 满足
αcount (text) ⩽ count (textlength(t)⩽N ). (4)
图2 ELMo 模型结构图
Fig.2 ELMo model structure diagram 设定 α =0.8,计算得到 N =20,当录音文本的句
张彦楠, 等:基于深度学习的录音文本分类方法 [J]. 浙江大学学报:工学版,
第 7期 2020, 54(7): 1264–1271. 1267
式 中 : wr、 wz、 w 为 权 重 短 阵 , 根 据 神 经 网 络 的 训 阶 段 的 权 重 系 数 矩 阵 , bi 为 第 i 时 刻 相 应 的 偏 移
越大,对上一个神经元保留的信息越少. Softmax 用 于 多 分 类 场 景 下 预 测 每 个 类 出 现
1.5 Attention 机制 的概率,选择具有最高概率的类别作为最后的分
Attention 机制借助人脑处理过载信息时的注 类结果输出. Softmax 公式为
意力机制,使得神经网络处理大量输入信息时聚 ez j
s(Z) j = ∑K zk
. (13)
焦于关键信息. 针对录音文本,Attention 机制通过 k=1 e
对隐藏层的输出赋予不同的权重,可以增强关键
式中: j ∈ {1, · · · , K}.
词信息对分类结果的影响,同时避免通过使用全
卷积神经网络的时间复杂度为
连接网络或增加神经网络深度的方法来提高模型 D
∑
捕捉长距离上下文依赖信息的能力,缓解模型复 Time ∼ O Ml Kl Cl−1Cl .
2 2
(14)
杂 度 与 表 达 能 力 之 间 的 矛 盾 . Attention 机 制 使 得 l=1
表 1 录音文本分类方法实验数据分布表 表示样本的真实情况,每一列表示模型预测的样
Tab.1 Experimental data distribution table of recording text
本情况.
classification method
评价指标采用精确率和召回率. 精确率为
类别 训练集数 验证集数
TP
P= . (15)
网络故障报修 14 138 1 414 TP + FP
校园卡业务咨询 12 092 1 209 召回率为
信息门户咨询 10 578 1 058 TP
R= . (16)
邮箱业务咨询 9 130 913 TP + FN
表 2 录音文本分类模型神经网络参数取值表 负类 FP TN
Tab.2 Neural network parameter value table of recorded text
classification model 表 4 精确率、召回率与权重系数的关系
representations of words and phrases and their compositionality IEEE, 2019: 345–346.
[C] // Advances in Neural Information Processing Systems. [15] WANG B. Disconnected recurrent neural networks for text
Nevada: NIPS, 2013: 3111–3119. categorization [C] // Proceedings of the 56th Annual Meeting of
[9] MATTHEW E P, MARK N, MOHIT I, et al. Deep contextualized the Association for Computational Linguistics. Melbourne:
word representations [C] // Proceedings of the 2018 Conference ACL, 2018: 2311–2320.
of the North American Chapter of the Association for [16] 哈工大停用词表 [EB/OL]. [2019-12-18]. https://github.com/goto
Computational Linguistics: Human Language Technologies. 456/stopwords.
New Orleans: ACL, 2018: 2227–2237.
[17] 任勉, 甘刚. 基于双向 LSTM 模型的文本情感分类 [J]. 计算机
[10] KIM Y. Convolutional neural networks for sentence classification
工程与设计, 2018, 39(7): 2064–2068.
[C] // Proceedings of the 2014 Conference on Empirical
REN Mian, GAN Gang. Sentiment analysis of text based on bi-
Methods in Natural Language Processing. Stroudsburg: ACL,
directional long short-term memory model [J]. Computer
2014: 1746–1751.
Engineering and Design, 2018, 39(7): 2064–2068.
[11] LIU P, QIU X, HUANG X, et al. Recurrent neural network for text
[18] TANG D, QIN B, LIU T. Document modeling with gated
classification with multi-task learning [C] // Proceedings of the
recurrent neural network for sentiment classification [C] //
25th International Joint Conferences on Artificial Intelligence.
Proceedings of the 2015 Conference on Empirical Methods in
New York: AAAI Press, 2016: 2873–2879.
Natural Language Processing. Lisbon: ACL, 2015: 1422–1432.
[12] ATHIWARATKUN B, STOKES J W. Malware classification with
[19] 张国豪, 刘波. 采用 CNN 和 Bidirectional GRU 的时间序列分类
LSTM and GRU language models and a character-level CNN [C] //
研究 [J]. 计算机科学与探索, 2019, 13(6): 916–927.
2017 IEEE International Conference on Acoustics, Speech and
ZHANG Guo-hao, LIU Bo. Research on time series classification
Signal Processing. New Orleans: IEEE, 2017: 2482–2486.
[13] LIANG X, LIU Z, OUYANG C. A multi-sentiment classifier using CNN and bidirectional GRU [J]. Journal of Frontiers of
based on GRU and attention mechanism [C] // 2018 IEEE 9th Computer Science and Technology, 2019, 13(6): 916–927.
International Conference on Software Engineering and [20] 杨东, 王移芝. 基于 Attention-based C-GRU 神经网络的文本分
Service Science. Beijing: IEEE, 2018: 527–530. 类 [J]. 计算机与现代化, 2018, 34(2): 96–100.
[14] LYU L, HAN T. A comparative study of Chinese patent literature YANG Dong, WANG Yi-zhi. An Attention-based C-GRU neural
automatic classification based on deep learning [C] // 2019 network for text classification [J]. Computer and Modernization,
ACM/IEEE Joint Conference on Digital Libraries. Champaign: 2018, 34(2): 96–100.
[35] ZHANG H, AHMAD S, LIU G. Torque estimation for robotic parameter identification for electro-optical stabilized platform
joint with harmonic drive transmission based on position servo systems [J]. Optics and Precision Engineering, 2015,
measurements [J]. IEEE Transactions on Robotics, 2015, 31(2): 23(2): 477–484.