Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

第 54 卷第 7 期

浙 江 大 学 学 报 (工学版) Vol.54 No.7


2020 年 7 月 Journal of Zhejiang University (Engineering Science) Jul. 2020

DOI: 10.3785/j.issn.1008-973X.2020.07.003

基于深度学习的录音文本分类方法
张彦楠 1,黄小红 1,马严 1,丛群 2
(1. 北京邮电大学 信息网络中心,北京 100876;2. 北京网瑞达科技有限公司,北京 100876)

摘 要:为了提高具有关联工单数据的录音文本的分类精确率,根据录音文本及关联数据的特点,设计基于深度
学习的录音文本分类方法. 针对录音文本,通过双向词嵌入语言模型(ELMo)获得录音文本及工单信息的向量化
表 示 , 基 于 获 取 的 词 向 量 , 利 用 卷 积 神 经 网 络 ( CNN) 挖 掘 句 子 局 部 特 征 ; 使 用 CNN 分 别 挖 掘 工 单 标 题 和 工 单 的
描述信息,将 CNN 输出的特征进行加权拼接后,输入双向门限循环单元(GRU),捕捉句子上下文语义特征;引入
注意力机制,对 GRU 隐藏层的输出状态赋予不同的权重. 实验结果表明,与已有算法相比,该分类方法的收敛速
度快,具有更高的准确率.
关键词: 词向量;卷积神经网络(CNN);双向门限循环单元;注意力;文本分类
中图分类号: TP 391 文献标志码: A 文章编号: 1008−973X(2020)07−1264−08

Method with recording text classification based on deep learning


ZHANG Yan-nan1, HUANG Xiao-hong1, MA Yan1, CONG Qun2
(1. Information Network Center, Beijing University of Posts and Telecommunications, Beijing 100876, China;
2. Beijing Wrdtech Limited Company, Beijing 100876, China)

Abstract: A classification method based on deep learning was designed according to the characteristics of recording
text and correlation data in order to improve the classification precision of the recording text with associated work
order data. The embedding of the recording text and work order information was obtained through the bidirectional
word embedding language model (ELMo). Local features of the sentence were mined by using convolutional neural
networks (CNN) based on the word embedding. Title and description information of the work order were separately
mined by using CNN. Features extracted by CNN were concatenated with a weighting factor. Then weighted features
were entered into bidirectional gated recurrent unit (GRU) in order to capture the semantic features of the context.
The attention mechanism was introduced to assign different weights to the output state of the GRU hidden layer. The
experimental results show that the classification method has faster convergence rate and higher accuracy compared
with the existing algorithms.
Key words: word vector; convolutional neural networks (CNN); bidirectional gated recurrent unit; attention;
text classification

随着语音识别与人工智能技术的发展与进步 [1], 量稀疏,包含语音识别错误和口语化表达 [4],且问


录音数据可以被转化为文本并进行信息提取. 对 答型的对话上下文语境依赖性强. 简单的词频加
录音文本分类可以获取录音的主题信息 ,方便 [2]
权方法 [5] 提取的特征稀疏,缺失了语义级别特征
后续对不同类目有针对性地进行命名实体识别、 的学习和抽象,文本特征表达能力很弱. 针对语
语义角色标注及情感分析 [3]
等自然语言处理任务. 音识别后的文本分类问题,Ezzat 等 [6] 研究不同特
录音对话的语音文本通常为短文本,特征向 征选取方法和传统机器学习方法对呼叫中心录音

收稿日期:2019−07−30. 网址:www.zjujournals.com/eng/article/2020/1008-973X/202007003.shtml
基金项目:中央高校基本科研专项资金资助项目(2018RC53);国家 CNGI 专项资助项目(CNGI-12-03-001).
作者简介:张彦楠(1995—),女,硕士生,从事网络空间安全研究. orcid.org/0000-0003-2462-1760. E-mail:knightzyn@163.com
通信联系人:马严,男,教授. orcid.org/0000-0001-8065-591X. E-mail:mayan@bupt.edu.cn
张彦楠, 等:基于深度学习的录音文本分类方法 [J]. 浙江大学学报:工学版,
第 7期 2020, 54(7): 1264–1271. 1265

文本情感分类的效果,但均需要人工特征提取过程. 通过在高校信息网络中心呼叫中心录音文本数据
深度学习免去了人工特征提取耗费的成本 . [7]
上,使用多种分类模型进行对比实验,精确率和
自动特征提取首先需要将文本表示为计算机可以 召回率评价指标证明了使用的混合模型在录音文
理解的形式. Mikolov 等 [8] 提出 2 种神经网络语言 本分类问题上的有效性.
模型:连续词袋模型(continuous bag-of-words mod-
el,CBOW)和 Skip-Gram,但这 2 种模型无法对多 1 基于深度学习的录音文本分类方法
义 词 进 行 建 模 . Matthew 等 [9]
提 出 的 ELMo 模 型
使 用 长 短 期 记 忆 网 络 ( long short-term memory, 录音转文字的过程中会引入一些转化错误,
LSTM)根据上下文动态调整词向量,解决了多义词建 且录音对话文本具有口语化表达、用语结构灵
模问题. 活、包含简称与缩写、特征稀疏、上下文依赖性强
针 对 深 度 学 习 文 本 分 类 问 题 , Kim [10] 提 出 将 等特点. 在录音文本数据集上作初步统计,去除
卷 积 神 经 网 络 ( CNN) 应 用 于 文 本 分 类 任 务 , 通话开始坐席人员的问候语后,90% 的文本首句
CNN 的卷积和池化操作善于捕捉局部特征. 针对 与本次通话主题直接相关,且通常包含相应类别
包含自然语言处理的序列问题,循环神经网络 中出现频率较高的关键词. 录音文本的关联工单
(recurrent neural network,RNN)具有短期记忆 [11]
, 信息通常是录音内容的概括,包含录音的主题及
可以捕捉文本上下文特征. 对于 RNN 存在的梯度 关键词信息. 针对录音文本数据的以上特点,提
消 失 和 梯 度 爆 炸 问 题 , LSTM [12]
引入门控结构可 出 的 分 类 方 法 通 过 CNN 分 别 挖 掘 录 音 文 本 和 工
以处理长序列数据,GRU [12]
是 LSTM 网络的一种 单信息的局部特征,对局部特征进行有权重的拼
变体,结构简单且效果更好,Attention 机制根据单 接,工单相关的信息与录音首句的特征权重较
词携带信息的重要程度赋予不同的权重进行特征 高,其他语句的权重较低. 将拼接后的特征向量
提取,Liang 等 [13] 提出利用 GRU 对文档进行多标 输入 GRU 神经网络进行上下文语义特征的提取,
签情感分类的 GRU+Attention 模型. Lyu 等 [14]
研究 通过上述改进设计的混合神经网络模型对录音文
TextCNN、GRU、Attention 等深度学习算法以不同 本进行分类,强调关键语句可以对录音转文本过
方式组合在中文专利文献分类问题上的表现效 程中引入语料错误、录音文本特征稀疏、主题不
果 . Wang [15]
提 出 限 制 RNN 信 息 流 的 距 离 以 加 强 清晰等问题可能造成的分类错误进行一定程度的
局部信息提取能力的 DRNN 模型. 这些深度学习 纠正,提高分类准确率.
模型根据自身特点,适用于不同场景. 提出的录音文本分类模型包含 6 个部分,各
本文根据录音文本的特点,提出应用于录音 部分的逻辑关系如图 1 所示.
文本的分类方法. 分类模型首先将录音文本通过 1)输入层:录音文本、工单标题、工单描述经
ELMo 模型训练得到词向量,CNN 和 BiGRU 网络 预处理后输入到模型中.
基于词向量分别在句子级别和文档级别捕捉局部 2)Embedding 层:使用 ELMo 双向语言模型将
特征和上下文特征. 本文方法与其他分类方法的
输出层 分类结果
区别在于加入录音关联的工单信息同时作为文本
分类特征信息,依据增加的输入数据在分类模型 BiGRU+Attention 层
中添加 CNN 结构,同时引入权重系数对表征能力 加权拼接

强的工单信息和录音文本首句的局部特征赋予较 CNN 层
录音文本 工单信息
特征提取 特征提取
高权重,通过多次模型训练比较分类效果,确定
权重系数. 增加的关联工单信息可以在一定程度 录音文本 工单信息
嵌入层 Embedding Embedding
上弥补语料错误对分类结果的影响. 混合分类模
型 使 用 Adam 算 法 , 基 于 训 练 数 据 迭 代 地 更 新 神
输入层 录音文本 工单信息
经 网 络 权 重 进 行 参 数 优 化 ; 使 用 Dropout 正 则 化
方法在隐藏层随机丢弃神经元避免过拟合,通过 图1 录音文本分类模型示意图
以上方法使模型快速收敛并获得较高的准确率. Fig.1 Schematic diagram of classification model of recording text
1266 浙 江 大 学 学 报(工学版) 第 54 卷

输入层的文本转换为低维向量形式. 式中: (t1 , t2 , · · · , tN ) 表示输入一个含 N 个 token 的序


→− ←−
3) 句 子 级 别 CNN 层 : 多 个 CNN 神 经 网 络 分 列 , ΘLSTM 和 ΘLSTM 分 别 为 正 、 反 向 的 LSTM 网
别 根 据 Embedding 层 的 输 出 , 对 录 音 文 本 的 句 子 络 参 数 , Θx 和 Θs 为 2 个 网 络 共 享 的 映 射 层 参 数 和
以及工单标题和工单描述进行局部特征提取. Softmax 层参数.
4)BiGRU 层:CNN 输出的局部特征加权拼接 每个 token tk 在 L 层的双向语言模型表示 [9] 为
{ }
后,使用双向 GRU 神经网络进行上下文特征提取. LM → − LM ← −LM
Rk = k , h k, j , h k, j | j = 1, · · · , L =
x
5) Attention 层 : 对 隐 藏 层 提 取 的 信 息 赋 予 权 { }
重,突出关键信息. k, j | j = 0, · · · , L .
hLM (2)
6)输出层:经 Attention-BiGRU 神经网络得到
k, j ( j = 1, · · · , L) 为
式 中 : xkLM 为 tk 的 词 向 量 ; hLM
的 特 征 向 量 通 过 Softmax 分 类 器 , 得 出 最 终 的 分
token 在第 j 层 LSTM 网络中任意位置 k 的表示,
类结果.
对 于 每 个 token, L 层 的 双 向 LSTM 模 型 共 得 到
1.1 输入层
2L + 1 个表征.
录音文本进入输入层之前,须进行预处理.
tk 的 EMLo 表示方式为
1) 去 掉 互 动 式 语 音 应 答 ( interactive voice re-

L
sponse, IVR) 提 示 文 本 以 及 通 话 文 本 开 头 坐 席 人 = E(Rk ; Θtask ) = γtask
EMLotask j hk, j .
stask LM
k (3)
员的问候语. j=0

2)使用中文分词组件 jieba,对录音文本进行
j 是 Softmax 的标准化权重,每层的输出向量与
stask
分词. jieba 提供了 3 种分词模式,其中精确模式试
权 重 向 量 相 乘 , 通 过 γtask 缩 放 系 数 调 整 ELMo 向
图将句子最精确地切分,适用于文本分析. 量 , ELMo 使 用 神 经 网 络 所 有 层 输 出 值 的 线 性 组
3) 使 用 哈 尔 滨 工 业 大 学 停 用 词 表 [16], 并 补 充 合来表示词向量. 将工单标题、工单描述和录音
一部分通话音频中频繁出现的无意义词句,通过 文 本 经 ELMo 模 型 训 练 , 得 到 全 部 语 料 文 本 的
查表过滤和剔除停用词. Embedding,作为后续分类模型的输入.
1.2 嵌入层 1.3 句子级别 CNN
常 用 的 词 嵌 入 方 法 Word2Vec 训 练 得 到 的 是 CNN 是 一 种 局 部 连 接 的 深 层 前 馈 神 经 网 络 ,
静态词向量,无法根据上下文语境发生变化. 静 善于捕捉文本局部特征. 针对特征向量稀疏的录
态 词 向 量 无 法 解 决 一 词 多 义 的 问 题 . ELMo 通 过 音 文 本 , 可 以 有 效 提 取 关 键 词 信 息 . CNN 卷 积 核
深 度 双 向 LSTM 语 言 模 型 动 态 更 新 词 向 量 [9] , 获 权值共享和池化操作可以显著降低网络复杂度,
取 所 有 层 的 内 部 表 征 . 如 图 2 所 示 为 ELMo 结 构 减少训练耗时. 卷积神经网路的隐含层分为卷积
图 , E1, E2, · · ·, EN 为 前 一 隐 层 输 出 的 词 向 量 , T1, 层、池化层和全连接层 3 层. 卷积层通过卷积核移
T2, · · ·,TN 为经过一层双向 LSTM 后得到的词向量. 动并进行卷积操作提取局部特征;池化层对输入
双向模型的公式 [9]
如下: 的特征进行采样拼接,形成高层特征向量;全连

N
→− 接层将所有的局部特征结合,形成样本全局特征.
(log2 p(tk |t1 , ..., tk−1 ; Θx , ΘLSTM, Θs )+
本文模型中提取录音文本特征的 CNN 数量,
k=1

− 须满足大多数文本包含的句子数目小于等于该值.
log2 p(tk |tk+1 , ..., tN ; Θx , ΘLSTM, Θs )). (1)
若 CNN 数量远大于大部分文本包含的句子数,则
T1 T2 … TN 许 多 CNN 输 入 的 是 无 意 义 的 空 值 ; 若 CNN 数 量
远小于大部分文本包含的句子数,则许多文本的
LSTM LSTM … LSTM LSTM LSTM … LSTM 后半部分信息将被截断丢弃,导致一定程度的语

… …
义 缺 失 . 设 定 阈 值 为 α , count (text) 为 所 有 录 音 数
LSTM LSTM LSTM LSTM LSTM LSTM
据 数 目 , N 为 C N N 的 个 数 ,count (textlength(t)⩽N )

E1 E2 … EN
为录音文本句子数≤N 的文本数目,则 N 满足
αcount (text) ⩽ count (textlength(t)⩽N ). (4)
图2 ELMo 模型结构图
Fig.2 ELMo model structure diagram 设定 α =0.8,计算得到 N =20,当录音文本的句
张彦楠, 等:基于深度学习的录音文本分类方法 [J]. 浙江大学学报:工学版,
第 7期 2020, 54(7): 1264–1271. 1267

子 数 目 小 于 CNN 数 目 时 , 对 录 音 文 本 作 相 应 填 后进行特征拼接时的权重, (1 − γ) 为给录音文本剩


充;当句子数目大于 CNN 的数目时,对文本作截 余句子的特征赋予的权重. γ 是一个可调节参数,
断 处 理 . 每 个 CNN 网 络 对 句 子 进 行 局 部 特 征 提 通过多次实验,根据分类模型输出及评估标准最
取 . 为 了 提 高 模 型 的 泛 化 性 能 , 加 入 Dropout 层 . 终确定取值. 如图 4 所示为对 CNN 提取后的特征
Dropout 在 前 向 传 播 和 反 向 传 播 训 练 模 型 的 过 程 进行加权拼接的示意图.
中,在神经网络的隐藏层中以一定概率随机丢弃 1.4 BiGRU
部分神经元,相当于给数据增加噪声,避免在训 RNN 在 处 理 包 括 录 音 文 本 在 内 的 序 列 数 据
练数据量不够多时出现过拟合现象. 如图 3 所示 时可以体现长距离依赖信息,RNN 层与层之间的
为 句 子 级 别 CNN 模 型 结 构 图 . 图 中 , wiln 为 第 n 句 神经元间建立了连接,当前时刻的状态可以影响

子中的第 i 个单词, ln 为第 n 个句子的长度. 下一时刻的状态,因此可以捕捉到数据的前后相

通常产生录音数据的场景具有类似通话记录 关性. GRU 在 RNN 的基础上设计了门控结构,让


和工单等相关联的其他文本信息. 这些文本可以 信息选择性地在隐藏层传递,记忆重要信息的同
给录音文本的分类提供关键词信息,在分类模型 时解决长序列训练过程中出现的梯度消失和梯度
中加入对关联文本信息的特征提取,可以提高分 爆 炸 问 题 . GRU 有 重 置 门 和 更 新 门 2 个 门 控 结
类模型的准确率. 本文实验选取高校信息网络中 构 , 参 数 少 且 收 敛 速 度 快 . GRU 中 状 态 之 间 的 传
心的呼叫中心录音数据及关联工单的部分信息作 输是从前向后的单向传播过程,只能利用当前输
为 关 联 信 息 输 入 : 1) 工 单 标 题 是 该 通 话 内 容 主 入和之前的上下文信息;BiGRU 既能够获得从前
题;2)工单的问题描述通常包含分类关键词;3)工 向后的依赖信息,也可以获得反向的依赖信息,
单所属分类作为样本的类别. 提取到的特征信息更丰富. 如图 5 所示为 GRU 结
工单标题 Embedding 作为 CNN1 的输入,工单 构 图 . 图 中 , σ 为 Sigmoid 函 数 , 将 权 重 设 置 为
描 述 Embedding 作 为 CNN2 的 输 入 , 录 音 文 本 每 0~1.0,tanh 激活函数将数据映射到−1.0~1.0.
个 句 子 的 Embedding 依 次 作 为 CNN3, CNN4, · · · , GRU 神经网络的神经元更新方式如下.
CNN22 的 输 入 . 由 于 工 单 标 题 、 描 述 和 录 音 文 本 zt = σ (Wz [ht−1 , xt ]), (6)
首 句 对 分 类 任 务 的 贡 献 较 大 , CNN1、 CNN2 和 rt = σ (Wr [ht−1 , xt ]), (7)
CNN3 输 出 的 特 征 进 行 拼 接 时 给 予 较 高 的 权 重 ,
h = tanh (W[rt ⊙ ht−1 , xt ]), (8)
其余句子特征赋予相同的权重.
xGRU =γ(yCNN1 + yCNN2 + yCNN3 )+ GRU
(1 − γ)(yCNN4 + · · · + yCNN22 ). (5)
+
γ
式中: xGRU 为 BiGRU 网络的输入, γ 为工单标题及 γ γ 1−γ 1−γ
… CNN22
工 单 描 述 和 录 音 文 本 首 句 经 CNN 网 络 特 征 提 取 CNN1 CNN2 CNN3 CNN4

录音文本 录音文本 录音文本


工单标题 工单描述
首句 第2句 … 第20句
Embedding Embedding
Dense Dense Dense Embedding Embedding Embedding

Max pooling Max pooling Max pooling


图4 CNN 特征加权拼接示意图
Dropout Dropout Dropout Fig.4 CNN feature weighted concatenate schematic diagram
Conv1 D Conv1 D Conv1 D

Embedding Embedding Embedding ht−1 ht


× +
Input Input Input
×
1− ×
rt zt h
… … … σ σ
… tanh
1 1 1 2 2 2 n n
w 1 w2 w
l1 w1 w2 wl2 w1 w2 wn
ln xt

图3 句子级别 CNN 模型结构图 图5 GRU 结构图


Fig.3 Sentence level CNN model structure Fig.5 GRU structure diagram
1268 浙 江 大 学 学 报(工学版) 第 54 卷

ht = (1 − zt ) ⊙ h t−1 + zt ⊙ h. (9) 决定的注意力概率分布值, wi 和 Wi 为第 i 时刻不同

式 中 : wr、 wz、 w 为 权 重 短 阵 , 根 据 神 经 网 络 的 训 阶 段 的 权 重 系 数 矩 阵 , bi 为 第 i 时 刻 相 应 的 偏 移

练过程更新取值;h 为当前时刻的候选隐藏状态; 量, αi j 为 hi 的权重, ci 为输入对应的语义编码.


1.6 输出层
⊙表示元素相乘.
BiGRU 网络的输出经过以 Softmax 作为激活
通 过 上 一 个 神 经 元 的 输 出 ht−1 和 当 前 节 点 的
函数的全连接层完成维度变换,将高维的语义特
输入 xt ,获取 2 个门控状态. rt 控制重置的门控,用
征变换为低维的模型定义的类别数目,完成分类
于控制前一时刻隐层单元 ht−1对当前词 xt 的影响,
zt 控制更新的门控,当前词 xt 要保留的信息越多 zt 结果的输出.

越大,对上一个神经元保留的信息越少. Softmax 用 于 多 分 类 场 景 下 预 测 每 个 类 出 现
1.5 Attention 机制 的概率,选择具有最高概率的类别作为最后的分
Attention 机制借助人脑处理过载信息时的注 类结果输出. Softmax 公式为
意力机制,使得神经网络处理大量输入信息时聚 ez j
s(Z) j = ∑K zk
. (13)
焦于关键信息. 针对录音文本,Attention 机制通过 k=1 e
对隐藏层的输出赋予不同的权重,可以增强关键
式中: j ∈ {1, · · · , K}.
词信息对分类结果的影响,同时避免通过使用全
卷积神经网络的时间复杂度为
连接网络或增加神经网络深度的方法来提高模型  D 
∑ 
捕捉长距离上下文依赖信息的能力,缓解模型复 Time ∼ O  Ml Kl Cl−1Cl  .
2 2
(14)
杂 度 与 表 达 能 力 之 间 的 矛 盾 . Attention 机 制 使 得 l=1

模型更加关注于重要的局部信息,提高神经网络 式中: D 为神经网络具有的卷积层数; K 为卷积核


处理信息的能力使得模型作出更加准确的判断. 边 长 ; M 为 特 征 图 的 边 长 ;l 为 网 络 的 第l 个 卷 积
引入 Attention 机制的模型结构如图 6 所示. 层 ; Cl−1 为 第 l − 1层 的 输 出 通 道 数 , Cl 为 第 l 层 的 输
Attention 机制的计算公式 [13] 如下. 出通道数,输出通道数即为该层卷积核个数. K 、
ei = wi tanh (Wi hi + bi ), (10)
M 、Cl−1 、Cl 均 与 超 参 数 有 关 , 仅 D 的 取 值 与 模 型
exp ei j 结构有关,本文分类模型的卷积神经网络部分只
αi j = , (11)

Tx
包 含 一 层 卷 积 层 , 此 后 经 过 一 层 GRU 网 络 .
exp eik
k=1
CNN 与 GRU 按 顺 序 依 次 处 理 , 因 此 整 个 模 型 的

Tx 时 间 复 杂 度 为 CNN 和 GRU 复 杂 度 之 和 , 与 单 独
ci = αi j hi . (12)
的 CNN 模 型 或 GRU 模 型 相 比 , 复 杂 度 的 数 量 级
j=1
没有增加.
式中:i 表示时刻,j 表示序列中的第 j 个元素,
T x 为 序 列 的 长 度 , ei 为 第 i 时 刻 隐 层 状 态 向 量 hi 所
2 实验结果与分析
… v …
2.1 实验数据
+ Attention 本文的实验数据来源为某高校信息网络中
α1 α2 α3 αT 心 2017.6.1 到 2019.10.31 的通话录音、通话记录及
报修工单. 剔除没有转接到人工坐席的无效录

h1 h2 h3 hT 音、时长过短不包含所需业务信息的录音,根据
BiGRU

工单标签信息,选取来电次数最多的 6 类业务的
h1 h2 h3 hT
相关数据作为实验数据集. 这 6 类业务分别为网
络故障报修、校园卡业务咨询、信息门户咨询、邮
x1 x2 x3 xT 输入
箱业务咨询、云盘业务咨询和正版软件使用,共
图6 Attention 模型结构图 68 208 条 音 频 及 对 应 工 单 , 实 验 数 据 集 的 分 布 情
Fig.6 Attention model structure diagram 况如表 1 所示.
张彦楠, 等:基于深度学习的录音文本分类方法 [J]. 浙江大学学报:工学版,
第 7期 2020, 54(7): 1264–1271. 1269

表 1 录音文本分类方法实验数据分布表 表示样本的真实情况,每一列表示模型预测的样
Tab.1 Experimental data distribution table of recording text
本情况.
classification method
评价指标采用精确率和召回率. 精确率为
类别 训练集数 验证集数
TP
P= . (15)
网络故障报修 14 138 1 414 TP + FP
校园卡业务咨询 12 092 1 209 召回率为
信息门户咨询 10 578 1 058 TP
R= . (16)
邮箱业务咨询 9 130 913 TP + FN

云盘业务咨询 8 259 826 精确率衡量被分类模型划分到某个类别中的


正版软件使用 7 810 781 文本中真实类别属于该类的比例,精确率越高说
明分类器分类越准确. 召回率衡量实际属于某个
2.2 模型超参数及优化算法
类别的所有文本中被正确划分到该类别的比例,
该实验主要针对 ELMo 进行词向量训练时的
召回率越高,说明分类器在该类上漏掉的文本越少.
维 度 、 CNN 卷 积 核 尺 寸 、 CNN 卷 积 核 数 目 、 模 型
如表 4 所示为精确率、召回率与权重系数的
迭 代 轮 次 Epoch、 一 次 训 练 选 取 的 样 本 数 Batch
关系. 实验结果表明,当 γ 取为 0.7 时,分类效果最
Size 和 Dropout 随机失活率,在一定取值范围内对
好 , 精 确 率 可 达 95.32%, 召 回 率 可 达 90.50%. 当 γ
模型进行训练和结果比较. 如表 2 所示为本文设
取为 0.6 和 0.8时,精确率和召回率都有一定程度
计的录音分类模型参数实验范围以及权衡模型训
的降低;当 γ 取为 0.9 时,分类效果最差. 由此验证
练耗时与分类表现效果的最终取值.
了引入 γ 对录音文本分类的有效性,表明过分关
该 实 验 使 用 Adam 优 化 算 法 更 新 模 型 参 数 ,
注关键语句的局部特征不能取得最好的表现效
随 机 梯 度 下 降 算 法 ( stochastic gradient descent,
果,上下文语义特征在分类任务中具有不可忽视
SGD)以单一的学习率更新所有的权重,学习过程
的贡献.
比较缓慢,且初始学习率选择不恰当时会出现严
2.4 对比实验
重振荡. Adam 通过计算梯度的一阶矩估计和二阶
将提出的文本分类模型与以下分类模型在相
矩估计,为不同的参数设计独立的自适应性学习
同的录音文本数据上完成分类任务,将精确率和
率,解决了稀疏梯度和噪声问题,且超参数具有
召回率作为评价指标,验证该模型的有效性. 在
很好的解释性,实现简单,计算高效.
对比实验中,文本模型的 γ 取 0.7.
2.3 权重系数确定与实验结果
1)Kim[10] 提出的采用 CNN 进行文本分类.
由于工单的标题、描述和录音文本首句对录
音内容的表征能力最强, γ 从 0.5 开始取值, γ 的取 表 3 混淆矩阵
值为 0.5 ⩽ γ < 1,在该范围内以 0.1 的步长增大 γ . Tab.3 Confusion matrix

在机器学习领域内,可以使用混淆矩阵评价 真实类别 模型预测为正类 模型预测为负类


分类模型的表现效果,如表 3 所示. 矩阵的每一行 正类 TP FN

表 2 录音文本分类模型神经网络参数取值表 负类 FP TN
Tab.2 Neural network parameter value table of recorded text
classification model 表 4 精确率、召回率与权重系数的关系

模型参数 参数取值 参数实验值 Tab.4 Precision,recall and weighting factor table

词向量维度 200 100,200,300 γ P R

CNN卷积核尺寸 3 3,4,5 0.5 0.909 7 0.840 2

CNN卷积核数量 128 64,128,256 0.6 0.933 8 0.873 5

Epoch 25 10,15,20,25,30 0.7 0.953 2 0.905 0

Batch Size 128 64,128,256 0.8 0.921 5 0.852 6

随机失活率 0.5 0.4,0.5,0.6 0.9 0.893 2 0.822 0


1270 浙 江 大 学 学 报(工学版) 第 54 卷

2)任勉等 [17] 提出的 BiLSTM 文本情感分类模型. 本 通 过 ELMo 模 型 进 行 预 训 练 得 到 动 态 词 向 量 ,


3)Tang 等 [18]
提出的句子级别 CNN 和文档级 基 于 词 向 量 使 用 CNN 在 录 音 文 本 的 句 子 级 别 提
别 BiLSTM 混合模型. 取局部特征. 为了提高分类准确率,将录音文本
4)张国豪等 [19]
提出的采用 CNN 和 BiGRU 的 关 联 的 工 单 信 息 经 CNN 进 行 特 征 提 取 , 将
时间序列分类模型 BiGRU-FCN. CNN 提 取 后 的 特 征 根 据 对 分 类 任 务 的 贡 献 程 度
5)杨东等 [20]
提出的 Attention-based C-GRU 文 不同进行有权重的拼接,关联附属信息能够在一
本分类模型,该模型结合 CNN 与 GRU 并引入 At- 定程度上弥补音频转写引入的语料错误对分类效
tention 机制. 果的影响;使用引入 Attention 机制的 BiGRU 提取
如表 5 所示为文本分类方法对比实验的精确 上下文语义特征,根据不同位置输入的重要程度
率与召回率结果. 可知,提出的混合神经网络分 对隐藏层输出进行有权重的加和. 混合分类模型
类模型与其他模型相比,精确率和召回率都有提 使用 Adam 算法进行参数优化,使用 Dropout 正则
升. 分析实验数据及实验结果可得,不同类别的 化方法避免过拟合. 通过对比实验证明,该方法
录音文本在高校信息网络中心业务场景下具有较 在录音文本分类问题上具有较好的表现效果.
强的相关性. 如校园卡和邮箱的查询、申请等功
能可以通过登录信息门户进行相关操作完成;一
参考文献 (References):
部分网络无法连接的原因是网络欠费,此时通话
内容可能会出现校园卡充值相关的内容,因此单 [1] GAO J, GALLEY M, LI L. Neural approaches to conversational
AI [J]. Foundations and Trends® in Information Retrieval,
独 使 用 CNN 的 效 果 劣 于 该 方 法 的 原 因 是 缺 少 上
2019, 13(2/3): 127–298.
下文语义信息. 引入 GRU 模型的分类效果比单纯
[2] ZHOU Y, LI C, HE S, et al. Pre-trained contextualized
的 CNN 好,比该方法差,因为高校信息网络中心
representation for Chinese conversation topic classification [C] //
的服务内容具有一定的专业性,专业术语、固定
IEEE International Conference on Intelligence and Security
搭配出现较频繁,此时对于局部特征的捕捉可以 Informatics. Shenzhen: IEEE, 2019: 122–127.
进一步提高分类方法表现效果. 本文为关键语句 [3] SUN B, TIAN F, LIANG L. Tibetan micro-blog sentiment
的 CNN 输 出 引 入 权 重 系 数 后 比 使 用 简 单 特 征 拼 analysis based on mixed deep learning [C] // International
接的方法分类效果好. 引入 Attention 机制的模型 Conference on Audio, Language and Image Processing.
会根据重要程度赋予隐藏层输出不同的权重,关 Shanghai: ICALIP, 2018: 109–112.

键词对于分类结果的影响进一步提高. [4] 龚媛. 基于自然语言处理的语音识别后文本处理 [D]. 北京: 北


京邮电大学, 2008.
表 5 文本分类方法的对比实验结果统计表
GONG Yuan. Text correction for ASR result on the platform of
Tab.5 Comparison experiment result statistics table of text
classification method intelligent mobile phone [D]. Beijing: Beijing University of Posts
and Telecommunications, 2008.
模型 P R
[5] 刘艺彬. 基于分词频的特征选择算法在文本分类中的研究 [D].
CNN 0.734 4 0.749 5 西安: 西安理工大学, 2018.
BiLSTM 0.873 2 0.762 3 LIU Yi-bin. Research on feature selection algorithm based on
segmented term frequency in text classification [D]. Xi’an: Xi’an
CNN+BiLSTM 0.900 1 0.873 8
University of Technology, 2018.
BiGRU-FCN 0.914 3 0.870 2
[6] EZZAT S, EL GAYAR N, GHANEM M M. Sentiment analysis of
Attention-based C-GRU 0.933 9 0.884 0
call centre audio conversations using text classification [J].
本文模型 0.953 2 0.905 0 International Journal of Computer Information Systems and
Industrial Management Applications, 2012, 4(1): 619–627.
[7] 宋鲜艳. 基于循环神经网络的口语语义理解研究 [D]. 武汉: 华
3 结 语 中科技大学, 2018.
SONG Xian-yan. A thesis submitted in partial fulfillment of the
为了充分提取录音数据及关联信息中的有效 requirements for the degree for the master of engineering [D].
信息并免去特征工程的繁杂,本文提出基于深度 Wuhan: Huazhong University of Science and Technology, 2018.
学习的文本分类方法. 该方法将录音转写后的文 [8] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed
张彦楠, 等:基于深度学习的录音文本分类方法 [J]. 浙江大学学报:工学版,
第 7期 2020, 54(7): 1264–1271. 1271

representations of words and phrases and their compositionality IEEE, 2019: 345–346.
[C] // Advances in Neural Information Processing Systems. [15] WANG B. Disconnected recurrent neural networks for text
Nevada: NIPS, 2013: 3111–3119. categorization [C] // Proceedings of the 56th Annual Meeting of
[9] MATTHEW E P, MARK N, MOHIT I, et al. Deep contextualized the Association for Computational Linguistics. Melbourne:
word representations [C] // Proceedings of the 2018 Conference ACL, 2018: 2311–2320.
of the North American Chapter of the Association for [16] 哈工大停用词表 [EB/OL]. [2019-12-18]. https://github.com/goto
Computational Linguistics: Human Language Technologies. 456/stopwords.
New Orleans: ACL, 2018: 2227–2237.
[17] 任勉, 甘刚. 基于双向 LSTM 模型的文本情感分类 [J]. 计算机
[10] KIM Y. Convolutional neural networks for sentence classification
工程与设计, 2018, 39(7): 2064–2068.
[C] // Proceedings of the 2014 Conference on Empirical
REN Mian, GAN Gang. Sentiment analysis of text based on bi-
Methods in Natural Language Processing. Stroudsburg: ACL,
directional long short-term memory model [J]. Computer
2014: 1746–1751.
Engineering and Design, 2018, 39(7): 2064–2068.
[11] LIU P, QIU X, HUANG X, et al. Recurrent neural network for text
[18] TANG D, QIN B, LIU T. Document modeling with gated
classification with multi-task learning [C] // Proceedings of the
recurrent neural network for sentiment classification [C] //
25th International Joint Conferences on Artificial Intelligence.
Proceedings of the 2015 Conference on Empirical Methods in
New York: AAAI Press, 2016: 2873–2879.
Natural Language Processing. Lisbon: ACL, 2015: 1422–1432.
[12] ATHIWARATKUN B, STOKES J W. Malware classification with
[19] 张国豪, 刘波. 采用 CNN 和 Bidirectional GRU 的时间序列分类
LSTM and GRU language models and a character-level CNN [C] //
研究 [J]. 计算机科学与探索, 2019, 13(6): 916–927.
2017 IEEE International Conference on Acoustics, Speech and
ZHANG Guo-hao, LIU Bo. Research on time series classification
Signal Processing. New Orleans: IEEE, 2017: 2482–2486.
[13] LIANG X, LIU Z, OUYANG C. A multi-sentiment classifier using CNN and bidirectional GRU [J]. Journal of Frontiers of

based on GRU and attention mechanism [C] // 2018 IEEE 9th Computer Science and Technology, 2019, 13(6): 916–927.

International Conference on Software Engineering and [20] 杨东, 王移芝. 基于 Attention-based C-GRU 神经网络的文本分

Service Science. Beijing: IEEE, 2018: 527–530. 类 [J]. 计算机与现代化, 2018, 34(2): 96–100.

[14] LYU L, HAN T. A comparative study of Chinese patent literature YANG Dong, WANG Yi-zhi. An Attention-based C-GRU neural
automatic classification based on deep learning [C] // 2019 network for text classification [J]. Computer and Modernization,
ACM/IEEE Joint Conference on Digital Libraries. Champaign: 2018, 34(2): 96–100.

(上接第 1263 页) 322–330.


[36] LEE W, LEE C Y, JEONG Y H, et al. Distributed component
[33] DE LUCA A, MATTONE R. Actuator failure detection and
friction model for precision control of a feed drive system [J].
isolation using generalized momenta [C] // 2003 IEEE
IEEE/ASME Transactions on Mechatronics, 2015, 20(4):
International Conference on Robotics and Automation. Taipei:
1966–1974.
IEEE, 2003: 634–639.
[37] 廖洪波, 范世珣, 黑墨, 等. 光电稳定平台伺服系统动力学建模
[34] PERSIS C D, ISIDORI A. A geometric approach to nonlinear fault
与参数辨识 [J]. 光学精密工程, 2015, 23(2): 477–484.
detection and isolation [J]. Transactions on Automatic Control,
2001, 46(6): 853–865. LIAO Hong-bo, FAN Shi-xun, HEI Mo, et al. Modeling and

[35] ZHANG H, AHMAD S, LIU G. Torque estimation for robotic parameter identification for electro-optical stabilized platform

joint with harmonic drive transmission based on position servo systems [J]. Optics and Precision Engineering, 2015,
measurements [J]. IEEE Transactions on Robotics, 2015, 31(2): 23(2): 477–484.

You might also like