基于深度学习的录音文本分类方法

第 54 卷第 7 期
浙江大学学报 (工学版) Vol.54 No.7

2020 年 7 月 Journal of Zhejiang University (Engineering Science) Jul. 2020
DOI: 10.3785/j.issn.1008-973X.2020.07.003
基于深度学习的录音文本分类方法
张彦楠 1，黄小红 1，马严 1，丛群 2
(1. 北京邮电大学信息网络中心，北京 100876；2. 北京网瑞达科技有限公司，北京 100876)
摘要：为了提高具有关联工单数据的录音文本的分类精确率，根据录音文本及关联数据的特点，设计基于深度
学习的录音文本分类方法. 针对录音文本，通过双向词嵌入语言模型（ELMo）获得录音文本及工单信息的向量化
表示，基于获取的词向量，利用卷积神经网络（ CNN）挖掘句子局部特征；使用 CNN 分别挖掘工单标题和工单的
描述信息，将 CNN 输出的特征进行加权拼接后，输入双向门限循环单元（GRU），捕捉句子上下文语义特征；引入
注意力机制，对 GRU 隐藏层的输出状态赋予不同的权重. 实验结果表明，与已有算法相比，该分类方法的收敛速
度快，具有更高的准确率.
关键词：词向量；卷积神经网络（CNN）；双向门限循环单元；注意力；文本分类
中图分类号： TP 391 文献标志码： A 文章编号： 1008−973X（2020）07−1264−08
Method with recording text classification based on deep learning

ZHANG Yan-nan1, HUANG Xiao-hong1, MA Yan1, CONG Qun2
(1. Information Network Center, Beijing University of Posts and Telecommunications, Beijing 100876, China;
2. Beijing Wrdtech Limited Company, Beijing 100876, China)
Abstract: A classification method based on deep learning was designed according to the characteristics of recording
text and correlation data in order to improve the classification precision of the recording text with associated work
order data. The embedding of the recording text and work order information was obtained through the bidirectional
word embedding language model (ELMo). Local features of the sentence were mined by using convolutional neural
networks (CNN) based on the word embedding. Title and description information of the work order were separately
mined by using CNN. Features extracted by CNN were concatenated with a weighting factor. Then weighted features
were entered into bidirectional gated recurrent unit (GRU) in order to capture the semantic features of the context.
The attention mechanism was introduced to assign different weights to the output state of the GRU hidden layer. The
experimental results show that the classification method has faster convergence rate and higher accuracy compared
with the existing algorithms.
Key words: word vector; convolutional neural networks (CNN); bidirectional gated recurrent unit; attention;
text classification
随着语音识别与人工智能技术的发展与进步 [1]，量稀疏，包含语音识别错误和口语化表达 [4]，且问

录音数据可以被转化为文本并进行信息提取. 对答型的对话上下文语境依赖性强. 简单的词频加
录音文本分类可以获取录音的主题信息，方便 [2]
权方法 [5] 提取的特征稀疏，缺失了语义级别特征
后续对不同类目有针对性地进行命名实体识别、的学习和抽象，文本特征表达能力很弱. 针对语
语义角色标注及情感分析 [3]
等自然语言处理任务. 音识别后的文本分类问题，Ezzat 等 [6] 研究不同特
录音对话的语音文本通常为短文本，特征向征选取方法和传统机器学习方法对呼叫中心录音
收稿日期：2019−07−30. 网址：www.zjujournals.com/eng/article/2020/1008-973X/202007003.shtml
基金项目：中央高校基本科研专项资金资助项目（2018RC53）；国家 CNGI 专项资助项目（CNGI-12-03-001）.
作者简介：张彦楠（1995—），女，硕士生，从事网络空间安全研究. orcid.org/0000-0003-2462-1760. E-mail：knightzyn@163.com
通信联系人：马严，男，教授. orcid.org/0000-0001-8065-591X. E-mail：mayan@bupt.edu.cn
张彦楠, 等：基于深度学习的录音文本分类方法 [J]. 浙江大学学报：工学版,
第 7期 2020, 54(7): 1264–1271. 1265
文本情感分类的效果，但均需要人工特征提取过程. 通过在高校信息网络中心呼叫中心录音文本数据
深度学习免去了人工特征提取耗费的成本 . [7]
上，使用多种分类模型进行对比实验，精确率和
自动特征提取首先需要将文本表示为计算机可以召回率评价指标证明了使用的混合模型在录音文
理解的形式. Mikolov 等 [8] 提出 2 种神经网络语言本分类问题上的有效性.
模型：连续词袋模型（continuous bag-of-words mod-
el，CBOW）和 Skip-Gram，但这 2 种模型无法对多 1 基于深度学习的录音文本分类方法
义词进行建模 . Matthew 等 [9]
提出的 ELMo 模型
使用长短期记忆网络（ long short-term memory，录音转文字的过程中会引入一些转化错误，
LSTM）根据上下文动态调整词向量，解决了多义词建且录音对话文本具有口语化表达、用语结构灵
模问题. 活、包含简称与缩写、特征稀疏、上下文依赖性强
针对深度学习文本分类问题， Kim [10] 提出将等特点. 在录音文本数据集上作初步统计，去除
卷积神经网络（ CNN）应用于文本分类任务，通话开始坐席人员的问候语后，90% 的文本首句
CNN 的卷积和池化操作善于捕捉局部特征. 针对与本次通话主题直接相关，且通常包含相应类别
包含自然语言处理的序列问题，循环神经网络中出现频率较高的关键词. 录音文本的关联工单
（recurrent neural network，RNN）具有短期记忆 [11]
，信息通常是录音内容的概括，包含录音的主题及
可以捕捉文本上下文特征. 对于 RNN 存在的梯度关键词信息. 针对录音文本数据的以上特点，提
消失和梯度爆炸问题， LSTM [12]
引入门控结构可出的分类方法通过 CNN 分别挖掘录音文本和工
以处理长序列数据，GRU [12]
是 LSTM 网络的一种单信息的局部特征，对局部特征进行有权重的拼
变体，结构简单且效果更好，Attention 机制根据单接，工单相关的信息与录音首句的特征权重较
词携带信息的重要程度赋予不同的权重进行特征高，其他语句的权重较低. 将拼接后的特征向量
提取，Liang 等 [13] 提出利用 GRU 对文档进行多标输入 GRU 神经网络进行上下文语义特征的提取，
签情感分类的 GRU+Attention 模型. Lyu 等 [14]
研究通过上述改进设计的混合神经网络模型对录音文
TextCNN、GRU、Attention 等深度学习算法以不同本进行分类，强调关键语句可以对录音转文本过
方式组合在中文专利文献分类问题上的表现效程中引入语料错误、录音文本特征稀疏、主题不
果 . Wang [15]
提出限制 RNN 信息流的距离以加强清晰等问题可能造成的分类错误进行一定程度的
局部信息提取能力的 DRNN 模型. 这些深度学习纠正，提高分类准确率.
模型根据自身特点，适用于不同场景. 提出的录音文本分类模型包含 6 个部分，各
本文根据录音文本的特点，提出应用于录音部分的逻辑关系如图 1 所示.
文本的分类方法. 分类模型首先将录音文本通过 1）输入层：录音文本、工单标题、工单描述经
ELMo 模型训练得到词向量，CNN 和 BiGRU 网络预处理后输入到模型中.
基于词向量分别在句子级别和文档级别捕捉局部 2）Embedding 层：使用 ELMo 双向语言模型将
特征和上下文特征. 本文方法与其他分类方法的
输出层分类结果
区别在于加入录音关联的工单信息同时作为文本
分类特征信息，依据增加的输入数据在分类模型 BiGRU+Attention 层
中添加 CNN 结构，同时引入权重系数对表征能力加权拼接
强的工单信息和录音文本首句的局部特征赋予较 CNN 层
录音文本工单信息
特征提取特征提取
高权重，通过多次模型训练比较分类效果，确定
权重系数. 增加的关联工单信息可以在一定程度录音文本工单信息
嵌入层 Embedding Embedding
上弥补语料错误对分类结果的影响. 混合分类模
型使用 Adam 算法，基于训练数据迭代地更新神
输入层录音文本工单信息
经网络权重进行参数优化；使用 Dropout 正则化
方法在隐藏层随机丢弃神经元避免过拟合，通过图1 录音文本分类模型示意图
以上方法使模型快速收敛并获得较高的准确率. Fig.1 Schematic diagram of classification model of recording text
1266 浙江大学学报（工学版）第 54 卷
输入层的文本转换为低维向量形式. 式中： (t1 , t2 , · · · , tN ) 表示输入一个含 N 个 token 的序

→− ←−
3）句子级别 CNN 层：多个 CNN 神经网络分列， ΘLSTM 和 ΘLSTM 分别为正、反向的 LSTM 网
别根据 Embedding 层的输出，对录音文本的句子络参数， Θx 和 Θs 为 2 个网络共享的映射层参数和
以及工单标题和工单描述进行局部特征提取. Softmax 层参数.
4）BiGRU 层：CNN 输出的局部特征加权拼接每个 token tk 在 L 层的双向语言模型表示 [9] 为
{ }
后，使用双向 GRU 神经网络进行上下文特征提取. LM → − LM ← −LM
Rk = k , h k, j , h k, j | j = 1, · · · , L =
x
5） Attention 层：对隐藏层提取的信息赋予权 { }
重，突出关键信息. k, j | j = 0, · · · , L .
hLM (2)
6）输出层：经 Attention-BiGRU 神经网络得到
k, j ( j = 1, · · · , L) 为
式中： xkLM 为 tk 的词向量； hLM
的特征向量通过 Softmax 分类器，得出最终的分
token 在第 j 层 LSTM 网络中任意位置 k 的表示，
类结果.
对于每个 token， L 层的双向 LSTM 模型共得到
1.1 输入层
2L + 1 个表征.
录音文本进入输入层之前，须进行预处理.
tk 的 EMLo 表示方式为
1）去掉互动式语音应答（ interactive voice re-
∑
L
sponse， IVR）提示文本以及通话文本开头坐席人 = E(Rk ; Θtask ) = γtask
EMLotask j hk, j .
stask LM
k (3)
员的问候语. j=0
2）使用中文分词组件 jieba，对录音文本进行
j 是 Softmax 的标准化权重，每层的输出向量与
stask
分词. jieba 提供了 3 种分词模式，其中精确模式试
权重向量相乘，通过 γtask 缩放系数调整 ELMo 向
图将句子最精确地切分，适用于文本分析. 量， ELMo 使用神经网络所有层输出值的线性组
3）使用哈尔滨工业大学停用词表 [16]，并补充合来表示词向量. 将工单标题、工单描述和录音
一部分通话音频中频繁出现的无意义词句，通过文本经 ELMo 模型训练，得到全部语料文本的
查表过滤和剔除停用词. Embedding，作为后续分类模型的输入.
1.2 嵌入层 1.3 句子级别 CNN
常用的词嵌入方法 Word2Vec 训练得到的是 CNN 是一种局部连接的深层前馈神经网络，
静态词向量，无法根据上下文语境发生变化. 静善于捕捉文本局部特征. 针对特征向量稀疏的录
态词向量无法解决一词多义的问题 . ELMo 通过音文本，可以有效提取关键词信息 . CNN 卷积核
深度双向 LSTM 语言模型动态更新词向量 [9] ，获权值共享和池化操作可以显著降低网络复杂度，
取所有层的内部表征 . 如图 2 所示为 ELMo 结构减少训练耗时. 卷积神经网路的隐含层分为卷积
图， E1， E2， · · ·， EN 为前一隐层输出的词向量， T1，层、池化层和全连接层 3 层. 卷积层通过卷积核移
T2， · · ·，TN 为经过一层双向 LSTM 后得到的词向量. 动并进行卷积操作提取局部特征；池化层对输入
双向模型的公式 [9]
如下：的特征进行采样拼接，形成高层特征向量；全连
∑
N
→− 接层将所有的局部特征结合，形成样本全局特征.
(log2 p(tk |t1 , ..., tk−1 ; Θx , ΘLSTM, Θs )+
本文模型中提取录音文本特征的 CNN 数量，
k=1
←
− 须满足大多数文本包含的句子数目小于等于该值.
log2 p(tk |tk+1 , ..., tN ; Θx , ΘLSTM, Θs )). (1)
若 CNN 数量远大于大部分文本包含的句子数，则
T1 T2 … TN 许多 CNN 输入的是无意义的空值；若 CNN 数量
远小于大部分文本包含的句子数，则许多文本的
LSTM LSTM … LSTM LSTM LSTM … LSTM 后半部分信息将被截断丢弃，导致一定程度的语
… …
义缺失 . 设定阈值为 α ， count (text) 为所有录音数
LSTM LSTM LSTM LSTM LSTM LSTM
据数目， N 为 C N N 的个数，count (textlength(t)⩽N )
E1 E2 … EN
为录音文本句子数≤N 的文本数目，则 N 满足
αcount (text) ⩽ count (textlength(t)⩽N ). (4)
图2 ELMo 模型结构图
Fig.2 ELMo model structure diagram 设定 α =0.8，计算得到 N =20，当录音文本的句
第 7期 2020, 54(7): 1264–1271. 1267
子数目小于 CNN 数目时，对录音文本作相应填后进行特征拼接时的权重， (1 − γ) 为给录音文本剩

充；当句子数目大于 CNN 的数目时，对文本作截余句子的特征赋予的权重. γ 是一个可调节参数，
断处理 . 每个 CNN 网络对句子进行局部特征提通过多次实验，根据分类模型输出及评估标准最
取 . 为了提高模型的泛化性能，加入 Dropout 层 . 终确定取值. 如图 4 所示为对 CNN 提取后的特征
Dropout 在前向传播和反向传播训练模型的过程进行加权拼接的示意图.
中，在神经网络的隐藏层中以一定概率随机丢弃 1.4 BiGRU
部分神经元，相当于给数据增加噪声，避免在训 RNN 在处理包括录音文本在内的序列数据
练数据量不够多时出现过拟合现象. 如图 3 所示时可以体现长距离依赖信息，RNN 层与层之间的
为句子级别 CNN 模型结构图 . 图中， wiln 为第 n 句神经元间建立了连接，当前时刻的状态可以影响
子中的第 i 个单词， ln 为第 n 个句子的长度. 下一时刻的状态，因此可以捕捉到数据的前后相
通常产生录音数据的场景具有类似通话记录关性. GRU 在 RNN 的基础上设计了门控结构，让

和工单等相关联的其他文本信息. 这些文本可以信息选择性地在隐藏层传递，记忆重要信息的同
给录音文本的分类提供关键词信息，在分类模型时解决长序列训练过程中出现的梯度消失和梯度
中加入对关联文本信息的特征提取，可以提高分爆炸问题 . GRU 有重置门和更新门 2 个门控结
类模型的准确率. 本文实验选取高校信息网络中构，参数少且收敛速度快 . GRU 中状态之间的传
心的呼叫中心录音数据及关联工单的部分信息作输是从前向后的单向传播过程，只能利用当前输
为关联信息输入： 1）工单标题是该通话内容主入和之前的上下文信息；BiGRU 既能够获得从前
题；2）工单的问题描述通常包含分类关键词；3）工向后的依赖信息，也可以获得反向的依赖信息，
单所属分类作为样本的类别. 提取到的特征信息更丰富. 如图 5 所示为 GRU 结
工单标题 Embedding 作为 CNN1 的输入，工单构图 . 图中， σ 为 Sigmoid 函数，将权重设置为
描述 Embedding 作为 CNN2 的输入，录音文本每 0~1.0，tanh 激活函数将数据映射到−1.0~1.0.
个句子的 Embedding 依次作为 CNN3， CNN4， · · · ， GRU 神经网络的神经元更新方式如下.
CNN22 的输入 . 由于工单标题、描述和录音文本 zt = σ (Wz [ht−1 , xt ]), (6)
首句对分类任务的贡献较大， CNN1、 CNN2 和 rt = σ (Wr [ht−1 , xt ]), (7)
CNN3 输出的特征进行拼接时给予较高的权重，
h = tanh (W[rt ⊙ ht−1 , xt ]), (8)
其余句子特征赋予相同的权重.
xGRU =γ(yCNN1 + yCNN2 + yCNN3 )+ GRU
(1 − γ)(yCNN4 + · · · + yCNN22 ). (5)
+
γ
式中： xGRU 为 BiGRU 网络的输入， γ 为工单标题及 γ γ 1−γ 1−γ
… CNN22
工单描述和录音文本首句经 CNN 网络特征提取 CNN1 CNN2 CNN3 CNN4
录音文本录音文本录音文本

工单标题工单描述
首句第2句 … 第20句
Embedding Embedding
Dense Dense Dense Embedding Embedding Embedding
Max pooling Max pooling Max pooling

图4 CNN 特征加权拼接示意图
Dropout Dropout Dropout Fig.4 CNN feature weighted concatenate schematic diagram
Conv1 D Conv1 D Conv1 D
Embedding Embedding Embedding ht−1 ht

× +
Input Input Input
×
1− ×
rt zt h
… … … σ σ
… tanh
1 1 1 2 2 2 n n
w 1 w2 w
l1 w1 w2 wl2 w1 w2 wn
ln xt
图3 句子级别 CNN 模型结构图图5 GRU 结构图

Fig.3 Sentence level CNN model structure Fig.5 GRU structure diagram
ht = (1 − zt ) ⊙ h t−1 + zt ⊙ h. (9) 决定的注意力概率分布值， wi 和 Wi 为第 i 时刻不同
式中： wr、 wz、 w 为权重短阵，根据神经网络的训阶段的权重系数矩阵， bi 为第 i 时刻相应的偏移
练过程更新取值；h 为当前时刻的候选隐藏状态；量， αi j 为 hi 的权重， ci 为输入对应的语义编码.

1.6 输出层
⊙表示元素相乘.
BiGRU 网络的输出经过以 Softmax 作为激活
通过上一个神经元的输出 ht−1 和当前节点的
函数的全连接层完成维度变换，将高维的语义特
输入 xt ，获取 2 个门控状态. rt 控制重置的门控，用
征变换为低维的模型定义的类别数目，完成分类
于控制前一时刻隐层单元 ht−1对当前词 xt 的影响，
zt 控制更新的门控，当前词 xt 要保留的信息越多 zt 结果的输出.
越大，对上一个神经元保留的信息越少. Softmax 用于多分类场景下预测每个类出现
1.5 Attention 机制的概率，选择具有最高概率的类别作为最后的分
Attention 机制借助人脑处理过载信息时的注类结果输出. Softmax 公式为
意力机制，使得神经网络处理大量输入信息时聚 ez j
s(Z) j = ∑K zk
. (13)
焦于关键信息. 针对录音文本，Attention 机制通过 k=1 e
对隐藏层的输出赋予不同的权重，可以增强关键
式中： j ∈ {1, · · · , K}.
词信息对分类结果的影响，同时避免通过使用全
卷积神经网络的时间复杂度为
连接网络或增加神经网络深度的方法来提高模型  D 
∑ 
捕捉长距离上下文依赖信息的能力，缓解模型复 Time ∼ O  Ml Kl Cl−1Cl  .
2 2
(14)
杂度与表达能力之间的矛盾 . Attention 机制使得 l=1
模型更加关注于重要的局部信息，提高神经网络式中： D 为神经网络具有的卷积层数； K 为卷积核

处理信息的能力使得模型作出更加准确的判断. 边长； M 为特征图的边长；l 为网络的第l 个卷积
引入 Attention 机制的模型结构如图 6 所示. 层； Cl−1 为第 l − 1层的输出通道数， Cl 为第 l 层的输
Attention 机制的计算公式 [13] 如下. 出通道数，输出通道数即为该层卷积核个数. K 、
ei = wi tanh (Wi hi + bi ), (10)
M 、Cl−1 、Cl 均与超参数有关，仅 D 的取值与模型
exp ei j 结构有关，本文分类模型的卷积神经网络部分只
αi j = , (11)
∑
Tx
包含一层卷积层，此后经过一层 GRU 网络 .
exp eik
k=1
CNN 与 GRU 按顺序依次处理，因此整个模型的
∑
Tx 时间复杂度为 CNN 和 GRU 复杂度之和，与单独
ci = αi j hi . (12)
的 CNN 模型或 GRU 模型相比，复杂度的数量级
j=1
没有增加.
式中：i 表示时刻，j 表示序列中的第 j 个元素，
T x 为序列的长度， ei 为第 i 时刻隐层状态向量 hi 所
2 实验结果与分析
… v …
2.1 实验数据
+ Attention 本文的实验数据来源为某高校信息网络中
α1 α2 α3 αT 心 2017.6.1 到 2019.10.31 的通话录音、通话记录及
报修工单. 剔除没有转接到人工坐席的无效录
…
h1 h2 h3 hT 音、时长过短不包含所需业务信息的录音，根据
BiGRU
…
工单标签信息，选取来电次数最多的 6 类业务的
h1 h2 h3 hT
相关数据作为实验数据集. 这 6 类业务分别为网
络故障报修、校园卡业务咨询、信息门户咨询、邮
x1 x2 x3 xT 输入
箱业务咨询、云盘业务咨询和正版软件使用，共
图6 Attention 模型结构图 68 208 条音频及对应工单，实验数据集的分布情
Fig.6 Attention model structure diagram 况如表 1 所示.
第 7期 2020, 54(7): 1264–1271. 1269
表 1 录音文本分类方法实验数据分布表表示样本的真实情况，每一列表示模型预测的样
Tab.1 Experimental data distribution table of recording text
本情况.
classification method
评价指标采用精确率和召回率. 精确率为
类别训练集数验证集数
TP
P= . (15)
网络故障报修 14 138 1 414 TP + FP
校园卡业务咨询 12 092 1 209 召回率为
信息门户咨询 10 578 1 058 TP
R= . (16)
邮箱业务咨询 9 130 913 TP + FN
云盘业务咨询 8 259 826 精确率衡量被分类模型划分到某个类别中的

正版软件使用 7 810 781 文本中真实类别属于该类的比例，精确率越高说
明分类器分类越准确. 召回率衡量实际属于某个
2.2 模型超参数及优化算法
类别的所有文本中被正确划分到该类别的比例，
该实验主要针对 ELMo 进行词向量训练时的
召回率越高，说明分类器在该类上漏掉的文本越少.
维度、 CNN 卷积核尺寸、 CNN 卷积核数目、模型
如表 4 所示为精确率、召回率与权重系数的
迭代轮次 Epoch、一次训练选取的样本数 Batch
关系. 实验结果表明，当 γ 取为 0.7 时，分类效果最
Size 和 Dropout 随机失活率，在一定取值范围内对
好，精确率可达 95.32%，召回率可达 90.50%. 当 γ
模型进行训练和结果比较. 如表 2 所示为本文设
取为 0.6 和 0.8时，精确率和召回率都有一定程度
计的录音分类模型参数实验范围以及权衡模型训
的降低；当 γ 取为 0.9 时，分类效果最差. 由此验证
练耗时与分类表现效果的最终取值.
了引入 γ 对录音文本分类的有效性，表明过分关
该实验使用 Adam 优化算法更新模型参数，
注关键语句的局部特征不能取得最好的表现效
随机梯度下降算法（ stochastic gradient descent，
果，上下文语义特征在分类任务中具有不可忽视
SGD）以单一的学习率更新所有的权重，学习过程
的贡献.
比较缓慢，且初始学习率选择不恰当时会出现严
2.4 对比实验
重振荡. Adam 通过计算梯度的一阶矩估计和二阶
将提出的文本分类模型与以下分类模型在相
矩估计，为不同的参数设计独立的自适应性学习
同的录音文本数据上完成分类任务，将精确率和
率，解决了稀疏梯度和噪声问题，且超参数具有
召回率作为评价指标，验证该模型的有效性. 在
很好的解释性，实现简单，计算高效.
对比实验中，文本模型的 γ 取 0.7.
2.3 权重系数确定与实验结果
1）Kim[10] 提出的采用 CNN 进行文本分类.
由于工单的标题、描述和录音文本首句对录
音内容的表征能力最强， γ 从 0.5 开始取值， γ 的取表 3 混淆矩阵
值为 0.5 ⩽ γ < 1，在该范围内以 0.1 的步长增大 γ . Tab.3 Confusion matrix
在机器学习领域内，可以使用混淆矩阵评价真实类别模型预测为正类模型预测为负类

分类模型的表现效果，如表 3 所示. 矩阵的每一行正类 TP FN
表 2 录音文本分类模型神经网络参数取值表负类 FP TN
Tab.2 Neural network parameter value table of recorded text
classification model 表 4 精确率、召回率与权重系数的关系
模型参数参数取值参数实验值 Tab.4 Precision，recall and weighting factor table
词向量维度 200 100，200，300 γ P R
CNN卷积核尺寸 3 3，4，5 0.5 0.909 7 0.840 2
CNN卷积核数量 128 64，128，256 0.6 0.933 8 0.873 5
Epoch 25 10，15，20，25，30 0.7 0.953 2 0.905 0
Batch Size 128 64，128，256 0.8 0.921 5 0.852 6
随机失活率 0.5 0.4，0.5，0.6 0.9 0.893 2 0.822 0

2）任勉等 [17] 提出的 BiLSTM 文本情感分类模型. 本通过 ELMo 模型进行预训练得到动态词向量，

3）Tang 等 [18]
提出的句子级别 CNN 和文档级基于词向量使用 CNN 在录音文本的句子级别提
别 BiLSTM 混合模型. 取局部特征. 为了提高分类准确率，将录音文本
4）张国豪等 [19]
提出的采用 CNN 和 BiGRU 的关联的工单信息经 CNN 进行特征提取，将
时间序列分类模型 BiGRU-FCN. CNN 提取后的特征根据对分类任务的贡献程度
5）杨东等 [20]
提出的 Attention-based C-GRU 文不同进行有权重的拼接，关联附属信息能够在一
本分类模型，该模型结合 CNN 与 GRU 并引入 At- 定程度上弥补音频转写引入的语料错误对分类效
tention 机制. 果的影响；使用引入 Attention 机制的 BiGRU 提取
如表 5 所示为文本分类方法对比实验的精确上下文语义特征，根据不同位置输入的重要程度
率与召回率结果. 可知，提出的混合神经网络分对隐藏层输出进行有权重的加和. 混合分类模型
类模型与其他模型相比，精确率和召回率都有提使用 Adam 算法进行参数优化，使用 Dropout 正则
升. 分析实验数据及实验结果可得，不同类别的化方法避免过拟合. 通过对比实验证明，该方法
录音文本在高校信息网络中心业务场景下具有较在录音文本分类问题上具有较好的表现效果.
强的相关性. 如校园卡和邮箱的查询、申请等功
能可以通过登录信息门户进行相关操作完成；一
参考文献 (References):
部分网络无法连接的原因是网络欠费，此时通话
内容可能会出现校园卡充值相关的内容，因此单 [1] GAO J, GALLEY M, LI L. Neural approaches to conversational
AI [J]. Foundations and Trends® in Information Retrieval,
独使用 CNN 的效果劣于该方法的原因是缺少上
2019, 13(2/3): 127–298.
下文语义信息. 引入 GRU 模型的分类效果比单纯
[2] ZHOU Y, LI C, HE S, et al. Pre-trained contextualized
的 CNN 好，比该方法差，因为高校信息网络中心
representation for Chinese conversation topic classification [C] //
的服务内容具有一定的专业性，专业术语、固定
IEEE International Conference on Intelligence and Security
搭配出现较频繁，此时对于局部特征的捕捉可以 Informatics. Shenzhen: IEEE, 2019: 122–127.
进一步提高分类方法表现效果. 本文为关键语句 [3] SUN B, TIAN F, LIANG L. Tibetan micro-blog sentiment
的 CNN 输出引入权重系数后比使用简单特征拼 analysis based on mixed deep learning [C] // International
接的方法分类效果好. 引入 Attention 机制的模型 Conference on Audio, Language and Image Processing.
会根据重要程度赋予隐藏层输出不同的权重，关 Shanghai: ICALIP, 2018: 109–112.
键词对于分类结果的影响进一步提高. [4] 龚媛. 基于自然语言处理的语音识别后文本处理 [D]. 北京: 北

京邮电大学, 2008.
表 5 文本分类方法的对比实验结果统计表
GONG Yuan. Text correction for ASR result on the platform of
Tab.5 Comparison experiment result statistics table of text
classification method intelligent mobile phone [D]. Beijing: Beijing University of Posts
and Telecommunications, 2008.
模型 P R
[5] 刘艺彬. 基于分词频的特征选择算法在文本分类中的研究 [D].
CNN 0.734 4 0.749 5 西安: 西安理工大学, 2018.
BiLSTM 0.873 2 0.762 3 LIU Yi-bin. Research on feature selection algorithm based on
segmented term frequency in text classification [D]. Xi’an: Xi’an
CNN+BiLSTM 0.900 1 0.873 8
University of Technology, 2018.
BiGRU-FCN 0.914 3 0.870 2
[6] EZZAT S, EL GAYAR N, GHANEM M M. Sentiment analysis of
Attention-based C-GRU 0.933 9 0.884 0
call centre audio conversations using text classification [J].
本文模型 0.953 2 0.905 0 International Journal of Computer Information Systems and
Industrial Management Applications, 2012, 4(1): 619–627.
[7] 宋鲜艳. 基于循环神经网络的口语语义理解研究 [D]. 武汉: 华
3 结语中科技大学, 2018.
SONG Xian-yan. A thesis submitted in partial fulfillment of the
为了充分提取录音数据及关联信息中的有效 requirements for the degree for the master of engineering [D].
信息并免去特征工程的繁杂，本文提出基于深度 Wuhan: Huazhong University of Science and Technology, 2018.
学习的文本分类方法. 该方法将录音转写后的文 [8] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed
第 7期 2020, 54(7): 1264–1271. 1271
representations of words and phrases and their compositionality IEEE, 2019: 345–346.
[C] // Advances in Neural Information Processing Systems. [15] WANG B. Disconnected recurrent neural networks for text
Nevada: NIPS, 2013: 3111–3119. categorization [C] // Proceedings of the 56th Annual Meeting of
[9] MATTHEW E P, MARK N, MOHIT I, et al. Deep contextualized the Association for Computational Linguistics. Melbourne:
word representations [C] // Proceedings of the 2018 Conference ACL, 2018: 2311–2320.
of the North American Chapter of the Association for [16] 哈工大停用词表 [EB/OL]. [2019-12-18]. https://github.com/goto
Computational Linguistics: Human Language Technologies. 456/stopwords.
New Orleans: ACL, 2018: 2227–2237.
[17] 任勉, 甘刚. 基于双向 LSTM 模型的文本情感分类 [J]. 计算机
[10] KIM Y. Convolutional neural networks for sentence classification
工程与设计, 2018, 39(7): 2064–2068.
[C] // Proceedings of the 2014 Conference on Empirical
REN Mian, GAN Gang. Sentiment analysis of text based on bi-
Methods in Natural Language Processing. Stroudsburg: ACL,
directional long short-term memory model [J]. Computer
2014: 1746–1751.
Engineering and Design, 2018, 39(7): 2064–2068.
[11] LIU P, QIU X, HUANG X, et al. Recurrent neural network for text
[18] TANG D, QIN B, LIU T. Document modeling with gated
classification with multi-task learning [C] // Proceedings of the
recurrent neural network for sentiment classification [C] //
25th International Joint Conferences on Artificial Intelligence.
Proceedings of the 2015 Conference on Empirical Methods in
New York: AAAI Press, 2016: 2873–2879.
Natural Language Processing. Lisbon: ACL, 2015: 1422–1432.
[12] ATHIWARATKUN B, STOKES J W. Malware classification with
[19] 张国豪, 刘波. 采用 CNN 和 Bidirectional GRU 的时间序列分类
LSTM and GRU language models and a character-level CNN [C] //
研究 [J]. 计算机科学与探索, 2019, 13(6): 916–927.
2017 IEEE International Conference on Acoustics, Speech and
ZHANG Guo-hao, LIU Bo. Research on time series classification
Signal Processing. New Orleans: IEEE, 2017: 2482–2486.
[13] LIANG X, LIU Z, OUYANG C. A multi-sentiment classifier using CNN and bidirectional GRU [J]. Journal of Frontiers of
based on GRU and attention mechanism [C] // 2018 IEEE 9th Computer Science and Technology, 2019, 13(6): 916–927.
International Conference on Software Engineering and [20] 杨东, 王移芝. 基于 Attention-based C-GRU 神经网络的文本分
Service Science. Beijing: IEEE, 2018: 527–530. 类 [J]. 计算机与现代化, 2018, 34(2): 96–100.
[14] LYU L, HAN T. A comparative study of Chinese patent literature YANG Dong, WANG Yi-zhi. An Attention-based C-GRU neural
automatic classification based on deep learning [C] // 2019 network for text classification [J]. Computer and Modernization,
ACM/IEEE Joint Conference on Digital Libraries. Champaign: 2018, 34(2): 96–100.
(上接第 1263 页) 322–330.

[36] LEE W, LEE C Y, JEONG Y H, et al. Distributed component
[33] DE LUCA A, MATTONE R. Actuator failure detection and
friction model for precision control of a feed drive system [J].
isolation using generalized momenta [C] // 2003 IEEE
IEEE/ASME Transactions on Mechatronics, 2015, 20(4):
International Conference on Robotics and Automation. Taipei:
1966–1974.
IEEE, 2003: 634–639.
[37] 廖洪波, 范世珣, 黑墨, 等. 光电稳定平台伺服系统动力学建模
[34] PERSIS C D, ISIDORI A. A geometric approach to nonlinear fault
与参数辨识 [J]. 光学精密工程, 2015, 23(2): 477–484.
detection and isolation [J]. Transactions on Automatic Control,
2001, 46(6): 853–865. LIAO Hong-bo, FAN Shi-xun, HEI Mo, et al. Modeling and
[35] ZHANG H, AHMAD S, LIU G. Torque estimation for robotic parameter identification for electro-optical stabilized platform
joint with harmonic drive transmission based on position servo systems [J]. Optics and Precision Engineering, 2015,
measurements [J]. IEEE Transactions on Robotics, 2015, 31(2): 23(2): 477–484.

基于深度学习的录音文本分类方法

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于深度学习的录音文本分类方法

Uploaded by

Copyright:

Available Formats

第 54 卷第 7 期

浙 江 大 学 学 报 (工学版) Vol.54 No.7

Method with recording text classification based on deep learning

随着语音识别与人工智能技术的发展与进步 [1]， 量稀疏，包含语音识别错误和口语化表达 [4]，且问

输入层的文本转换为低维向量形式. 式中： (t1 , t2 , · · · , tN ) 表示输入一个含 N 个 token 的序

子 数 目 小 于 CNN 数 目 时 ， 对 录 音 文 本 作 相 应 填 后进行特征拼接时的权重， (1 − γ) 为给录音文本剩

子中的第 i 个单词， ln 为第 n 个句子的长度. 下一时刻的状态，因此可以捕捉到数据的前后相

通常产生录音数据的场景具有类似通话记录 关性. GRU 在 RNN 的基础上设计了门控结构，让

录音文本 录音文本 录音文本

Max pooling Max pooling Max pooling

Embedding Embedding Embedding ht−1 ht

图3 句子级别 CNN 模型结构图 图5 GRU 结构图

ht = (1 − zt ) ⊙ h t−1 + zt ⊙ h. (9) 决定的注意力概率分布值， wi 和 Wi 为第 i 时刻不同

练过程更新取值；h 为当前时刻的候选隐藏状态； 量， αi j 为 hi 的权重， ci 为输入对应的语义编码.

模型更加关注于重要的局部信息，提高神经网络 式中： D 为神经网络具有的卷积层数； K 为卷积核

云盘业务咨询 8 259 826 精确率衡量被分类模型划分到某个类别中的

在机器学习领域内，可以使用混淆矩阵评价 真实类别 模型预测为正类 模型预测为负类

模型参数 参数取值 参数实验值 Tab.4 Precision，recall and weighting factor table

词向量维度 200 100，200，300 γ P R

CNN卷积核尺寸 3 3，4，5 0.5 0.909 7 0.840 2

CNN卷积核数量 128 64，128，256 0.6 0.933 8 0.873 5

Epoch 25 10，15，20，25，30 0.7 0.953 2 0.905 0

Batch Size 128 64，128，256 0.8 0.921 5 0.852 6

随机失活率 0.5 0.4，0.5，0.6 0.9 0.893 2 0.822 0

2）任勉等 [17] 提出的 BiLSTM 文本情感分类模型. 本 通 过 ELMo 模 型 进 行 预 训 练 得 到 动 态 词 向 量 ，

键词对于分类结果的影响进一步提高. [4] 龚媛. 基于自然语言处理的语音识别后文本处理 [D]. 北京: 北

(上接第 1263 页) 322–330.

You might also like

浙江大学学报 (工学版) Vol.54 No.7

随着语音识别与人工智能技术的发展与进步 [1]，量稀疏，包含语音识别错误和口语化表达 [4]，且问

子数目小于 CNN 数目时，对录音文本作相应填后进行特征拼接时的权重， (1 − γ) 为给录音文本剩

通常产生录音数据的场景具有类似通话记录关性. GRU 在 RNN 的基础上设计了门控结构，让

录音文本录音文本录音文本

图3 句子级别 CNN 模型结构图图5 GRU 结构图

练过程更新取值；h 为当前时刻的候选隐藏状态；量， αi j 为 hi 的权重， ci 为输入对应的语义编码.

模型更加关注于重要的局部信息，提高神经网络式中： D 为神经网络具有的卷积层数； K 为卷积核

在机器学习领域内，可以使用混淆矩阵评价真实类别模型预测为正类模型预测为负类

模型参数参数取值参数实验值 Tab.4 Precision，recall and weighting factor table

2）任勉等 [17] 提出的 BiLSTM 文本情感分类模型. 本通过 ELMo 模型进行预训练得到动态词向量，