基于特征选择和集成分类的EEG抑郁症识别研究张露

学校代码：10730
分类号：O213 密级：公开
论文题目（中文）基于特征选择和集成分类的 EEG
抑郁症识别研究
论文题目（外文） Research on EEG Depression Identification
Based on Feature Selection and
Ensemble Classification
作者姓名张露
类型领域应用统计
研究方向统计机器学习
教育类型学历教育
指导教师焦桂梅副教授
合作导师
论文工作时段 2021 年 3 月至 2022 年 4 月
论文答辩日期 2022 年 5 月
校址：甘肃省兰州市城关区天水南路 222 号
学 院：
数学与统计学院 学 号：
２２０１９０９２９４４０


学生姓名：
张露 导师姓名：焦桂梅




—
：：：：；
！？
原创性声明


本人郑重声明：
本人所呈交的学位论文，是在导师的指导下独立进行研宄所


取得的成果。学位论文中凡引用他人己经发表或未发表的成果、数据、观点等 

，
均己明确注明出处。除文中己经注明引用的内容外，
不包含任何其他个人或集体


己经发表或撰写过的科研成果。对本文的研宄成果做出重要贡献的个人和集体 

，
均已在文中以明确方式标明。
 

．
本声明的法律责任由本人承担 

。
论文作者签名：
沐日期：


丨
关于学位论文使用授权的声明


本人在导师指导下所完成的论文及相关的职务作品，知识产权归属兰州大


学。
本人完全了解兰州大学有关保存、使用学位论文的规定，
同意学校保存或向


国家有关部门或机构送交论文的纸质版和电子版，
允许论文被查阅和借阅；
本人


授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，


可
以采用任何复制手段保存和汇编本学位论文。本人离校后发表、
使用学位论文或


与该论文直接相关的学术论文或成果时，
第
一
署名单位仍然为兰州大学 

。
本学位论文研究内容 

：
以公开


□ 不宜公开，已在学位办公室办理保密申请，
解密后适用本授权书 

。
请在以上选项内选择其中
“ ”
项打
一
（  Ｖ 

）
论文作者签名： 认导
师
签名 

：
日
 期
：
Ｉ
 日
 期
：
２
０
２
２．  Ｌ



）
基于特征选择和集成分类的 EEG 抑郁症识别研究
中文摘要
进入 21 世纪以来，随着社会经济的高速发展，人们的生活和工作压力逐渐增
大，从而使得焦虑症、精神分裂症、癫痫等精神类疾病的发生率大大增加。抑郁症
作为其中的一种，给患者以及家属的生活造成了严重的影响，所以急需针对该病寻
找高效的诊断和治疗方法。目前医生的诊断方法大多是让患者做量表，并同时询问
一些病人的情况，以此来对病人的状况做出大致的判断，然后再结合 ICD-10 抑郁
症的诊断标准给出比较准确的结果。该方法严重依赖于医生的专业水平，具有主观
性，没有通过具体的生理指标值和医学图像来量化抑郁。而脑电作为一种电生理技
术已经被广泛的应用在心理疾病的诊断中，以协助医生的临床诊断。
本文使用兰州大学 UAIS 实验室 2020 年公开的一批重度抑郁障碍患者的 128
导脑电数据，来对抑郁病人和正常人做一个二分类。首先对含有杂质的原始脑电信
号进行预处理，除掉其中包含的杂质，以此来得到纯净的脑电信号。同时为了减小
实验的复杂度，我们仅选取纯净的脑电信号中与抑郁联系比较紧密的前额 7 导，来
进行后续的分析。然后分别抽取每导包括线性特征和非线性特征在内的 11 个特征，
得到了由 77 个特征组成的特征矩阵。接下来对该特征矩阵使用三种特征选择方法，
即 K-S 检验，基于随机森林的特征选择和基于遗传算法的特征选择，来进行初步
的特征选择，并通过特征投票选出最终的特征。由于最终的特征矩阵中两个类别的
样本量不一样，于是又使用 SMOTE 过采样技术对该特征矩阵进行重采样，使得两
个类别的样本数量相等。最后将过采样后的特征矩阵输入到 KNN，SVM，CART
决策树分类器以及基于 Soft Voting 的集成分类器中进行分类。通过分析实验结
果可知，基于 Soft Voting 的集成分类器的效果要明显好于三种单一分类器，且
accuracy，recall，f1，g-mean 值分别为 0.8216，0.8247，0.8258，0.8261。
关键词：EEG，特征选择，抑郁症，集成模型，综合少数过采样技术
I
RESEARCH ON EEG DEPRESSION IDENTIFICATION
BASED ON FEATURE SELECTION AND
ENSEMBLE CLASSIFICATION
Abstract
Since the 21st century, with the rapid development of social economy, people’s
life and work pressure has gradually increased, thus greatly increasing the incidence
of anxiety, schizophrenia, epilepsy and other mental diseases. Depression, as one
of them, has had a serious impact on the lives of patients and their families, so we
urgently need to find efficient diagnosis and treatment for the disease. At present,
most diagnostic methods for depression are to ask patients to make scales and ask
some patients at the same time, so as to make a general judgment of the patient’s
condition, and then give more accurate results based with the diagnostic criteria of
ICD-10 depression. The method relies heavily on the professional level of expertise,
is subjective and does not quantify depression by specific physiological index values
and medical images. And EEG as an electrophysiological technology has been widely
used in the diagnosis of psychological diseases, to assist in the clinical diagnosis of
doctors.
In this thesis, we use 128 EEG data from a group of patients with major depres-
sive disorder published by the UAIS laboratory in 2020 to make a diccategorization
of depressed patients and normal people. First, we preprocessed the original EEG
signals containing the impurities and removed the contained impurities to obtain
the pure EEG. At the same time, in order to reduce the complexity of the experi-
ment, we only selected the pure EEG signal, the forehead 7, which is closely related
to depression, for the subsequent analysis. Then we extracted 11 features for each
II
guide including linear and nonlinear features separately, yielding a feature matrix
consisting of 77 features. Next, three feature selection methods for this feature ma-
trix, namely K-S test, feature selection based on random forest and feature selection
based on genetic algorithm, are used to perform preliminary feature selection, and
select the final features by feature voting. Since the sample sizes of the two cate-
gories in the final feature matrix are different, we also resampled the feature matrix
using the SMOTE oversampling technology, so that the number of samples of the
two classes is equal. Finally, we input the oversampled feature matrix into KNN,
SVM, CART decision tree classifier as well as the Soft Voting-based integrated clas-
sifier for classification. According to the experimental results, the Soft Voting-based
integrated classifier is significantly better than the single classifier, and the accuracy,
recall, f1, and g-mean values are 0.8216, 0.8247, 0.8258, 0.8261, respectively.
Keywords: EEG, feature selection, Depression, Feature selection, Synthetic

Minority Oversampling Technique(SMOTE)
III
目录
中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II
第一章绪论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 研究背景和意义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 国内外研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 机器学习在脑电抑郁识别上的应用 . . . . . . . . . . . . . . . . 2
1.2.2 深度学习在脑电抑郁识别上的应用 . . . . . . . . . . . . . . . . 3
1.3 章节安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
第二章脑电抑郁症检测理论基础 . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 脑电信号的产生 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 脑电信号与抑郁障碍 . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
第三章脑电的预处理及特征提取 . . . . . . . . . . . . . . . . . . . . . . . 7
3.1 数据来源 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 脑电数据处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.2 脑电特征提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2.3 特征融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.4 特征归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
第四章特征选择方法在 EEG 脑电信号分类中的应用 . . . . . . . . . . . 13
4.1 两样本的 K-S 检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 基于随机森林的特征选择 . . . . . . . . . . . . . . . . . . . . . . . . 15
IV
4.3 基于遗传算法的特征选择 . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3.1 遗传算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3.2 基于遗传算法的特征选择 . . . . . . . . . . . . . . . . . . . . . 18
4.4 特征投票 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.5 基于 SMOTE 算法的样本平衡 . . . . . . . . . . . . . . . . . . . . . 20
4.6 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
第五章基于集成算法的分类器 . . . . . . . . . . . . . . . . . . . . . . . . 22
5.1 KNN 分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 SVM 分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.3 CART 决策树分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.4 基于 Soft Voting 的集成分类算法 . . . . . . . . . . . . . . . . . . . 27
5.4.1 Soft Voting 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4.2 集成分类器的设计 . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.5 模型评价指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.6 实验结果及讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.7 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
第六章总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1 本文总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 未来展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
致谢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
兰州大学硕士学位论文基于特征选择和集成分类的 EEG 抑郁症识别研究
插图目录
2-1 脑电图的五个频率段 . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4-1 累积特征分类准确率曲线 . . . . . . . . . . . . . . . . . . . . . . . . 17
4-2 遗传算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5-1 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5-2 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5-3 SMOTE 采样前各分类器的分类结果对比 . . . . . . . . . . . . . . . 32
5-4 SMOTE 采样后各分类器的分类结果对比 . . . . . . . . . . . . . . . 32

5-5 SMOTE 采样前后集成分类器的分类结果对比 . . . . . . . . . . . . . 33
VI
表格目录
4-1 K-S 检验的结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4-2 三种特征选择方法选择的特征 . . . . . . . . . . . . . . . . . . . . . . 20
5-1 SMOTE 采样前四种分类方法的衡量指标结果 . . . . . . . . . . . . . 31

5-2 SMOTE 采样后四种分类方法的衡量指标结果 . . . . . . . . . . . . . 31
5-3 SMOTE 采样前后集成分类器的分类结果对比 . . . . . . . . . . . . . 33
VII
第一章绪论
1.1 研究背景和意义
进入 21 世纪，焦虑症、精神分裂症、癫痫等精神类疾病的发生率大大的增加，
从而给大到国家层面小到每个家庭都带来了一定程度的影响，所以现在迫切需要针
对这些疾病提出高效的检测方法和治疗方案，从而减小这些影响。抑郁症作为此类
疾病中的一种，在人群中有着比较高的发生比例。世界卫生组织最近所作的一项调
查表明，全世界大概有 340 百万人遭受到不同程度的抑郁，同样中国的统计调查显
示中国公民中至少也存在着 2600 万 [1] 的患者。目前，抑郁症在影响人类的十大疾
病中排名第四，且根据目前的形势判断，该排名还会继续上升。
抑郁症又称作忧郁症或精神障碍，主要表现为经常性的心情低落，悲伤，严重
时甚至还会产生自杀行为 [2] 。根据医生的观察，抑郁症患者主要有以下特点：
（1）悲
伤，难过，失望等情绪经常交替出现，并时常感到孤独。
（2）老是责备或者怪罪自
己。
（3）有逃避行为，经常躲藏起来不愿意见人，甚至有自杀倾向。
（4）食欲缺乏，
经常性的失眠。
（5）反应迟缓，性格急躁，做事提不起兴趣。目前医生针对抑郁症的
诊断方法大多是让患者做量表，并同时询问一些病人的情况，以此来对病人的状况
做出大致的判断，然后再结合 ICD-10 抑郁症的诊断标准给出比较准确的结果。该
方法对医生的专业水平有着极高的要求，所需的时间也比较长。但是目前国内这方
面的医生数量比较少，且部分医生的专业水平还没有达标。由此可见该行业的供给
和需求之间存在着严重的不平衡，且想要短时间内解决这一问题基本不可能。此外
即使请专业的医生来对该病实施诊断，也可能因为病人自身的一些因素或者外界条
件，使得诊断结果不准确。因此，当下急需寻找更加高效且准确的方法，来诊断抑
郁症。
研究表明，抑郁症对病人精神上产生影响的同时，也对人体的组织和器官产生
了一定的影响。研究人员通过利用脑电图 (EEG)，脑磁图 (MEG)，功能近红外光谱

成像 (fNIRS) 等生理信号来对抑郁症进行研究，以此辅助临床诊断。本文使用 EEG
1
技术来研究抑郁症，以此区分抑郁患者和正常人。
1.2 国内外研究现状
相比于磁共振成像(MRI)和功能性磁共振(fMRI)成像，EEG 的时间分辨率较
高，维护成本低且操作比较简单，所以被广泛使用。作为一种非侵入的技术，EEG
常被用于脑疾病的诊断和脑机接口 (BCI) 的研究等，得到了研究者的普遍关注 [3] 。
常见的脑疾病有抑郁障碍、焦虑症、精神分裂症 [4] 、轻度认知障碍 [5] 等。抑郁症作

为其中的一种，临床表现为反应慢且伴随明显的情绪交替，它是大脑活动异常的表
现。而 EEG 作为一种追踪脑部活动的方法，可以检测到这些异常的活动。
1.2.1 机器学习在脑电抑郁识别上的应用
在脑电抑郁识别领域，机器学习方法被大量使用，并且取得了良好的效果。对
于脑电数据，通常的做法是先提取有效的特征，然后将其输入到机器学习模型中进
行分类，以此来区分抑郁病人和正常人。
Hanshu Cai [6] 等通过融合来自负性刺激，中性刺激，正性刺激的不同脑电数据，

来构建一个新颖的多模态模型，实现对抑郁病人和正常人的分类。它们的做法是
分别抽取每个模态的 60 个线性特征和 36 个非线性特征，通过线性结合技术融合
不同模态的特征来得到更好的特征，然后将融合后的特征经过特征选择，再输送到
KNN，DT，SVM 分类器中，最高达到了 86.98% 的准确率。

Hesam Akbari [7] 等基于相空间重构和几何特征提出了一种新的方法来对抑郁
症患者和正常人群进行分类。在二维空间中画出两类样本的相空间重构图，然后基
于该图提取了 34 个几何特征。再通过优化算法选择显著的特征送进 SVM，KNN

分类器进行分类，取得了最高准确率为 99.3% 的效果。
Hosseinifard [8] 等将 EEG 信号分解为 4 个波段，分别从每个波段抽取去趋势
波动分析，分形维数，相关维数，李亚普诺夫指数等特征；并将这些特征输入到
KNN，LDA，LR 等分类器中，结果为当使用分形维数和 LR 分类器时得到了 83.3%

的最高分类准确率。
2
Acharya [9] 等提出了一个新颖的抑郁诊断指数 (DDI)，该文章结合脑电的非线

性特征和 DDI，仅使用一个数值就可以诊断抑郁症。
Liao [10] 等提出了基于脑电信号和频谱空间脑电特征提取器的核特征滤波库公
共空间模式 (KEFB-CSP)。该方法当仅使用 8 个电极的脑电信号时，在单次测试分

析时 SVM 准确率达到 81.23% 。
Bachmann [11] 等抽取线性特征光谱不对称指数 (SAI) 和非线性特征 (DFA)，两
者的分类准确率分别为 76.5%，70.6%。
Sharma [12] 等采用带宽持续时间局域化三通道正交小波滤波器组来检测抑郁症，

获得了 99.58% 的平均准确率。
1.2.2 深度学习在脑电抑郁识别上的应用
深度学习是一个比较热门的研究方向，它属于机器学习的子邻域。最近几年，
深度学习技术得到了迅速的发展，并且在许多邻域都取得了巨大的成功，例如计算
机视觉，自然语言处理等。同样，通过深度学习技术来分析脑电数据同样也得到了
研究者的广泛关注 [13;14;17;27;28] 。
Giri [13] 用 1D Convolutional Neural Network 模型分类中风病人和正常人。

Supratak [14] 等设计了 DeepSleepNet，它融合了卷积神经网络和递归神经网络，
并利用原始单通道脑电图对睡眠阶段进行评分，从而取得了良好的效果。
XiaoWei Li [15] 等联合卷积神经网络和功能连接性矩阵，对抑郁症人群和正常人

群的分类。首先将 EEG 分为五个波段，分别为 𝛿，𝜃，𝛼，𝛽，𝛾；然后计算每个波段
的功能连接性矩阵，通过功能连接性矩阵将一维的 EEG 时间序列信号转化为二维
的图像；最后将二维图像输入到卷积神经网络中，取得了比较好的分类效果。
Betul Ay [16] 等提出了一个深度混合模型来实现脑电抑郁的识别。该模型将卷

积神经网络和长短期记忆网络结合在一起，用 CNN 层学习脑电信号的时间特性且
LSTM 层学习脑电信号的序列信息。实验结果表明右脑区抑郁识别的准确率达到
99.12%，左脑区抑郁识别的准确率达到 97.66%，说明 CNN-LSTM 模型在脑电抑郁

识别方面的效果好且速度极快。
3
Acharaya [17] 将一个 13-layer 的 CNN 应用在脑电抑郁检测上，取得了很好的效

果。这也是第一次将深度神经网络和 CNN 应用在抑郁症识别中。
1.3 章节安排
本文每章主要内容介绍如下：
第一章：绪论。首先对脑电抑郁检测的研究背景及其意义进行了简要阐述；其
次分别介绍了机器学习方法和深度学习方法在国内外脑电抑郁检测方面的应用。
第二章：脑电抑郁障碍检测理论基础。首先介绍了大脑是如何产生脑电的，以
及脑电的采集过程；其次介绍了 𝛿，𝜃，𝛼，𝛽，𝛾 这 5 个频率段内脑电信号的特点；
最后介绍了使用脑电信号进行抑郁检测的依据。
第三章：脑电的预处理及特征提取。首先说明了本文使用的脑电数据的来源；
然后介绍了脑电信号的处理过程，通过预处理去除某些噪音和伪迹；最后进行特征
提取，特征融合和特征归一化。
第四章：特征选择方法在 EEG 脑电信号分类中的应用。首先介绍了三种特征

选择方法，即两样本的 K-S 检验，基于随机森林的特征选择，基于遗传算法的特征
选择；然后介绍了特征投票；最后介绍了 SMOTE 重采样算法。
第五章：基于集成的分类器。首先介绍了 KNN，SVM，CART 决策树这三种
基分类器；然后介绍了基于 Soft Voting 的集成分类算法；接着介绍了 accuracy

f1，recall，g-mean 等模型评价指标；最后比较了三种单一分类器以及集成分类器的
分类结果，以及比较了 SMOTE 采样前后集成分类器的分类结果。
第六章：总结与展望。首先对本文所作的工作做了一个简要的总结；其次提出
了本文工作的不足之处以及如何针对不足之处进行改进进行了说明。
1.4 本章小结
本章首先说明了本文的研究背景和意义；其次分析了国内外研究现状，从而可
以大致看出脑电抑郁研究的热点问题；最后对本文的结构安排进行介绍。
4
第二章脑电抑郁症检测理论基础
现实生活中，抑郁症与人类的生活息息相关。作为一种精神类疾病，该病经常
表现为情绪低落，悲观厌世，记忆力下降等，其发作更是给抑郁病人以及亲属的正
常生活和工作带来了严重的影响。近些年来脑电这种技术被广泛的应用到抑郁症的
研究中，以协助医生更好的诊断和治疗抑郁症患者。本章主要介绍了脑电的相关知
识以及脑电与抑郁之间的联系。
2.1 脑电信号的产生
人的大脑皮层中包含着许多个神经元细胞，当大脑在活动时这些神经元之间相
互交换信息，于是就产生了电信号。这些电信号通常特别微弱，采集人员一般将电
极片放置在头皮来采集这些电信号，然后用一些特别精密的仪器将这些电信号放大
并且记录下来，就形成了脑电图。
脑电信号的采集分为嵌入式和非嵌入式两种方式，本文数据使用了非嵌入式采
集的方法，即在大脑皮层外侧，通过贴放电极片的方式，收集相应的脑电信号。脑
电的频率大致在 0.5 − 50Hz 之间，人们一般将脑电过滤为图 2-1 的几个频率段。

（1）𝛿 波段：频率在 1 − 3Hz 内，振幅是 20 − 200𝜇𝑉 。此波段的波形比较平
缓，在这几个波段中频率最小，波幅最大。经常出现在婴儿期时，那会人的智力还
没有发育成熟；或者当成年人在比较劳累或者昏昏欲睡的时候，在顶叶和颞叶可采
集到。
（2）𝜃 波段：频率在 4 − 7Hz 内，振幅是 5 − 20𝜇𝑉 。它一般反映了人的精神状
态，经常在成年人疲惫不堪的状态下出现。
（3）𝛼 波段：频率在 8 − 13Hz 内，振幅是 20 − 100𝜇𝑉 。这一波段当人处于安

静的环境中，闭着眼睛并且头脑比较清晰时会出现。根据皮层区域的位置，该波段
可以分为感觉运动皮层区域的 𝛼 振荡和视觉皮层或枕叶的 𝛼 振荡。
（4）𝛽 波段：频率为 14 − 30Hz 内，振幅是 100 − 150𝜇𝑉 。𝛽 波是一种快波，
5
当人处于比较紧张的状态下，或者人的情绪波动比较大时，容易出现该波段。
图 2-1 脑电图的五个频率段
（5）𝛾 波段：频率为 30Hz 以上，幅值不太稳定。在脑电的 5 个频段内，该波

段属于频率最高的。经常出现在人们学习、处理比较复杂的任务、注意力集中以及
情绪波动的时候。
2.2 脑电信号与抑郁障碍
大脑的脑细胞之间通常以电波的形式交流，EEG 正好测量了大脑的这种电波
活动，所以是一种很好的方式来记录大脑活动。而抑郁症作为精神类疾病，会对大
脑活动产生一定的影响，导致异常的脑部活动，我们可以通过 EEG 来追踪这些异

常的脑部活动，从而来研究抑郁症。
2.3 本章小结
本章主要介绍脑电抑郁检测的理论基础。首先描述了脑电信号是如何产生的，
以及脑电图的形状，脑电频率的大致范围，在该频率范围内划分的 5 个频率段、每
个频率段的特点和相对应的波形图；其次介绍了脑电信号与抑郁障碍的关系。
6
第三章脑电的预处理及特征提取
3.1 数据来源
本文使用了一个公开的重度抑郁症患者的数据集，该数据集记录了 128 个脑电

通道在静息状态时 5 分钟的数据，其由兰州大学 UAIS 实验室采集。该数据集由 53
名志愿者的脑电数据组成，其中包含 24 名抑郁患者和 29 名正常人。性别和年龄在
抑郁患者和正常被试中无明显的差异。重度抑郁症患者是由精神病学专家诊断和推
荐，来自于甘肃省兰州大学第二医院的住院患者和门诊患者。由于本文采用的数据
为静息态数据，其混杂着各种杂质，为了减弱杂质对最终结果的影响，需要将其通
过预处理的方式去除。
3.2 脑电数据处理
3.2.1 数据预处理
脑电是一种极其微弱的信号，其强度大概只有 50uV，研究人员一般从头皮直
接对其进行采集，且必须使用专业的设备。由于脑电信号很容易在此过程中被污
染，所以通过上述方法采集的脑电一般不太纯净，可能包含着一些杂质，如果直接
用于分析将会导致实验结果不准确。于是为了后续更好的分析，需要通过预处理来
除掉原始脑电中杂质。现在一般使用外带脑电帽的方式采集脑电，它是一种非侵入
式的方法。此方法采集到的脑电一般来说不太纯净，主要会受到眼电 (EOG)、心电
(ECG)、肌电 (EMG)、运动伪迹、出汗等生理因素的干扰，在分析 EEG 时通常要

将这些除掉。 EOG 主要来自于眼睛的眨动和眼球的转动；EMG 主要来自于头部
和肢体活动；ECG 来自于心脏跳动，一般可通过参考电极的方式将其排除；被试者
身体运动时，最容易出现运动伪迹，该伪迹极其不规律；额头部位的出汗伪迹最为
明显，通常出汗会改变导联的阻抗。非生理因素主要是 50HZ 的工频干扰。以下为
针对原始脑电信号进行预处理的步骤(在 EEGLAB 中实施)：
（1）导入数据且定位电极：将脑电信号导入 EEGLAB 中，并通过该软件查看
7
脑电的波形，同时对脑电帽上的电极进行定位。
（2）重参考、滤波：在 EEGLAB 中，通过点击 Tools 下的 Re-reference 来选
择参考电极，这里选择 Cz。为了得到某个频率段的数据，我们将低通滤波设置为
1Hz，高通滤波设置为 40Hz。
（3）独立成分分析除去伪迹: ICA 是一种信号处理方法，但也被经常应用到生
物信号处理中。脑电信号中一般混杂着各种伪迹，例如眼电伪迹，心电伪迹，出汗
伪迹等等，本文中使用 ICA 方法来去除它们。该方法能分解出独立的脑电和伪迹
成分，然后将伪迹剥离，剩下的就是去除伪迹的脑电信号。
（4）剔除眼动成分：眼动包含眨眼，眼瞟，眼睛乱动等，一般使用 EEGLAB 中
的 adjust 插件去除。
3.2.2 脑电特征提取
通过上一节的预处理，得到了纯净的脑电信号，接下来要做的就是对该信号进
行相关特征的提取。通常情况会选择一些简单的线性特征，例如频率，功率谱，峰值
等，来对脑电信号进行分析。然而，许多研究表明 EEG 是一种非平稳的随机信号，
如果仅仅提取上述的线性特征，并不能囊括脑电中所包含的全部信息。因此，针对
每个通道抽取 4 个线性和 7 个非线性特征，来实现对抑郁病人脑电图信号的全面
分析。
1.线性特征
（1）均值:
𝑖=1
1 ∑︁
𝑀 𝑒𝑎𝑛 = 𝑥𝑖 . (3.1)
𝑛 𝑛
（2）标准差:
⎯
⎸ 𝑛
⎸ 1 ∑︁
𝑆𝐷 = ⎷ (𝑥𝑖 − 𝑢𝑥 ). (3.2)
𝑛 𝑖=1
（3）一阶差分均值:
𝑛−1
1 ∑︁
𝑀 𝑒𝑎𝑛𝐹 𝐷 = |𝑥𝑖+1 − 𝑥𝑖 | . (3.3)
𝑛 − 1 𝑖=1
8
（4）二阶差分均值:
𝑛−2
1 ∑︁
𝑀 𝑒𝑎𝑛𝑆𝑂𝐷 = |𝑥𝑖+2 − 𝑥𝑖 | . (3.4)
𝑛 − 1 𝑖=1
2.非线性特征
（1）Higuchi 分形维数：分形维数作为一种非线性特征，在脑电特征提取中被
广泛使用。计算过程如下所示：𝑥𝑖 是一个离散时间序列
{𝑥 (𝑖) , 𝑖 = 1, 2, ..., 𝑛} . (3.5)
重构为以下的时间序列（该序列中 k 表示时间间隔，m 表示时间起点）：

{︂ [︂ ]︂}︂
𝑁 −𝑚
𝑥𝑘𝑚 = 𝑥 [𝑚] , 𝑥 [𝑚 + 𝑘] , ..., 𝑥 𝑚 + 𝑖𝑛𝑡( × 𝑘) . (3.6)
𝑘
下式代表新序列的长度：
⎧ ⃒ ⃒⎫
𝑖𝑛𝑡( 𝑁 −𝑚 ) ⃒⃒ ⃒
1
⎪
⎨ ∑︁ ⃒ 𝑥 (𝑚 + 𝑖𝑘) − ⃒⃒⎪
𝑘 ⎬ 𝑁 −1
𝐿𝑚 (𝑘) = ⃒ × 𝑁 −𝑚
. (3.7)
𝑘⎪
⃒
⎩ 𝑖=1 ⃒⃒𝑥 (𝑚 + (𝑖 − 1)𝑘)⃒⃒⎪⎭ 𝑖𝑛𝑡( 𝑘 )
则该序列的平均长度为：
𝑘
1 ∑︁
𝐿 (𝑘) = 𝐿𝑚 (𝑘) . (3.8)
𝑘 𝑚=1
估计的 Higuchi 分形维数可以通过下式计算：
𝐼𝑛 (𝐿(𝑘))
𝐷= . (3.9)
−𝐼𝑛 (𝑘)
（2）C0 复杂度：C0 复杂度由 Shen et [18] 等人提出，用来量化时间序列的复杂

度。设时间序列为 𝑥(𝑛)，它含有 N 个样本，该序列功率谱的平均振幅 (𝑀 ) 可以通
过下式计算：
𝑁 −1
1 ∑︁
𝑀= |𝑋(𝑘)|2 , (3.10)
𝑁 𝑘=0
9
其中 𝑋(𝑘) 是 𝑥(𝑛) 的傅里叶转化。使用 𝑋(𝑘) 和 𝑀 构造一个新的频谱如下：

⎧
⎨𝑋(𝑘) if |𝑋(𝑘)|2 > 𝑀.
⎪
⎪
𝑌 (𝑘) = (3.11)
⎪ 2
⎩0
⎪ if |𝑋(𝑘)| < 𝑀.
通过计算傅里叶转化的逆 𝑌 (𝑘)(𝑦(𝑛))，则将 𝑥(𝑛) 的 C0 复杂度表示为：

∑︀𝑁 −1
𝐴1 𝑛=0|𝑥(𝑛) − 𝑦(𝑛)|2
𝐶0 = = ∑︀𝑁 −1 2
, (3.12)
𝐴0 𝑛=0 |𝑥(𝑛)|
其中 𝐴1 和 𝐴0 分别是 𝑥(𝑛) 的不规则成分和规则成分。

（3）LZC 复杂度：LZC 用于计算时间序列的复杂度。LZC 复杂度的值越大，说
明原始序列越没有规律，复杂度越高，越趋向于随机序列；LZC 复杂度的值越小，
该序列越趋向于是周期序列，复杂度也就越低。
（4）近似熵：由 Pincus 等人 [19] 在 1991 年提出,是一种量化时间序列信号不可
预测性比例的算法。近似熵值越大，时间序列越不规则。首先，给定一个时间 𝑋(𝑛)，
它有 N 个数据点，一个新的向量 𝑋(𝑖) 通过下式构造，其中假设 𝜏 = 1：
𝑋(𝑖) = [𝑥(𝑖), 𝑥(𝑖 + 𝜏 ), ..., 𝑥(𝑖 + (𝑚 − 1)𝜏 )]. (3.13)
上式中 𝑖 = 1, 2, ..., 𝑥(𝑖 + (𝑚 − 1)𝜏 ，X 是有 N 个数据点的时间序列信号，X 是 m 维
的向量。接下来，计算 𝑋(𝑖) 和 𝑋(𝑗) 之间的距离 𝐷[𝑋(𝑖), 𝑋(𝑗)]。
𝐷[𝑋(𝑖), 𝑋(𝑗)] = max [|𝑥(𝑖 + 𝑘 − 1) − 𝑥(𝑗 + 𝑘 − 1)|], (3.14)

𝑘=1,2,...,𝑚
其中 |.| 是欧式距离。接下来，对每个 i，i=1，2,...,N-m 分别计算 𝐶𝑖𝑚 (𝑟)，计算公式
如下：
𝑛𝑢𝑚𝑏𝑒𝑟𝑜𝑓 𝐷[𝑋(𝑖), 𝑋(𝑗)] ≤ 𝑟

𝐶𝑖𝑚 (𝑟) = , (3.15)
𝑁 −𝑚−1
其中 r 为 𝐷[𝑋(𝑖), 𝑋(𝑗)] 的阈值为 r。最后，近似熵（ApEn) 被定义为下：
𝐴𝑝𝐸𝑛 = Φ𝑚 (𝑟) − Φ𝑚+1 (𝑟), (3.16)
10
其中 Φ𝑟𝑚 的计算方式如下：
𝑁 −𝑚−1
1 ∑︁
Φ𝑟𝑚 = 𝑙𝑛(𝐶𝑖𝑚 (𝑟)). (3.17)
𝑁 − 𝑚 − 1 𝑖=1
（5）谱熵：谱熵是一种信息熵，它也度量了信号的复杂程度。谱熵越小，信号
复杂程度越小；谱熵越大，信号复杂程度越大。
（6）SVDen 单值分解熵：奇异熵表示当信号处于奇异频谱划分的状态时，其信
号能量不确定性的大小。奇异熵值越小，信号的种类越单一；奇异熵值越大，信号
种类越多，即越复杂。
（7）香农熵：Shannon [20] 1948 年在“A Mathematical Theory of Communica-

tion” 一文中提出了香农熵，该值衡量了随机时间序列的不确定性。香农熵越大，则
信号中的随机性和不确定性越大。香农熵被定义为：
𝑛
∑︁
𝐾=− 𝑝 (𝑥𝑖 ) 𝑙𝑜𝑔2 𝑝 (𝑥𝑖 ) . (3.18)
𝑖=1
3.2.3 特征融合
抑郁症是一种很常见精神类疾病，它与人类情感密切相关。一些研究显示，当
人类的情绪变化时，前额脑区的脑电波也会发生变化，所以两者之间存在着紧密的
联系。根据以上表述，于是选择前额 7 导的脑电来研究抑郁症。在 128 导的脑电采

集装置中，前额的 7 导为 E34，E27，E23，E18，E15，E9，E2。本文包括 24 个病人
和 29 的正常人在内的 53 个脑电数据，为了增加样本量，分别对每个人前额 7 通
道的脑电数据进行不重叠的切割，从而形成了 960 个病人和 1160 个正常人在内一
共 2120 个样本的脑电数据。本文选择了 4 个线性特征和 7 个非线性特征，对每个

通道分别提取这 11 个特征，然后将它们直接拼接起来，形成一个 2120 × 54 的特征
矩阵。
3.2.4 特征归一化
本文选取了 11 种不同的脑电特征，且每种特征之间的量纲和数量级都不同。
在一些模型中，例如 SVM，特征的数量级对模型的结果影响较大，数值较大的特
11
征影响大，数值较小的特征影响小。如果直接用这些特征进行下一步的分析，将会
得到不太准确的结果。为了使机器学习模型得到准确的结果，需要对特征进行归一
化处理以使得每个特征都具有相同的量纲和数量级。归一化的方法有许多种，例如
Min-Max 标准化，Z-score 标准化，排序归一，分段归一等。本文使用了 MATLAB

中的 mapminmax 函数，它可以将每个特征的取值都归一到 [-1,1]。
3.3 本章小结
本章主要介绍了脑电信号的预处理及特征提取。首先介绍了本文所使用的脑电
数据的来源；其次是脑电信号的处理，先通过预处理除去脑电信号中混含的杂质；
然后选择前额 7 导的脑电，分别对每个导联提取 4 个线性特征和 7 个非线性特征，
将其直接拼接成一个 77 列的特征矩阵；最后对每列特征对其进行归一化，使其取
值处于 [-1,1]。
12
第四章特征选择方法在 EEG 脑电信号分类中的应用
特征选择又称属性选择，或者特征子集选择。它主要用来对高维特征进行降维，
从而提高模型的效率。该方法的主要思想是：假设原始数据中包含了 M 个特征，其
中可能会存在一些与响应变量无关的冗余变量，这些冗余变量的存在不光会增加计
算量同时也会影响模型的效果，所以需要从这 M 个变量中选择 N 个重要的变量

（𝑁 < 𝑀 ) 来代表原始特征集。本文将使用以下三种特征选择方法来进行特征选择。
4.1 两样本的 K-S 检验
K-S 检验由柯尔莫科洛夫（Kolmogorov) 和斯米洛夫 (Smirnov) 共同提出，并

将两人的名字组合在一起作为该检验的名称。K-S 检验主要用来做假设检验，属于
非参数检验。K-S 检验分为一个样本的 K-S 检验和两独立样本的 K-S 检验，其中
一个样本的 K-S 检验用来判断样本的分布和某个特定的分布是否一致，而两独立

样本的 K-S 检验用来判断两组数据是否有相同的分布。
首先定义统计量 D，它是两个随机变量 X 和 Y 的累计概率分布的绝对值差的
最大值。两样本的 K-S 检验通过计算该值来判断两组数据样本之间的差异性。其中

X 的累计概率分布定义为：
𝑛
1 ∑︁
𝐹𝑛 (𝑥) = 𝐼[−∞,𝑥] (𝑋𝑖 ) , (4.1)
𝑛 𝑖=1
其中，n 为样本量，𝑋𝑖 为 X 的第 i 个样本点，𝐼[−∞,𝑥] (𝑋𝑖 ) 为示性函数：

⎧
⎨ 1 𝑋𝑖 ≤ 𝑥.
⎪
𝐼[−∞,𝑥] (𝑋𝑖 ) = (4.2)
⎩ 0 𝑋𝑖 > 𝑥.
⎪
首先设定 𝛼 为显著性水平，𝐷𝛼 为临界值；𝑛1 和 𝑛2 分别为两类样本的样本

量；𝐹1 (𝑥)，𝐹2 (𝑥) 分别为两类样本的累积经验分布函数；则两样本 K-S 检验的步骤
如下所示：
令原假设和备择假设分别为：
13
𝐻0 : 𝐹1 (𝑥) = 𝐹2 (𝑥) 𝐻1 : 𝐹1 (𝑥) ̸= 𝐹2 (𝑥).

检验统计量 D 为：
𝐷 = max |𝐹1 (𝑥) − 𝐹2 (𝑥)| . (4.3)
当 𝐷 < 𝐷𝛼 ，接受 𝐻0 ；当 𝐷 > 𝐷𝛼 ，拒绝 𝐻0 。
两样本的 K-S 检验得出的结果仅仅是接受或者拒绝原假设，而没有对两个样

本数据的显著性水平差异做量化的表示。为了更直观的表示两个样本数据显著性水
平的差异，于是用 𝑝 值对该差异做一个量化的表示。
罗纳德 · 费舍尔先生在假设检验中提出了显著性水平 𝑝 值的概念，它是由实
际统计量计算得到的，经常被用于衡量某种假设的有效性。它的原理是：首先设定
𝛼 为临界值，然后随机从总体中抽取一个样本，算出该样本统计量的 𝑝 值，如果
𝑝 < 𝛼，则拒绝原假设，认为结果显著。如果 𝑝 > 𝛼，则接受原假设，认为结果不显
著。一般情况下取 𝛼 为 0.05 或者 0.01，如果 𝑝 < 0.01，说明判定结果极强，可以直

接拒绝原假设；如果 0.01 < 𝑝 < 0.05，说明判定结果较弱，这种情况一般也拒绝原
假设；𝑝 > 0.05 ，暂且接受原假设，因为现有证据不足所以无法拒绝。
下面给出了三种不同情况下 𝑝 值的计算方法: (其中 Z 为检验统计量，C 为根
据样本计算出的检验统计量的值)
左侧相容性检验：𝐻0 : 𝑢 ≥ 𝑢0 , 𝐻1 : 𝑢 < 𝑢0 。其计算公式如下：
𝑝 = 𝑃 {𝑍 < 𝐶|𝑢 = 𝑢0 } . (4.4)
右侧相容性检验：𝐻0 : 𝑢 ≤ 𝑢0 , 𝐻1 : 𝑢 > 𝑢0 。其计算公式如下：
𝑝 = 𝑃 {𝑍 > 𝐶|𝑢 = 𝑢0 } . (4.5)
双侧相容性检验：𝐻0 : 𝑢 = 𝑢0 , 𝐻1 : 𝑢 ̸= 𝑢0 。其计算公式如下：
𝑝 = 𝑃 {|𝑍| < 𝐶|𝑢 = 𝑢0 } . (4.6)
取 𝛼 = 0.01，则当 𝑝 > 0.01 时，特征为非显著的。表 4-1 显示了 K-S 检验得出
的所有不显著特征，分别为 V27-V33，V54-V57，V59-V61，V70，V72-V75。
14
表 4-1 K-S 检验的结果
特征 D值 𝑝值不显著程度
V27 0.0667 0.0174 *
V28 0.0506 0.1289 *
V29 0.0436 0.2601 *
V30 0.0384 0.4068 *
V31 0.0209 0.9710 −
V32 0.0262 0.8497 −
V33 0.0366 0.4685 −
V54 0.0595 0.0455 *
V55 0.0135 0.9999 −
V56 0.0251 0.8832 −
V57 0.0354 0.5095 −
V59 0.0644 0.0241 +
V60 0.0432 0.2688 −
V61 0.0293 0.7416 −
V70 0.0548 0.0806 +
V72 0.0318 0.6453 −
V73 0.0582 0.0535 +
V74 0.0529 0.1002 −
V75 0.0512 0.1207 −
注：* * * 表示 0 < 𝑝 < 0.001，** 表示 0.001 < 𝑝 < 0.01，* 表示 0.01 < 𝑝 <
0.05，+ 表示 0.05 < 𝑝 < 0.1，− 表示 0.1 < 𝑝 < 1。该检验得出的显著特征为

V1-V26，V34-V53，V58，V62-V71，V76，V77。
4.2 基于随机森林的特征选择
随机森林（Random Forests) 本质上属于集成学习，它是一种将多棵树集成在

一起来做预测或分类的算法。该方法比较灵活，且高效准确，所以不论是在各种机
器学习比赛中还是在工业界都被广泛使用。该方法的思想是：假设要对某个数据集
进行分类，首先我们建立多棵彼此之间相互独立的决策树，然后用集成学习的思想
将它们组合在一起，来进行预测。
基于随机森林的特征选择是一种封装式的特征选择算法，该算法将 GINI 指数
贡献度作为衡量变量重要性的工具，来对变量进行特征选择。该方法在高维数据的
15
特征选择领域，被广泛使用。其思想为：对每个特征计算其在每棵树上的 GINI 指
数，作为特征贡献度，然后将所有树上求得的特征贡献度做一个平均，即为该特征
在随机森林上的重要度。本文分别计算 77 个脑电特征在随机森林上的基尼指数，
然后做一个重要性排序。以下 GINI 用 GI 简写，VIM 代表了特征在随机森林上的

重要性评分。
在节点 𝑚 处，特征 𝑋𝑗 的 GINI 指数为：
|𝐾| |𝐾|
∑︁ ∑︁ ∑︁
𝐺𝐼𝑚 = 𝑝𝑚𝑘 𝑝𝑚𝑘′ = 1 − 𝑝2𝑚𝑘 , (4.7)
𝑘=1 𝑘′ ̸=𝑘 𝑘=1
其中，𝐾 表示 𝐾 个类别，𝑝𝑚𝑘 表示在节点 𝑚 处类别为 𝑘 的样本所占的比例。

𝐺𝑖𝑛𝑖
𝑉 𝐼𝑀𝑗𝑚 表示在节点 𝑚 处，特征 𝑋𝑗 的重要程度。其值越大，说明 𝑋𝑗 越适合
作分支变量。计算公式为：
𝐺𝑖𝑛𝑖
𝑉 𝐼𝑀𝑗𝑚 = 𝐺𝐼𝑚 − 𝐺𝐼𝑙 − 𝐺𝐼𝑟 , (4.8)
其中，𝐺𝐼𝑚 为分枝前节点 m 的 GINI 指数，𝐺𝐼𝑙 和 𝐺𝐼𝑟 为分枝后新生成节点的 GINI

指数。
那么特征 𝑋𝑗 在第 𝑖 棵树的重要性为：
∑︁
𝑉 𝐼𝑀𝑖𝑗𝐺𝑖𝑛𝑖 = 𝐺𝑖𝑛𝑖
𝑉 𝐼𝑀𝑗𝑚 . (4.9)
𝑚∈𝑀
则 𝑋𝑗 在随机森林中的重要性为：
𝑛
1 ∑︁
𝑉 𝐼𝑀𝑗𝐺𝑖𝑛𝑖 = 𝑉 𝐼𝑀𝑖𝑗𝐺𝑖𝑛𝑖 , (4.10)
𝑛 𝑖=1
其中，𝑛 为构成随机森林的树的个数。
特征优先级为：16，15，19，1，1，1，1，1，1，4，1，1，1，1，1，1，1，1，1，1，1，9，22，
25，1，1，13，18，20，17，11，24，21，26，23，1，1，1，1，1，1，1，1，1，1，1，1，1，1，
1，1，1，1，1，1，1，33，29，31，30，28，32，27，2，1，8，1，6，5，3，1，1，1，7，14，10，12。
16
图 4-1 累积特征分类准确率曲线
结合图 4-1 和特征优先级可知，当选出 45 个特征时，随机森林的分类准确率最

高，为 0.8844。选出的特征为：V4-V9，V11-V20，V21，V25，V26，V36-V40，V41-
V50，V52，V53，V58，V60，V61，V62，V64，V66，V68，V69，V72，V74。
4.3 基于遗传算法的特征选择
4.3.1 遗传算法
遗传算法于 20 世纪 70 年代被第一次提出，其作者是来自美国 Michgan 大学

的 John Holland。1980 年代后，该方法在学术界得到了大力发展，并且被广泛应用
在组合优化，人工生命，机器学习等领域。在生物学中，达尔文将自然界的进化机
制总结为“适者生存，不适者淘汰”，遗传算法就是通过模拟这一机制设计而来。选
择，交叉，变异构成了该方法的基本操作。
遗传算法的主要步骤为（如图 4-2）：
第一，初始化。初始种群一般都是随机生成的。
17
第二，个体评价。适应度函数选取的好坏直接影响对个体进行评价的有效性。
我们将适应度值做为评价个体好坏的标准，该标准为个体的适应度值越大则该个体
越优秀。
第三，选择运算。降序排列群体中所有个体的适应度值，再确定一个合适的阈
值，将适应度值低于阈值的个体删除，则留下的都是我们选出的优秀的个体。
第四，交叉运算。将上一步选出的个体进行两两间的交叉操作，从而生成新的
个体。通过交叉操作，极大的提高了遗传算法搜索最优解的能力。
第五，变异运算。针对某个个体，将其某个部位的基因值做一些变动。
第六，终止条件判断。算法在迭代过程中，一旦符合终止条件，就会自动终止。
在实际情况中，终止条件的设定应该具体问题具体分析。
图 4-2 遗传算法
4.3.2 基于遗传算法的特征选择
（1）特征子集的生成：首先随机生成一组特征，将其作为初始特征子集，然后
在该子集的的基础上进行选择，交叉，变异等一系列操作，从而生成一个新的特征
18
子集。
（2）评价特征子集：评价特征子集最重要的一点就是确定一个合适的适应度
函数。本文的抑郁识别是一个二分类问题，我们以 lightGBM 为分类器来对脑电分
类，并将分类准确率作为适应度函数。在对特征子集进行评价时，其分类准确率越
高，说明该特征子集越好。
（3）终止搜索判断：从群体的进化情况来判断搜索是否需要继续。经常使用的
判断依据有个体适应度是否达到目标值，遗传代数是否达到设定的最大数，进化是
否已经停滞。
（4）特征子集的性能测试：也就是判断某个特征子集的质量。通常的做法是
将最终得到的特征子集输入到分类器中，用分类准确率的高低来判断特征子集的质
量。
该方法选择出的特征为：V2，V3，V5，V9，V11，V12，V14，V15，V17-V19，V22-
V23，V25，V27，V31，V33-V35，V38，V40，V41-V45，V47，V49，V50，V52，V53，V-
58，V60，V61，V62，V64，V66，V68，V69，V72，V74。
4.4 特征投票
本文所使用的三种特征选择方法都有各自的优势和劣势，在进行特征选择时，
所选出的特征不尽相同。为了避免出现上述这种不稳定的现象，于是对这三种方法
选出来的特征，实施特征投票。其规则为：对某个特征记一次投票当且仅当该特征
被三种方法中的某一种选择过一次，针对上述三种方法选出的结果，我们将投票次
数为 2 或者 3 的特征列入最终入选名单。最后进入最终入选名单的特征有 54 个，
分别为：V2-V26，V34-V58，V62-V64，V66-V69，V71-V72。
三种特征选择方法分别选择的特征列表如 4-2 所示：
19
表 4-2 三种特征选择方法选择的特征
特征选择方法选择的特征
特征密度比较及 K-S 检验 V1-V26，V34-V53，V58，V62-V71，V76，V77
基于随机森林的特征选择 V4-V9，V11-V20，V21，V25，V26，V36-V40，V41-V50，V52，
V53，V58，V60，V61，V62，V64，V66，V68，V69，V72，V74
基于遗传算法的特征选择 V2，V3，V5，V9，V11，V12，V14，V15，V17-V19，V22-V23，
V25，V27，V31，V33-V35，V38，V40，V41-V45，V47，V49，
V50，V52，V53，V58，V60，V61，V62，V64，V66，V68，V69，
V72，V74
4.5 基于 SMOTE 算法的样本平衡
经特征选择后，特征矩阵的大小变为 2120 × 54，其中 2120 个样本中 960 个为

病人，1160 个为正常人，可见两个类别的样本数量不均衡。于是采用 SMOTE 算法
来对病人这类样本进行插值，以此增加其样本量。
SMOTE 算法是一种过采样技术，主要用于人工合成所需要的数据，从而解决
类别不平衡问题。该算法被广泛应用于工业届和学术界，其大致思想为：在二分类
问题中，当遇到多数类和少数类样本量不均衡的情况时，为了增加少数类的样本量，
对其进行插值，以使得两类样本数达到均衡。该算法流程为算法 4.1 所示：
算法 4.1 Sythetic Minority Oversampling Technique (SMOTE)

1: 从少数类样本中随机挑选一个，记作 𝑥𝑖 ，计算 𝑥𝑖 与所有少数类样本之间的欧式
距离，并将其排序，据此选出最近的 𝑘 个点；
2: 计算两个类别的不平衡比，然后依据该比例设定采样倍率 𝑁 ；
3: 从步骤 1 选出的 𝑘 个点中随机选取一点 𝑥𝑖(𝑛𝑛) ，再从 0-1 中随机产生一个数作
为 𝛾，将其带入下式：
(︀ )︀
𝑥𝑖1 = 𝑥𝑖 + 𝛾 𝑥𝑖(𝑛𝑛) − 𝑥𝑖
生成新样本 𝑥𝑖1 ；
4: 重复步骤 2，直到生成 𝑁 个新样本；
5: 设少数类的样本个数为 T，对其中的每个样本进行如上操作，总共得到 𝑁 𝑇 个
样本。将这 𝑁 𝑇 个样本加入到原样本中，使得两类样本数量达到均衡。
20
4.6 本章小结
本章介绍了特征选择方法在脑电信号分类中的应用。首先介绍了三种特征选择
方法，分别为两样本的 K-S 检验，基于遗传算法的特征选择，基于随机森林的特征
选择；然后介绍了特征投票的原理；最后介绍了 SMOTE 过采样算法。
21
第五章基于集成算法的分类器
本章首先介绍了三种单一分类器，分别为 KNN，SVM，CART 决策树；然后提

出了基于 Soft Voting 的集成分类器；并比较了四种分类器的分类结果以及 SMOTE
过采样前后四种分类器的分类结果。
5.1 KNN 分类器
KNN [21] 属于监督学习，于二十世纪六十年代由 Cover 和 Hart 首次提出。作为
最简单也最常用的算法之一，它既可以用作分类，也可以用作回归。KNN 的原理是
当给出一个新的样本点 X 时，找出离它最近的 K 个点，根据这 K 个点的类别来判
断点 X 的类别。KNN 分类算法简单易用，且训练速度较快。该算法如算法 ?? 所
示，K 的大小决定了图中绿色圆圈的类别。
图 5-1 KNN
算法 5.1 K Nearest Neighbors(KNN)

步骤1：给定训练样本空间，和一个未分类的数据 X，我们需要先确定 K 值；
步骤2：在训练样本空间中，分别计算 X 到每个样本点的距离，然后将其排序；
步骤3：将 K 个距离最小的样本点挑出来；
步骤4：统计这 K 个样本点中每个类别出现的次数；
步骤5：将出现次数最高的类别作为 X 的类别。
影响 KNN 分类器分类效果好坏的三个因素：
（1）K 值的选择问题
22
K 值是 KNN 分类器的一个重要参数，它的大小对分类结果产生了极为重要的
影响。K 值是影响 KNN 分类效果好坏的一个重要因素，如果 K 值过小，即使用
预测样本周围小范围内的样本进行学习，此时结果会对这些小范围内的样本比较敏
感，当小范围内的样本是噪音时，预测就会出错；如果 K 值过大，也会出现误差，
例如当 K 取为样本量大小时，预测样本将会被分为多数类，这样的分类也就没有了
意义。一般情况下，我们会给 K 取较小的值。
（2）距离度量问题
对于样本 𝑥𝑖 = (𝑥𝑖1 ; 𝑥𝑖2 ; ...; 𝑥𝑖𝑚 ) 和样本 𝑥𝑗 = (𝑥𝑗1 ; 𝑥𝑗2 ; ...; 𝑥𝑗𝑚 )，测量它们之间
距离的方法有很多种，比如下述三种：
欧式距离
⎯
⎸ 𝑛
⎸∑︁
𝑑 (𝑥, 𝑦) = ⎷ (𝑥𝑖 − 𝑦𝑖 )2 (5.1)
𝑖=1
曼哈顿距离
𝑛
∑︁
𝑑 (𝑥, 𝑦) = |𝑥𝑖 − 𝑦𝑖 | (5.2)
𝑖=1
闵可夫斯基距离
(︃ 𝑛
)︃ 𝑝1
∑︁
𝑑 (𝑥, 𝑦) = |𝑥𝑖 − 𝑦𝑖 |𝑝 (5.3)
𝑖=1
（3）分类决策规则
KNN 的分类决策规则一般为多数投票表决，其思想大致为：给定一个样本空
间，需要对 X 的类别进行预测，于是我们找到 X 的 K 个近邻，这 K 个近邻中的多
数类别即为 X 的类别。
5.2 SVM 分类器
支持向量机 (SVM) [22] 于 1964 年被首次提出，一开始被称为支持向量网络。它
是一种监督学习算法，经常被用于处理二分类问题。该方法的基本思想是：在给定
23
样本实例的情况下，首先将其映射为特征空间中的一些点，从而分类样本实例的目
标也就转化成了在特征空间中寻找分离超平面来分类这些点的过程。选取的超平面
不仅可以将这些点分开，而且这些点到该平面的距离尽可能大。
图 5-2 SVM
假设我们的分离超平面可以用
𝑤·𝑥+𝑏=0 (5.4)
来表示，如果样本数据是线性可分的，那么该数据在特征空间中将会有很多个分离
超平面，但是使得样本的所有点到平面距离最大的却只有一个，这就是 SVM 的思
想。
设我们所研究的数据集为 𝑇 = (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑁 , 𝑦𝑁 )，其中 𝑥𝑖 ∈ 𝑅𝑛 , 𝑦𝑖 ∈
{+1, −1} , 𝑖 = 1, 2, ..., 𝑁。假设该数据集线性可分，首先给出以下几个定义。
(︁ )︁
几何间隔的定义为：𝛾𝑖 = 𝑦𝑖 ‖𝑤‖ · 𝑥𝑖 + ‖𝑤‖ .
𝑤 𝑏
首先将 SVM 求解最大分离超平面问题转化为下列数学表达式：
max 𝛾,
𝑤,𝑏
(︂ )︂ (5.5)
𝑤 𝑏
𝑠𝑡.𝑦𝑖 𝑥𝑖 + ≥ 𝛾, 𝑖 = 1, 2, ..., 𝑁.
‖𝑤‖ ‖𝑤‖
24
然后将上述式子转化为约束最优化问题：
1
min ‖𝑤‖2 ,
𝑤,𝑏 2 (5.6)
𝑠.𝑡.𝑦𝑖 (𝑤 · 𝑥𝑖 + 𝑏) ≥ 1, 𝑖 = 1, 2, ..., 𝑁.
综上，可将支持向量机总结为算法 5.2:
算法 5.2 Support Vector Machine(SVM)
输入:
𝑖=1 ，其中 𝑥𝑖 ∈ R ，𝑦𝑖 ∈ {+1, −1}，i=1，2，...，N
训练数据集 {(𝑥𝑖 , 𝑦𝑖 )}𝑁 𝐷
输出:
分离超平面和分类决策函数
主体算法:
1: 设置一个惩罚参数 𝐶，其值符合 𝐶 > 0；并构造如下二次规划问题，并求解
𝑁 𝑁 𝑁
1 ∑︁ ∑︁ ∑︁
min 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 (𝑥𝑖 𝑥𝑗 ) − 𝛼𝑖
𝛼 2
𝑖=1 𝑗=1 𝑖=1
𝑁
∑︁
𝑠.𝑡. 𝛼𝑖 𝑦 𝑖 = 0
𝑖=1
0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1, 2, ..., 𝑁
得到最优解
𝛼𝑖 = (𝛼1* , 𝛼1* , ..., 𝛼1* )𝑇
计算 𝑤* = 𝑁 *
∑︀
2: 𝑖=1 𝛼𝑖 𝑦𝑖 𝑥𝑖
选择 𝛼𝑖 的一个分量 𝛼𝑗* 满足条件 0 < 𝛼𝑗* < 𝐶，计算
𝑏* = 𝑦 𝑗 − 𝑁 *
∑︀
𝑖=1 𝛼𝑖 𝑦𝑖 (𝑥𝑖 𝑥𝑗 )
分类任务中，当数据集线性可分时，可直接使用 SVM 对其分类；但是当数据

集线性不可分时，一般会使用核函数，将其映射到较高维的空间中，在进行分类。通
常情况下，分类器的分类效果直接受核函数的影响，所以针对不同分类问题，应该
选取适当的核函数。下面介绍几种常见的核函数：
25
（1）高斯核函数
(︃ )︃
‖𝑥 − 𝑦‖2
𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝 − , (5.7)
2𝜎 2
其中 𝜎 ≥ 1 为带宽。
（2）多项式核函数
(𝑥, 𝑦) = (𝛼𝑥𝑇 𝑦 + 𝑐)𝑑 , (5.8)
其中，𝑑 ≥ 1 是多项式的次数。
（3）拉普拉斯核函数
‖𝑥 − 𝑦‖
𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝(− ). (5.9)
𝜎
（4）线性核函数
𝐾(𝑥, 𝑦) = 𝑥𝑇 𝑦. (5.10)
5.3 CART 决策树分类器
决策树是一种比较常用的预测模型，经常被用于处理分类问题。决策树算法相
对来说比较简单，它通过对样本数据的训练，将特征和类别之间的关系表示出来，就
形成了一颗决策树。决策树算法有很多种，其中最常见的有 ID3，C4.5，CART 等。
它们经常被用作许多集成算法 (Random Forest、Adaboost、xgboost、lightGBM) 的
基学习器。本文使用 CART 算法作为分类器之一。

在树分支时，CART 决策树分类算法一般使用 Gini 系数作为指标。以下为 Gini
系数的两种计算方法，第一种为：
𝑚 (︂ )︂
∑︁ |𝐶𝑖 |
𝐺𝑖𝑛𝑖(𝑆) = 1 − , (5.11)
𝑖=1
𝑆
其中，S 为某个样本集的样本量，𝐶𝑖 (𝑖 = 1, 2, ...𝑚) 为该样本所属的 m 个类别。
26
第二种为：
𝑘
∑︁ 𝑘
∑︁
𝐺𝑖𝑛𝑖(𝑝) = 𝑝𝑘 (1 − 𝑝𝑘 ) = 1 − 𝑝𝑘 2 , (5.12)
𝑘=1 𝑘=1
其中，𝐶𝑖 为第 i 类的样本量，𝑝𝑚 为样本点属于第 K 类的概率。
使用 CART 决策树对样本 S 进行分类，以 A 为分支属性，则 𝐴 = 𝑎1 的样本

𝑆1 被分为一类，剩下的被分为另一类。针对特征 A，Gini 系数被定义为：
𝑆1
𝑆2
𝐺𝑖𝑛𝑖(𝑆|𝐴) = 𝐺𝑖𝑛𝑖(𝑆1 ) + 𝐺𝑖𝑛𝑖(𝑆2 ). (5.13)
𝑆 𝑆
CART决策树分类器的生成算法如算法 5.3 所示:

算法 5.3 CART
输入:
训练数据集 D
停止计算条件
输出:
CART决策树
主体算法:
1: 在数据集 𝑆 中，针对所有的特征和可能切分点，计算其基尼指数，并排序。例
如，对于特征 A，以 A=𝑎𝑖 为切分点，可将 𝑆 分为 𝑆1 和 𝑆2 两部分。则 𝐴 = 𝑎𝑖
时的基尼指数可以通过 𝐺𝑖𝑛𝑖(𝑆|𝐴) 计算。
2: 从上一步排好序的基尼指数中选出值最小的。以该最小值对应的特征和切分点
为依据，将数据集分配到切分出来的两个子节点上。
3: 重复步骤 1 和 2，直到达到停止计算条件。
4: 生成一棵 CART 决策树。
5.4 基于 Soft Voting 的集成分类算法
集成学习主要分为三类，分别为 Bagging 算法，Boosting 算法，Stacking 算法。

本文选择了 Soft Voting 算法用于集成分类器的设计，它是 Stacking 中的一种。下
面介绍 Soft Voting 算法的原理，以及如何使用该算法来设计一个集成分类器，将
KNN，SVM，CART 决策树三种基分类器集成在一起用于分类。
27
5.4.1 Soft Voting 算法
集成学习又可以称为分类器集成，它使用某种策略，例如平均法和投票法，将
多个弱学习器组合在一起，以期得到一个更强的分类器，来完成学习任务。对于集
成学习，主要将其分为以下三类：
（1）Bagging 算法：属于最简单的一类集成算法，由 Breiman 在二十世纪九十
年代提出。该方法既可用于分类又可用于回归，基本思想是：首先在原数据集的基
础上，使用 bootstrap 方法对其进行有放回的抽样，直到获得 N 个新数据集；接下

来在这 N 个新数据集上构造 N 个模型，并将这 N 个模型的结果组合在一起就得到
了最终结果。
（2）Boosting 算法 [23] ：是使用最为广泛的一种集成算法，包括提升树，Adaboost，
提升树，GBDT 等，其中最具有代表性的为 Adaboost [24] ，该算法在迭代过程中的

每一步都依赖于上一步得到的结果。
（3）Stacking 算法 [25] ：由 Wolpert 于 1992 年提出，该方法用一个机器学习
算法将所有的基学习器结合在一起进行学习。不同于 Bagging 和 Boosting 两种方

法，Stacking 算法使用的基分类器属于不同的类型。
考虑到分类效率问题，本文选择 Soft Voting 算法来设计集成分类器。Soft Vot-
ing 是 Stacking 算法中的一种，有着较快的计算速度，其基本思想为：使用所有模
型计算样本属于某一类的概率，然后对这些值取一个平均，选出概率最高的类别，
即为该样本的最终类别。
假设 𝑋 = 𝑥1 , 𝑥2 , ..., 𝑥𝑛 为输入样本，𝐶 = 𝑐1 , 𝑐2 , ..., 𝑐𝑛 为输入样本对应的类别标
签，选择 T 个基分类器对某个样本进行预测，其结果分别为 (ℎ1 , ℎ2 , ..., ℎ𝑇 )。将 T
个预测结果使用 Soft Voting 算法集成，则输出为：
∑︀𝑇 𝑗
𝐻(𝑥) = 𝐶𝑎𝑟𝑔𝑚𝑎𝑥 𝑖=1 𝑤𝑖 ℎ𝑖 (𝑥) , (5.14)
𝑗
其中，ℎ𝑗𝑖 (𝑥) ∈ [0, 1] 类似于 𝑃 (𝑐𝑗 |𝑥) 的一个估计。

在 KNN，SVM，CART 的基础上，使用 Soft Voting 算法设计的集成分类器如
28
算法 5.4所示:
算法 5.4 Soft Voting算法
输入:
训练集 𝐷 = {(𝑥1 , 𝑦1 ) , (𝑥2 , 𝑦2 ) , ..., (𝑥𝑛 , 𝑦𝑛 )}；
′
测试集 𝐷 = {𝑥1 , 𝑥2 , ..., 𝑥𝑚 }；
KNN 𝜁1 ；SVM 𝜁2 ；CART 𝜁3
输出:
𝐻(𝑥) = ℎ1 × 𝛼1 + ℎ2 × 𝛼2 + ℎ3 × 𝛼3 ；
主体算法:
1: for 𝑡 = 1, 2, ..., 𝑛 do
𝛼1 = 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝜁1 (𝐷))
2: end for
3: for 𝑖 = 1, 2, ..., 𝑚 do
ℎ1 = 𝜁1 (𝐷′ )
ℎ2 = 𝜁2 (𝐷′ )
ℎ2 = 𝜁3 (𝐷′ )
Soft Voting 算法计算速度快，对于输出有较大波动的结果有良好的平滑作用，
因此便于实时输出准确率。
5.4.2 集成分类器的设计
由于不同的抑郁症患者之间具有很大的差异性，于是我们要求分类模型不仅具
有较强的分类能力，同时也应具备较强的泛化能力。
KNN 模型的优点是时间复杂度低，分类效果较好且对异常点不是很敏感。即
使在类别之间有交叉时也可以取得较好的分类效果。缺点是有着高的空间复杂度，
当遇到样本类别不平衡的情况时，分类效果不是很好。
SVM 属于小样本学习，该方法有很扎实的理论基础，同时泛化能力比较强，所
以是一种很常用算法。在分类问题中，当遇到线性不可分的情况时，一般会使用核
函数，将其映射到较高维的空间中进行分类。核函数的选取至关重要，直接影响着
29
SVM 分类性能的好坏，所以针对不同的分类问题，应选取适当的核函数。但是目
前，仍然没有找到较好的方法来解决这一问题，核函数的选取是人为的根据经验进
行的，具有很大的随机性。所以 SVM 分类器也具有很大的局限性。
CART 决策树的优点是简单直观，可解释性强的同时又对异常点不太敏感；缺
点是该算法的结构不太稳定，且比较容易发生过拟合现象；仅能学习一些简单的关
系，当遇到异或这种复杂的关系时，决策树学习起来就比较困难了；最优决策树的
寻找也比较困难，当使用启发式的方法来搜寻时，很容易陷入局部最优。
考虑到实验对象的个体差异性，需同时提高模型的分类能力和泛化能力。通过
集成学习将几种不同的基分类器组合起来，最终的分类效果是模型的分类准确率提
高了，同时泛化能力也提高了。本文使用 Soft Voting 算法将 KNN，SVM 和 CART
这三种分类器的预测结果集成在一起，从而得到最终的结果。
5.5 模型评价指标
在二分类模型的评价指标中，我们一般使用 f1，recall，g-mean，accuracy等指
标。假设 TP 为正类被分为正类的样本数，TN 为负类被分为负类的样本数，FN 为
将正类误分为负类的样本数，FP 为将负类误分为正类的样本数。
下面我们来计算几种指标：
𝑇𝑃
𝑟𝑒𝑐𝑎𝑙𝑙 = (5.15)
𝑇𝑃 + 𝐹𝑁
(1 + 𝛽)2 · 𝑅𝑒𝑐𝑎𝑙𝑙 · 𝑃 𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

𝑓1 = (5.16)
𝛽 2 · 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃 𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
𝑇𝑃 + 𝑇𝑁
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (5.17)
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
√︂
𝑇𝑃 𝑇𝑁
𝑔 − 𝑚𝑒𝑎𝑛 = × (5.18)
𝑇𝑃 + 𝐹𝑁 𝑇𝑁 + 𝐹𝑃
30
5.6 实验结果及讨论
本文使用 𝑠𝑘𝑙𝑒𝑎𝑟𝑛 中的 𝑡𝑟𝑎𝑖𝑛 − 𝑡𝑒𝑠𝑡 − 𝑠𝑝𝑙𝑖𝑡 函数将经过特征选择后的特征矩

阵划分为 70% 的训练集和 30% 的训练集；然后在训练数据集上分别训练 KN-
N，SVM，CART 和基于 Softing Voting 的集成模型；最后将这四种训练好的模
型在测试集上测试其效果，得到的最终结果如下所示。
表 5-1 SMOTE 采样前四种分类方法的衡量指标结果
accuracy recall f1 g-mean

KNN 0.7893 0.6736 0.7432 0.7721
SVM 0.7641 0.6527 0.7148 0.7476
CART决策树 0.7861 0.7708 0.7655 0.7847
集成 0.8160 0.7222 0.7804 0.8033
表 5-2 SMOTE 采样后四种分类方法的衡量指标结果

KNN 0.8017 0.7672 0.7946 0.8009
SVM 0.7543 0.7557 0.7546 0.7543
CART决策树 0.7945 0.8017 0.7960 0.7945
集成 0.8261 0.8247 0.8258 0.8261
通过图 5-3 和表 5-1，我们可以看出 SMOTE 采样前，Soft Voting 集成分类器
在accuracy，f1 和 g-mean 三个评价指标上的值明显高于三种单一分类器，其值分

别为 0.8160，0.7804，0.8033。在分类指标 recall 上，CART 决策树的指标值最高，
为 0.7655，高于 Soft Voting 的集成算法，但是另外两种单一分类器的值确明显低
于集成分类器。由此可以得出，SMOTE 采样前，基于 Soft Voting 的集成分类算法

的分类效果要明显好于 KNN，SVM，CART 决策树这三种单一分类器，且泛化能
力较好。
同理，通过对图 5-4 和表 5-2 的分析可得，SMOTE 采样后，基于 Softing Voting
的集成分类器的分类效果最好，accuracy，recall，f1，g-mean 四种指标的值均高于
三种单一分类器，分别为 0.8216，0.8247，0.8258，0.8261。
31
图 5-3 SMOTE 采样前各分类器的分类结果对比
图 5-4 SMOTE 采样后各分类器的分类结果对比
综上，可以得出，不论是在 SMOTE 采样前还是在 SMOTE 采样后，基于

Softing Voting 的集成分类器的分类效果都要好于 KNN，SVM，CART 决策树三种
单一分类器。
32
表 5-3 SMOTE 采样前后集成分类器的分类结果对比

SMOTE采样前集成分类器 0.8160 0.7222 0.7804 0.8033
SMOTE采样后集成分类器 0.8261 0.8247 0.8258 0.8261
图 5-5 SMOTE 采样前后集成分类器的分类结果对比
通过对图 5-5 和表 5-3 的分析，可得 SMOTE 采样后集成分类器的四种分

类指标值均高于 SMOTE 采样前。其 accuracy，racall，f1，g-mean 的值分别为
0.8261、0.8247、0.8258、0.8261，相比于 SMOTE 采样前，分别增加了 0.0101、0.1025、
0.0454、0.0228，其中 recall 和 f1 的指标值显著增加。
5.7 本章小结
本章主要介绍了基于集成算法的分类器。首先介绍了三种单一分类器，分别为
KNN，SVM，CART 决策树；其次介绍了 Soft Voting 算法，如何根据该算法设计

一个集成分类器，以及 f1，recall，precision，accuracy 等模型评价指标；接下来使
用经过特征选择后的特征矩阵分别对四种分类器进行训练，其结果表明，基于 Soft
Voting 的集成分类器的分类效果要明显好于 KNN，SVM，CART 决策树这三种单
一分类器，从而可以得出集成分类器不仅保留了基分类器的优势，同时也提高了脑
33
电抑郁症识别的准确率；最后还比较了 SMOTE 采样前后集成分类器的分类指标，

得出 SMOTE 采样后集成分类器的分类效果要明显好于 SMOTE 过采样前。
34
第六章总结与展望
6.1 本文总结
本文通过特征选择和基于 Soft Voting 的集成模型来实现脑电抑郁识别。研究

对象为 24 名病人和 29 名正常人在内的一共 53 名被试的脑电数据，首先通过预处
理除掉脑电信号中包含的杂质，然后对预处理后纯净的脑电信号在线性和非线性这
两个方面提取了 11 个相关特征来进行后续的分类研究。最后对特征选择方法以及
单一分类模型和集成分类模型进行了研究，得出了相较于 KNN，SVM，CART 这
三种单一分类器，基于 Soft Voting 的集成分类器分类效果最佳。本文的主要工作
总结如下：
（1）首先介绍了脑电抑郁识别的研究背景和研究意义。抑郁障碍和大脑活动有
着紧密的联系，而脑电采集了大脑皮层中的电位活动，也就是记录了大脑的活动，
这为脑电技术检测抑郁障碍提供了事实依据。本文使用的数据为五分钟的静息态脑
电数据，考虑到检测效率，仅仅截取了 120 秒的脑电数据来进行后续的分析。

（2）对原始的脑电数据进行预处理，除掉其中包含的杂质，从而得到纯净的脑
电信号，然后提取了包括 4 个线性特征和 7 个非线性特征在内的一共 11 个脑电特
征，来进行后续的抑郁症识别。
（3）研究发现,人脑的前额叶与情感精神密切相关，而抑郁症又是一种精神类
疾病。于是挑出前额叶的 7 个脑电通道，分别为 E34、E27、E9、E2、E23、E18、E15
来研究抑郁症。首先对前额 7 个通道中的每一个分别提取 11 个特征，然后将所有
的特征直接拼接起来，形成一个 77 列的特征矩阵。针对该特征矩阵，进行特征选
择，其目的是在降低计算复杂度的同时去除冗余特征，从而选出重要特征。本文中
采用三种特征选择方法，分别为 K-S 检验，基于随机森林的特征选择和基于遗传算
法的特征选择，分别对特征进行选择，再使用特征投票得到最终的特征矩阵。
（4）由于抑郁病人的样本数明显少于正常人的样本数，当使用分类器进行分类
时，其结果会向着多数类倾斜，从而使得分类准确率变低。为了避免这种情况的发
35
生，于是使用 SMOTE 算法对特征矩阵进行过采样，使得特征矩阵中抑郁病人的样

本数和正常人的样本数量相等。最后使用分类算法分别对 SMOTE 过采样前的特
征矩阵和 SMOTE 过采样后的特征矩阵进行训练，通过对比最终结果我们得知在
本文的抑郁分类中 SMOTE 过采样算法有助于提高分类准确率。

（5）通过使用基于 Soft Voting 的集成分类算法，我们将 SVM，KNN，CART
三种基分类器结合成为一个集成分类器。使用基分类器和基于 Soft Voting 的集成
分类器对特征矩阵进行训练，通过比较最终的结果，得知基于 Soft Voting 的集成
分类器的分类效果最好，且要明显好于另外三种基分类器。
6.2 未来展望
本文在基于特征选择和集成分类的 EEG 抑郁症识别研究中取得了一定的成

果，通过特征选择和 Soft Voting 的集成分类算法提升了脑电抑郁识别的准确性。基
于特征选择和集成分类的抑郁症识别可进一步展开的研究有：
（1）虽然本文选取的特征选择算法和基于 Soft Voting 的集成分类算法在抑郁

症分类中取得了较高的分类准确率，由于数据类型的限制，本文选取的仅仅是脑电
信号，而对于可以识别抑郁症的其他生理信号未进行研究，且多模态抑郁症识别可
能会进一步提高抑郁症识别的准确率。
（2）本文用于抑郁症识别的脑电数据仅仅有 53 个，数据量太小，训练的模型
不具有代表性，希望在未来的研究中可以多采集一些脑电数据用于抑郁症识别。
（3）脑电是一种非常微弱的信号，其中包含着各种各样的杂质，如何从脑电信
号中提取到有效特征直接关系到分类结果的好坏，所以脑电信号中干扰信号的排除
至关重要，是以后脑电研究的重点。
36
参考文献
[1] Organization W. A system of health accounts 2011 revised edition: Revised

edition[M]. OECD Publishing, 2017, 14: 39-46.
[2] Lisspers J, Nygren A, Sderman E. Hospital anxiety and depression scale (HAD):
some psychometric data for a swedish sample[J]. Scand, 2010, 96(4): 281-286.
[3] Curran E A, Stokes M J, et al. Learning to control brain activity: a review

of the production and control of EEG components for driving Brain-Computer
Interface(BCI) System [J]. Brain and Cognition, 2003, 51(3): 326-336.
[4] Parvinnia E, Sabeti M, Jahromi M Z, et al. Classification of EEG signals using

adaptive weighted distance nearest neighbor algorithm[J]. Journal of King Saud
University-Computer and Information Sciences, 2014, 26(1): 1-6.
[5] Giannakopoulos P, Missonnier P, Gold G, et al. Electrophysiological markers of

rapid cognitive decline in mild cognitive impairment[J]. Dementia in Clinical
Practice, 2009, 24: 39-46.
[6] Hanshu C, Zhidiao Q, Zhe L, et al. Feature-Level fusion approaches based on
multimodal EEG data for depression recognition[J]. Information Fusion , 2020,

59: 127-138 .
[7] Hesam A, Muhammad T S, Ateeq U R, et al. Depression recognition based on

the reconstruction of phase space of EEG signals and geometrical features[J].
Applied Acoustics, 2021, 179: 1-16.
[8] Behshad H M, Rostami R. Classifying depression patients and normal subjects

using machine learning techniques and nonlinear features from EEG signal[J].
Computer Methods and Programs in Biomedicine, 2013, 109: 339-45.
37
[9] Acharya U R, Sudarshan V K, Adeli H, et al. A novel depression diagnosis

index using nonlinear features in EEG signals[J]. European Neurology, 2015,
74: 79-83.
[10] Liao S C, Wu C T, et al. Major depression detection from EEG signals using
kernel eigen-filter-bank common spatial patterns[J]. Sensors, 2017, 17: 1385.
[11] Bachmann M, Lass J, Hinrikus H. Single channel EEG analysis for detection
of depression[J]. Biomedical Signal Process Control, 2017, 31: 391-7.
[12] Sharma M, Achuth P, Deb D, et al. An automated diagnosis of depression

using three-channel bandwidth-duration localized wavelet filter bank with EEG
signals[J]. Cognitive Systems Research, 2018, 52: 508-20.
[13] Giri E P, Fanany M I, Arymurthy A M. Ischemic stroke identification based

on EEG and EOG using ID convolutional neural network and batch normaliza-
tion[J]. Advanced Computer Science and Information Systems(ICACSIS), 2016

International Conference on: IEEE , 2016, 484-91.
[14] Supratak A, Dong H, Wu C, et al. DeepSleepNet: a model for automatic

sleep stage scoring based on raw single-channel EEG[J]. IEEE Transactions on
Neural Systems and Rehabilitation Engineering, 2017, 25: 1998–2008.
[15] Xiaowei L, Rong L, Ying W, et al. A deep learning approach for mild depression
recognition based on functional connectivity using electroencephalography[J].

Frontiers in Neuroscience , 2019, 14: 192.
[16] Betul A, Ozal Y, Muhammed T, et al. Automated depression detection using

deep representation and sequence learning with EEG signals[J]. Journal of
Medical Systems , 2019, 43(7): 205.
38
[17] Acharya U R, Hagiwara Y, Tan J H, et al. Automated EEG-based screening

of depression using deep convolutional neural network [J]. Computer Methods
and Programs in Biomedicine, 2018, 161: 103-113.
[18] Shen E, Cai Z, Gu F. Mathematical foundation of a new complexity measure[J].
Applied Mathematics and Mechanics-English Edition, 2005, 26(9): 1188-1196.
[19] Pincus S M. Approximate entropy as a measure of system complexity[J]. Pro-
ceedings of the National Academy of Sciences, 1991, 88(6): 2297-2301.
[20] Shannon C E. A mathematical theory of communication[J]. Bell Systems

Technical Journal, 1948, 27(3): 379-423.
[21] Mitchell T M. Machine learning[J]. Burr Ridge, IL: McGraw Hill, 1997, 45(37):
870-877.
[22] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995,

20(3): 273-297.
[23] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.
[24] Freund Y, Schapire R E. A Decision-theoretic generalization of online learning

and an application to boosting[J]. Journal of Computer and System Sciences,
1997, 55(1): 119-139.
[25] David H W. Stacked generalization[J]. Neural Networks, 1992, 5(2): 241-259.
[26] 赵呈健. 基于脑电和语音信号的抑郁障碍识别研究[D]. 甘肃：兰州大学, 2021.
[27] Schirrmeister RT, Springenberg JT, et al. Deep learning with convolutional neu-
ral networks for EEG decoding and visualization[J]. Humman Brain Mapping,
2017, 38: 5391-420.
39
[28] Hajinoroozi M, Mao Z, Jung T, et al. EEG-based prediction of driver’s cognitive

performance by deep convolutional neural network[J]. Signal Process Image ,
2016, 47: 549-55.
[29] 王楚涵. 基于融合特征和集成分类的在线EEG情感识别系统研究[D]. 天津：天
津理工大学, 2021.
40
致谢
三年的研究生生活即将画上句号，回想起研究生的美好时光，留下了很多值得
回忆的事情。兰州大学在我心中一直是美丽而神圣的学府，这三年与兰大的相识相
知，如今更是恋恋不舍。在兰大攻读硕士期间，我不仅夯实了专业理论知识，而且
综合素质也得到了很大的飞跃。在这里，我认识了很多情同手足的同学，认识了很
多知识渊博，德高望重的老师。在此，我对他们表示衷心的感谢。
首先我要感谢我的老师焦桂梅副教授，这篇论文是在焦老师的悉心指导下完成
的。从论文的选题，写作到最后的修改，焦老师给了我很大的帮助和指导，这三年
的言传身教中，焦老师严谨的科研态度和富有创新精神的科研思维时时刻刻影响着
我，在此我向焦老师表示我衷心的感谢，感谢这三年您在学习上的悉心教诲与指导，
感谢这三年您在生活上无微不至的关心和照顾。感恩之情难以言表，谨在此向您表
达深深的感谢与崇高的敬意。
其次感谢同门以及同学们，在我论文的实验构思方面给予我的帮助，以及研究
生三年来在我的生活上和学习上的帮助，让我学会了勇敢的面对困难，以及带给我
的快乐和陪伴，让我研究生三年的科研生活不在枯燥，变得有趣。
最后感谢我的父母，漫漫人生路你们给予我的关心和帮助让我度过了一次又一
次的考验，谢谢你们，我永远爱你们。
张露
2022 年 3 月于兰州大学
41

基于特征选择和集成分类的EEG抑郁症识别研究 张露

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于特征选择和集成分类的EEG抑郁症识别研究 张露

Uploaded by

Copyright:

Available Formats

学校代码：10730

论文题目（中文） 基于特征选择和集成分类的 EEG

论文题目（外文） Research on EEG Depression Identification

Based on Feature Selection and

论文工作时段 2021 年 3 月 至 2022 年 4 月

accuracy，recall，f1，g-mean 值分别为 0.8216，0.8247，0.8258，0.8261。

Keywords: EEG, feature selection, Depression, Feature selection, Synthetic

5.3 CART 决策树分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5-4 SMOTE 采样后各分类器的分类结果对比 . . . . . . . . . . . . . . . 32

4-1 K-S 检验的结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

5-1 SMOTE 采样前四种分类方法的衡量指标结果 . . . . . . . . . . . . . 31

了一定的影响。研究人员通过利用脑电图 (EEG)，脑磁图 (MEG)，功能近红外光谱

常见的脑疾病有抑郁障碍、焦虑症、精神分裂症 [4] 、轻度认知障碍 [5] 等。抑郁症作

Hanshu Cai [6] 等通过融合来自负性刺激，中性刺激，正性刺激的不同脑电数据，

KNN，DT，SVM 分类器中，最高达到了 86.98% 的准确率。

于该图提取了 34 个几何特征。再通过优化算法选择显著的特征送进 SVM，KNN

KNN，LDA，LR 等分类器中，结果为当使用分形维数和 LR 分类器时得到了 83.3%

Acharya [9] 等提出了一个新颖的抑郁诊断指数 (DDI)，该文章结合脑电的非线

共空间模式 (KEFB-CSP)。该方法当仅使用 8 个电极的脑电信号时，在单次测试分

Sharma [12] 等采用带宽持续时间局域化三通道正交小波滤波器组来检测抑郁症，

Giri [13] 用 1D Convolutional Neural Network 模型分类中风病人和正常人。

XiaoWei Li [15] 等联合卷积神经网络和功能连接性矩阵，对抑郁症人群和正常人

Betul Ay [16] 等提出了一个深度混合模型来实现脑电抑郁的识别。该模型将卷

99.12%，左脑区抑郁识别的准确率达到 97.66%，说明 CNN-LSTM 模型在脑电抑郁

Acharaya [17] 将一个 13-layer 的 CNN 应用在脑电抑郁检测上，取得了很好的效

第四章：特征选择方法在 EEG 脑电信号分类中的应用。首先介绍了三种特征

基分类器；然后介绍了基于 Soft Voting 的集成分类算法；接着介绍了 accuracy

电的频率大致在 0.5 − 50Hz 之间，人们一般将脑电过滤为图 2-1 的几个频率段。

（3）𝛼 波段：频率在 8 − 13Hz 内，振幅是 20 − 100𝜇𝑉 。这一波段当人处于安

（5）𝛾 波段：频率为 30Hz 以上，幅值不太稳定。在脑电的 5 个频段内，该波

脑活动产生一定的影响，导致异常的脑部活动，我们可以通过 EEG 来追踪这些异

本文使用了一个公开的重度抑郁症患者的数据集，该数据集记录了 128 个脑电

(ECG)、肌电 (EMG)、运动伪迹、出汗等生理因素的干扰，在分析 EEG 时通常要

{𝑥 (𝑖) , 𝑖 = 1, 2, ..., 𝑛} . (3.5)

重构为以下的时间序列（该序列中 k 表示时间间隔，m 表示时间起点）：

估计的 Higuchi 分形维数可以通过下式计算：

（2）C0 复杂度：C0 复杂度由 Shen et [18] 等人提出，用来量化时间序列的复杂

其中 𝑋(𝑘) 是 𝑥(𝑛) 的傅里叶转化。使用 𝑋(𝑘) 和 𝑀 构造一个新的频谱如下：

通过计算傅里叶转化的逆 𝑌 (𝑘)(𝑦(𝑛))，则将 𝑥(𝑛) 的 C0 复杂度表示为：

其中 𝐴1 和 𝐴0 分别是 𝑥(𝑛) 的不规则成分和规则成分。

𝑋(𝑖) = [𝑥(𝑖), 𝑥(𝑖 + 𝜏 ), ..., 𝑥(𝑖 + (𝑚 − 1)𝜏 )]. (3.13)

上式中 𝑖 = 1, 2, ..., 𝑥(𝑖 + (𝑚 − 1)𝜏 ，X 是有 N 个数据点的时间序列信号，X 是 m 维

的向量。接下来，计算 𝑋(𝑖) 和 𝑋(𝑗) 之间的距离 𝐷[𝑋(𝑖), 𝑋(𝑗)]。

𝐷[𝑋(𝑖), 𝑋(𝑗)] = max [|𝑥(𝑖 + 𝑘 − 1) − 𝑥(𝑗 + 𝑘 − 1)|], (3.14)

其中 |.| 是欧式距离。接下来，对每个 i，i=1，2,...,N-m 分别计算 𝐶𝑖𝑚 (𝑟)，计算公式

𝑛𝑢𝑚𝑏𝑒𝑟𝑜𝑓 𝐷[𝑋(𝑖), 𝑋(𝑗)] ≤ 𝑟

其中 r 为 𝐷[𝑋(𝑖), 𝑋(𝑗)] 的阈值为 r。最后，近似熵 （ApEn) 被定义为下：

𝐴𝑝𝐸𝑛 = Φ𝑚 (𝑟) − Φ𝑚+1 (𝑟), (3.16)

（7）香农熵：Shannon [20] 1948 年在“A Mathematical Theory of Communica-

联系。根据以上表述，于是选择前额 7 导的脑电来研究抑郁症。在 128 导的脑电采

共 2120 个样本的脑电数据。本文选择了 4 个线性特征和 7 个非线性特征，对每个

Min-Max 标准化，Z-score 标准化，排序归一，分段归一等。本文使用了 MATLAB

第四章 特征选择方法在 EEG 脑电信号分类中的应用

算量同时也会影响模型的效果，所以需要从这 M 个变量中选择 N 个重要的变量

4.1 两样本的 K-S 检验

K-S 检验由柯尔莫科洛夫 （Kolmogorov) 和斯米洛夫 (Smirnov) 共同提出，并

一个样本的 K-S 检验用来判断样本的分布和某个特定的分布是否一致，而两独立

最大值。两样本的 K-S 检验通过计算该值来判断两组数据样本之间的差异性。其中

其中，n 为样本量，𝑋𝑖 为 X 的第 i 个样本点，𝐼[−∞,𝑥] (𝑋𝑖 ) 为示性函数：

首先设定 𝛼 为显著性水平，𝐷𝛼 为临界值；𝑛1 和 𝑛2 分别为两类样本的样本

𝐻0 : 𝐹1 (𝑥) = 𝐹2 (𝑥) 𝐻1 : 𝐹1 (𝑥) ̸= 𝐹2 (𝑥).

𝐷 = max |𝐹1 (𝑥) − 𝐹2 (𝑥)| . (4.3)

当 𝐷 < 𝐷𝛼 ，接受 𝐻0 ；当 𝐷 > 𝐷𝛼 ，拒绝 𝐻0 。

基于特征选择和集成分类的EEG抑郁症识别研究张露

基于特征选择和集成分类的EEG抑郁症识别研究张露

论文题目（中文）基于特征选择和集成分类的 EEG

论文工作时段 2021 年 3 月至 2022 年 4 月

其中 r 为 𝐷[𝑋(𝑖), 𝑋(𝑗)] 的阈值为 r。最后，近似熵（ApEn) 被定义为下：

第四章特征选择方法在 EEG 脑电信号分类中的应用

K-S 检验由柯尔莫科洛夫（Kolmogorov) 和斯米洛夫 (Smirnov) 共同提出，并

随机森林（Random Forests) 本质上属于集成学习，它是一种将多棵树集成在