Professional Documents
Culture Documents
基于特征选择和集成分类的EEG抑郁症识别研究 张露
基于特征选择和集成分类的EEG抑郁症识别研究 张露
分类号:O213 密级:公开
抑郁症识别研究
Ensemble Classification
作 者 姓 名 张露
类 型 领 域 应用统计
研 究 方 向 统计机器学习
教 育 类 型 学历教育
指 导 教 师 焦桂梅 副教授
合 作 导 师
论文答辩日期 2022 年 5 月
校址:甘肃省兰州市城关区天水南路 222 号
学 院 :
数 学 与 统 计 学 院 学 号 :
220 1 90 9 2 9 4 4 0
学 生 姓名 :
张 露 导 师 姓 名 : 焦桂 梅
—
: ::: ;
! ?
原 创 性 声 明
本 人郑 重 声 明 :
本 人 所呈 交 的 学 位 论 文 , 是 在 导 师 的 指 导 下 独 立进 行 研 宄 所
取得 的成果 。 学 位论文 中 凡 引 用 他人 己经 发表 或未 发表 的 成果 、 数据 、 观点 等
,
均 己 明 确注 明 出 处 。 除文 中 己经 注 明 引 用 的 内 容外 ,
不 包 含 任 何 其 他 个人 或 集 体
己 经 发表 或 撰 写 过 的 科 研 成 果 。 对 本 文 的 研 宄 成 果 做 出 重 要 贡 献 的 个人 和 集体
,
均 已 在 文 中 以 明 确 方 式标 明 。
.
本声 明 的法 律责 任 由 本人承 担
。
论文作者 签名 :
沐 日 期 :
丨
关 于 学 位论 文 使 用 授 权 的 声 明
本 人在 导 师 指 导 下 所 完 成 的 论 文 及 相 关 的 职 务 作 品 , 知 识产 权 归 属 兰 州 大
学 。
本 人 完 全 了 解兰 州 大学 有 关 保 存 、 使用 学 位论文 的 规定 ,
同 意 学 校 保 存或 向
国 家 有 关 部 门 或 机构 送交 论 文 的 纸 质 版 和 电 子 版 ,
允 许 论文被查 阅 和 借 阅 ;
本人
授 权兰 州 大 学 可 以 将 本 学 位 论 文 的 全 部 或 部 分 内 容 编 入 有 关 数 据 库 进行 检 索 ,
可
以 采用 任 何 复 制 手 段 保存 和 汇 编 本学 位 论 文 。 本人 离校后 发表 、
使 用 学 位 论文或
与 该 论 文 直 接 相 关 的 学 术 论 文 或 成果 时 ,
第
一
署名 单位仍 然为兰州 大学
。
本 学位论 文研 究 内 容
:
以公开
□ 不宜 公开 , 已 在 学 位 办 公室 办 理 保 密 申 请 ,
解密 后 适用 本 授 权书
。
请 在 以 上 选项 内 选 择 其 中
“ ”
项打
一
( V
)
论 文作者 签名 : 认 导
师
签 名
:
日
期
:
I
日
期
:
2
0
2
2 . L
)
基于特征选择和集成分类的 EEG 抑郁症识别研究
中文摘要
进入 21 世纪以来,随着社会经济的高速发展,人们的生活和工作压力逐渐增
大,从而使得焦虑症、精神分裂症、癫痫等精神类疾病的发生率大大增加。抑郁症
作为其中的一种,给患者以及家属的生活造成了严重的影响,所以急需针对该病寻
找高效的诊断和治疗方法。目前医生的诊断方法大多是让患者做量表,并同时询问
一些病人的情况,以此来对病人的状况做出大致的判断,然后再结合 ICD-10 抑郁
症的诊断标准给出比较准确的结果。该方法严重依赖于医生的专业水平,具有主观
性,没有通过具体的生理指标值和医学图像来量化抑郁。而脑电作为一种电生理技
术已经被广泛的应用在心理疾病的诊断中,以协助医生的临床诊断。
本文使用兰州大学 UAIS 实验室 2020 年公开的一批重度抑郁障碍患者的 128
导脑电数据,来对抑郁病人和正常人做一个二分类。首先对含有杂质的原始脑电信
号进行预处理,除掉其中包含的杂质,以此来得到纯净的脑电信号。同时为了减小
实验的复杂度,我们仅选取纯净的脑电信号中与抑郁联系比较紧密的前额 7 导,来
进行后续的分析。然后分别抽取每导包括线性特征和非线性特征在内的 11 个特征,
得到了由 77 个特征组成的特征矩阵。接下来对该特征矩阵使用三种特征选择方法,
即 K-S 检验,基于随机森林的特征选择和基于遗传算法的特征选择,来进行初步
的特征选择,并通过特征投票选出最终的特征。由于最终的特征矩阵中两个类别的
样本量不一样,于是又使用 SMOTE 过采样技术对该特征矩阵进行重采样,使得两
个类别的样本数量相等。最后将过采样后的特征矩阵输入到 KNN,SVM,CART
决策树分类器以及基于 Soft Voting 的集成分类器中进行分类。通过分析实验结
果可知,基于 Soft Voting 的集成分类器的效果要明显好于三种单一分类器,且
关键词:EEG,特征选择,抑郁症,集成模型,综合少数过采样技术
I
RESEARCH ON EEG DEPRESSION IDENTIFICATION
BASED ON FEATURE SELECTION AND
ENSEMBLE CLASSIFICATION
Abstract
Since the 21st century, with the rapid development of social economy, people’s
life and work pressure has gradually increased, thus greatly increasing the incidence
of anxiety, schizophrenia, epilepsy and other mental diseases. Depression, as one
of them, has had a serious impact on the lives of patients and their families, so we
urgently need to find efficient diagnosis and treatment for the disease. At present,
most diagnostic methods for depression are to ask patients to make scales and ask
some patients at the same time, so as to make a general judgment of the patient’s
condition, and then give more accurate results based with the diagnostic criteria of
ICD-10 depression. The method relies heavily on the professional level of expertise,
is subjective and does not quantify depression by specific physiological index values
and medical images. And EEG as an electrophysiological technology has been widely
used in the diagnosis of psychological diseases, to assist in the clinical diagnosis of
doctors.
In this thesis, we use 128 EEG data from a group of patients with major depres-
sive disorder published by the UAIS laboratory in 2020 to make a diccategorization
of depressed patients and normal people. First, we preprocessed the original EEG
signals containing the impurities and removed the contained impurities to obtain
the pure EEG. At the same time, in order to reduce the complexity of the experi-
ment, we only selected the pure EEG signal, the forehead 7, which is closely related
to depression, for the subsequent analysis. Then we extracted 11 features for each
II
guide including linear and nonlinear features separately, yielding a feature matrix
consisting of 77 features. Next, three feature selection methods for this feature ma-
trix, namely K-S test, feature selection based on random forest and feature selection
based on genetic algorithm, are used to perform preliminary feature selection, and
select the final features by feature voting. Since the sample sizes of the two cate-
gories in the final feature matrix are different, we also resampled the feature matrix
using the SMOTE oversampling technology, so that the number of samples of the
two classes is equal. Finally, we input the oversampled feature matrix into KNN,
SVM, CART decision tree classifier as well as the Soft Voting-based integrated clas-
sifier for classification. According to the experimental results, the Soft Voting-based
integrated classifier is significantly better than the single classifier, and the accuracy,
recall, f1, and g-mean values are 0.8216, 0.8247, 0.8258, 0.8261, respectively.
III
目 录
中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II
第一章 绪论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 研究背景和意义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 国内外研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 机器学习在脑电抑郁识别上的应用 . . . . . . . . . . . . . . . . 2
1.2.2 深度学习在脑电抑郁识别上的应用 . . . . . . . . . . . . . . . . 3
1.3 章节安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
第二章 脑电抑郁症检测理论基础 . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 脑电信号的产生 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 脑电信号与抑郁障碍 . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
第三章 脑电的预处理及特征提取 . . . . . . . . . . . . . . . . . . . . . . . 7
3.1 数据来源 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 脑电数据处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.2 脑电特征提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2.3 特征融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.4 特征归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
第四章 特征选择方法在 EEG 脑电信号分类中的应用 . . . . . . . . . . . 13
4.1 两样本的 K-S 检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 基于随机森林的特征选择 . . . . . . . . . . . . . . . . . . . . . . . . 15
IV
4.3 基于遗传算法的特征选择 . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3.1 遗传算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3.2 基于遗传算法的特征选择 . . . . . . . . . . . . . . . . . . . . . 18
4.4 特征投票 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.5 基于 SMOTE 算法的样本平衡 . . . . . . . . . . . . . . . . . . . . . 20
4.6 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
第五章 基于集成算法的分类器 . . . . . . . . . . . . . . . . . . . . . . . . 22
5.1 KNN 分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 SVM 分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 模型评价指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.6 实验结果及讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.7 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
第六章 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1 本文总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 未来展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
致 谢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
插图目录
2-1 脑电图的五个频率段 . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4-1 累积特征分类准确率曲线 . . . . . . . . . . . . . . . . . . . . . . . . 17
4-2 遗传算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5-1 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5-2 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5-3 SMOTE 采样前各分类器的分类结果对比 . . . . . . . . . . . . . . . 32
VI
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
表格目录
VII
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第一章 绪论
1.1 研究背景和意义
进入 21 世纪,焦虑症、精神分裂症、癫痫等精神类疾病的发生率大大的增加,
从而给大到国家层面小到每个家庭都带来了一定程度的影响,所以现在迫切需要针
对这些疾病提出高效的检测方法和治疗方案,从而减小这些影响。抑郁症作为此类
疾病中的一种,在人群中有着比较高的发生比例。世界卫生组织最近所作的一项调
查表明,全世界大概有 340 百万人遭受到不同程度的抑郁,同样中国的统计调查显
示中国公民中至少也存在着 2600 万 [1] 的患者。目前,抑郁症在影响人类的十大疾
病中排名第四,且根据目前的形势判断,该排名还会继续上升。
抑郁症又称作忧郁症或精神障碍,主要表现为经常性的心情低落,悲伤,严重
时甚至还会产生自杀行为 [2] 。根据医生的观察,抑郁症患者主要有以下特点:
(1)悲
伤,难过,失望等情绪经常交替出现,并时常感到孤独。
(2)老是责备或者怪罪自
己。
(3)有逃避行为,经常躲藏起来不愿意见人,甚至有自杀倾向。
(4)食欲缺乏,
经常性的失眠。
(5)反应迟缓,性格急躁,做事提不起兴趣。目前医生针对抑郁症的
诊断方法大多是让患者做量表,并同时询问一些病人的情况,以此来对病人的状况
做出大致的判断,然后再结合 ICD-10 抑郁症的诊断标准给出比较准确的结果。该
方法对医生的专业水平有着极高的要求,所需的时间也比较长。但是目前国内这方
面的医生数量比较少,且部分医生的专业水平还没有达标。由此可见该行业的供给
和需求之间存在着严重的不平衡,且想要短时间内解决这一问题基本不可能。此外
即使请专业的医生来对该病实施诊断,也可能因为病人自身的一些因素或者外界条
件,使得诊断结果不准确。因此,当下急需寻找更加高效且准确的方法,来诊断抑
郁症。
研究表明,抑郁症对病人精神上产生影响的同时,也对人体的组织和器官产生
1
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
技术来研究抑郁症,以此区分抑郁患者和正常人。
1.2 国内外研究现状
相比于磁共振成像(MRI)和功能性磁共振(fMRI)成像,EEG 的时间分辨率较
高,维护成本低且操作比较简单,所以被广泛使用。作为一种非侵入的技术,EEG
常被用于脑疾病的诊断和脑机接口 (BCI) 的研究等,得到了研究者的普遍关注 [3] 。
1.2.1 机器学习在脑电抑郁识别上的应用
在脑电抑郁识别领域,机器学习方法被大量使用,并且取得了良好的效果。对
于脑电数据,通常的做法是先提取有效的特征,然后将其输入到机器学习模型中进
行分类,以此来区分抑郁病人和正常人。
2
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
1.2.2 深度学习在脑电抑郁识别上的应用
深度学习是一个比较热门的研究方向,它属于机器学习的子邻域。最近几年,
深度学习技术得到了迅速的发展,并且在许多邻域都取得了巨大的成功,例如计算
机视觉,自然语言处理等。同样,通过深度学习技术来分析脑电数据同样也得到了
研究者的广泛关注 [13;14;17;27;28] 。
3
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
1.3 章节安排
本文每章主要内容介绍如下:
第一章:绪论。首先对脑电抑郁检测的研究背景及其意义进行了简要阐述;其
次分别介绍了机器学习方法和深度学习方法在国内外脑电抑郁检测方面的应用。
第二章:脑电抑郁障碍检测理论基础。首先介绍了大脑是如何产生脑电的,以
及脑电的采集过程;其次介绍了 𝛿,𝜃,𝛼,𝛽,𝛾 这 5 个频率段内脑电信号的特点;
最后介绍了使用脑电信号进行抑郁检测的依据。
第三章:脑电的预处理及特征提取。首先说明了本文使用的脑电数据的来源;
然后介绍了脑电信号的处理过程,通过预处理去除某些噪音和伪迹;最后进行特征
提取,特征融合和特征归一化。
了本文工作的不足之处以及如何针对不足之处进行改进进行了说明。
1.4 本章小结
本章首先说明了本文的研究背景和意义;其次分析了国内外研究现状,从而可
以大致看出脑电抑郁研究的热点问题;最后对本文的结构安排进行介绍。
4
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第二章 脑电抑郁症检测理论基础
现实生活中,抑郁症与人类的生活息息相关。作为一种精神类疾病,该病经常
表现为情绪低落,悲观厌世,记忆力下降等,其发作更是给抑郁病人以及亲属的正
常生活和工作带来了严重的影响。近些年来脑电这种技术被广泛的应用到抑郁症的
研究中,以协助医生更好的诊断和治疗抑郁症患者。本章主要介绍了脑电的相关知
识以及脑电与抑郁之间的联系。
2.1 脑电信号的产生
人的大脑皮层中包含着许多个神经元细胞,当大脑在活动时这些神经元之间相
互交换信息,于是就产生了电信号。这些电信号通常特别微弱,采集人员一般将电
极片放置在头皮来采集这些电信号,然后用一些特别精密的仪器将这些电信号放大
并且记录下来,就形成了脑电图。
脑电信号的采集分为嵌入式和非嵌入式两种方式,本文数据使用了非嵌入式采
集的方法,即在大脑皮层外侧,通过贴放电极片的方式,收集相应的脑电信号。脑
没有发育成熟;或者当成年人在比较劳累或者昏昏欲睡的时候,在顶叶和颞叶可采
集到。
(2)𝜃 波段:频率在 4 − 7Hz 内,振幅是 5 − 20𝜇𝑉 。它一般反映了人的精神状
态,经常在成年人疲惫不堪的状态下出现。
5
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
当人处于比较紧张的状态下,或者人的情绪波动比较大时,容易出现该波段。
图 2-1 脑电图的五个频率段
2.2 脑电信号与抑郁障碍
大脑的脑细胞之间通常以电波的形式交流,EEG 正好测量了大脑的这种电波
活动,所以是一种很好的方式来记录大脑活动。而抑郁症作为精神类疾病,会对大
2.3 本章小结
本章主要介绍脑电抑郁检测的理论基础。首先描述了脑电信号是如何产生的,
以及脑电图的形状,脑电频率的大致范围,在该频率范围内划分的 5 个频率段、每
个频率段的特点和相对应的波形图;其次介绍了脑电信号与抑郁障碍的关系。
6
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第三章 脑电的预处理及特征提取
3.1 数据来源
抑郁患者和正常被试中无明显的差异。重度抑郁症患者是由精神病学专家诊断和推
荐,来自于甘肃省兰州大学第二医院的住院患者和门诊患者。由于本文采用的数据
为静息态数据,其混杂着各种杂质,为了减弱杂质对最终结果的影响,需要将其通
过预处理的方式去除。
3.2 脑电数据处理
3.2.1 数据预处理
脑电是一种极其微弱的信号,其强度大概只有 50uV,研究人员一般从头皮直
接对其进行采集,且必须使用专业的设备。由于脑电信号很容易在此过程中被污
染,所以通过上述方法采集的脑电一般不太纯净,可能包含着一些杂质,如果直接
用于分析将会导致实验结果不准确。于是为了后续更好的分析,需要通过预处理来
除掉原始脑电中杂质。现在一般使用外带脑电帽的方式采集脑电,它是一种非侵入
式的方法。此方法采集到的脑电一般来说不太纯净,主要会受到眼电 (EOG)、心电
身体运动时,最容易出现运动伪迹,该伪迹极其不规律;额头部位的出汗伪迹最为
明显,通常出汗会改变导联的阻抗。非生理因素主要是 50HZ 的工频干扰。以下为
针对原始脑电信号进行预处理的步骤(在 EEGLAB 中实施):
(1)导入数据且定位电极:将脑电信号导入 EEGLAB 中,并通过该软件查看
7
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
脑电的波形,同时对脑电帽上的电极进行定位。
(2)重参考、滤波:在 EEGLAB 中,通过点击 Tools 下的 Re-reference 来选
择参考电极,这里选择 Cz。为了得到某个频率段的数据,我们将低通滤波设置为
1Hz,高通滤波设置为 40Hz。
(3)独立成分分析除去伪迹: ICA 是一种信号处理方法,但也被经常应用到生
物信号处理中。脑电信号中一般混杂着各种伪迹,例如眼电伪迹,心电伪迹,出汗
伪迹等等,本文中使用 ICA 方法来去除它们。该方法能分解出独立的脑电和伪迹
成分,然后将伪迹剥离,剩下的就是去除伪迹的脑电信号。
(4)剔除眼动成分:眼动包含眨眼,眼瞟,眼睛乱动等,一般使用 EEGLAB 中
的 adjust 插件去除。
3.2.2 脑电特征提取
通过上一节的预处理,得到了纯净的脑电信号,接下来要做的就是对该信号进
行相关特征的提取。通常情况会选择一些简单的线性特征,例如频率,功率谱,峰值
等,来对脑电信号进行分析。然而,许多研究表明 EEG 是一种非平稳的随机信号,
如果仅仅提取上述的线性特征,并不能囊括脑电中所包含的全部信息。因此,针对
每个通道抽取 4 个线性和 7 个非线性特征,来实现对抑郁病人脑电图信号的全面
分析。
1.线性特征
(1)均值:
𝑖=1
1 ∑︁
𝑀 𝑒𝑎𝑛 = 𝑥𝑖 . (3.1)
𝑛 𝑛
(2)标准差:
⎯
⎸ 𝑛
⎸ 1 ∑︁
𝑆𝐷 = ⎷ (𝑥𝑖 − 𝑢𝑥 ). (3.2)
𝑛 𝑖=1
(3)一阶差分均值:
𝑛−1
1 ∑︁
𝑀 𝑒𝑎𝑛𝐹 𝐷 = |𝑥𝑖+1 − 𝑥𝑖 | . (3.3)
𝑛 − 1 𝑖=1
8
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
(4)二阶差分均值:
𝑛−2
1 ∑︁
𝑀 𝑒𝑎𝑛𝑆𝑂𝐷 = |𝑥𝑖+2 − 𝑥𝑖 | . (3.4)
𝑛 − 1 𝑖=1
2.非线性特征
(1)Higuchi 分形维数:分形维数作为一种非线性特征,在脑电特征提取中被
广泛使用。计算过程如下所示:𝑥𝑖 是一个离散时间序列
下式代表新序列的长度:
⎧ ⃒ ⃒⎫
𝑖𝑛𝑡( 𝑁 −𝑚 ) ⃒⃒ ⃒
1
⎪
⎨ ∑︁ ⃒ 𝑥 (𝑚 + 𝑖𝑘) − ⃒⃒⎪
𝑘 ⎬ 𝑁 −1
𝐿𝑚 (𝑘) = ⃒ × 𝑁 −𝑚
. (3.7)
𝑘⎪
⃒
⎩ 𝑖=1 ⃒⃒𝑥 (𝑚 + (𝑖 − 1)𝑘)⃒⃒⎪⎭ 𝑖𝑛𝑡( 𝑘 )
则该序列的平均长度为:
𝑘
1 ∑︁
𝐿 (𝑘) = 𝐿𝑚 (𝑘) . (3.8)
𝑘 𝑚=1
𝐼𝑛 (𝐿(𝑘))
𝐷= . (3.9)
−𝐼𝑛 (𝑘)
9
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
该序列越趋向于是周期序列,复杂度也就越低。
(4)近似熵:由 Pincus 等人 [19] 在 1991 年提出,是一种量化时间序列信号不可
预测性比例的算法。近似熵值越大,时间序列越不规则。首先,给定一个时间 𝑋(𝑛),
它有 N 个数据点,一个新的向量 𝑋(𝑖) 通过下式构造,其中假设 𝜏 = 1:
如下:
10
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
其中 Φ𝑟𝑚 的计算方式如下:
𝑁 −𝑚−1
1 ∑︁
Φ𝑟𝑚 = 𝑙𝑛(𝐶𝑖𝑚 (𝑟)). (3.17)
𝑁 − 𝑚 − 1 𝑖=1
(5)谱熵:谱熵是一种信息熵,它也度量了信号的复杂程度。谱熵越小,信号
复杂程度越小;谱熵越大,信号复杂程度越大。
(6)SVDen 单值分解熵:奇异熵表示当信号处于奇异频谱划分的状态时,其信
号能量不确定性的大小。奇异熵值越小,信号的种类越单一;奇异熵值越大,信号
种类越多,即越复杂。
3.2.3 特征融合
抑郁症是一种很常见精神类疾病,它与人类情感密切相关。一些研究显示,当
人类的情绪变化时,前额脑区的脑电波也会发生变化,所以两者之间存在着紧密的
3.2.4 特征归一化
本文选取了 11 种不同的脑电特征,且每种特征之间的量纲和数量级都不同。
在一些模型中,例如 SVM,特征的数量级对模型的结果影响较大,数值较大的特
11
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
征影响大,数值较小的特征影响小。如果直接用这些特征进行下一步的分析,将会
得到不太准确的结果。为了使机器学习模型得到准确的结果,需要对特征进行归一
化处理以使得每个特征都具有相同的量纲和数量级。归一化的方法有许多种,例如
3.3 本章小结
本章主要介绍了脑电信号的预处理及特征提取。首先介绍了本文所使用的脑电
数据的来源;其次是脑电信号的处理,先通过预处理除去脑电信号中混含的杂质;
然后选择前额 7 导的脑电,分别对每个导联提取 4 个线性特征和 7 个非线性特征,
将其直接拼接成一个 77 列的特征矩阵;最后对每列特征对其进行归一化,使其取
值处于 [-1,1]。
12
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
特征选择又称属性选择,或者特征子集选择。它主要用来对高维特征进行降维,
从而提高模型的效率。该方法的主要思想是:假设原始数据中包含了 M 个特征,其
中可能会存在一些与响应变量无关的冗余变量,这些冗余变量的存在不光会增加计
令原假设和备择假设分别为:
13
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
际统计量计算得到的,经常被用于衡量某种假设的有效性。它的原理是:首先设定
𝛼 为临界值,然后随机从总体中抽取一个样本,算出该样本统计量的 𝑝 值,如果
𝑝 < 𝛼,则拒绝原假设,认为结果显著。如果 𝑝 > 𝛼,则接受原假设,认为结果不显
据样本计算出的检验统计量的值)
左侧相容性检验:𝐻0 : 𝑢 ≥ 𝑢0 , 𝐻1 : 𝑢 < 𝑢0 。其计算公式如下:
双侧相容性检验:𝐻0 : 𝑢 = 𝑢0 , 𝐻1 : 𝑢 ̸= 𝑢0 。其计算公式如下:
的所有不显著特征,分别为 V27-V33,V54-V57,V59-V61,V70,V72-V75。
14
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
特征 D值 𝑝值 不显著程度
V27 0.0667 0.0174 *
V28 0.0506 0.1289 *
V29 0.0436 0.2601 *
V30 0.0384 0.4068 *
V31 0.0209 0.9710 −
V32 0.0262 0.8497 −
V33 0.0366 0.4685 −
V54 0.0595 0.0455 *
V55 0.0135 0.9999 −
V56 0.0251 0.8832 −
V57 0.0354 0.5095 −
V59 0.0644 0.0241 +
V60 0.0432 0.2688 −
V61 0.0293 0.7416 −
V70 0.0548 0.0806 +
V72 0.0318 0.6453 −
V73 0.0582 0.0535 +
V74 0.0529 0.1002 −
V75 0.0512 0.1207 −
注:* * * 表示 0 < 𝑝 < 0.001,** 表示 0.001 < 𝑝 < 0.01,* 表示 0.01 < 𝑝 <
4.2 基于随机森林的特征选择
进行分类,首先我们建立多棵彼此之间相互独立的决策树,然后用集成学习的思想
将它们组合在一起,来进行预测。
基于随机森林的特征选择是一种封装式的特征选择算法,该算法将 GINI 指数
贡献度作为衡量变量重要性的工具,来对变量进行特征选择。该方法在高维数据的
15
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
特征选择领域,被广泛使用。其思想为:对每个特征计算其在每棵树上的 GINI 指
数,作为特征贡献度,然后将所有树上求得的特征贡献度做一个平均,即为该特征
在随机森林上的重要度。本文分别计算 77 个脑电特征在随机森林上的基尼指数,
𝐺𝑖𝑛𝑖
𝑉 𝐼𝑀𝑗𝑚 = 𝐺𝐼𝑚 − 𝐺𝐼𝑙 − 𝐺𝐼𝑟 , (4.8)
∑︁
𝑉 𝐼𝑀𝑖𝑗𝐺𝑖𝑛𝑖 = 𝐺𝑖𝑛𝑖
𝑉 𝐼𝑀𝑗𝑚 . (4.9)
𝑚∈𝑀
则 𝑋𝑗 在随机森林中的重要性为:
𝑛
1 ∑︁
𝑉 𝐼𝑀𝑗𝐺𝑖𝑛𝑖 = 𝑉 𝐼𝑀𝑖𝑗𝐺𝑖𝑛𝑖 , (4.10)
𝑛 𝑖=1
其中,𝑛 为构成随机森林的树的个数。
特征优先级为:16,15,19,1,1,1,1,1,1,4,1,1,1,1,1,1,1,1,1,1,1,9,22,
25,1,1,13,18,20,17,11,24,21,26,23,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,33,29,31,30,28,32,27,2,1,8,1,6,5,3,1,1,1,7,14,10,12。
16
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
图 4-1 累积特征分类准确率曲线
V50,V52,V53,V58,V60,V61,V62,V64,V66,V68,V69,V72,V74。
4.3 基于遗传算法的特征选择
4.3.1 遗传算法
在组合优化,人工生命,机器学习等领域。在生物学中,达尔文将自然界的进化机
制总结为“适者生存,不适者淘汰”,遗传算法就是通过模拟这一机制设计而来。选
择,交叉,变异构成了该方法的基本操作。
遗传算法的主要步骤为(如图 4-2):
第一,初始化。初始种群一般都是随机生成的。
17
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第二,个体评价。适应度函数选取的好坏直接影响对个体进行评价的有效性。
我们将适应度值做为评价个体好坏的标准,该标准为个体的适应度值越大则该个体
越优秀。
第三,选择运算。降序排列群体中所有个体的适应度值,再确定一个合适的阈
值,将适应度值低于阈值的个体删除,则留下的都是我们选出的优秀的个体。
第四,交叉运算。将上一步选出的个体进行两两间的交叉操作,从而生成新的
个体。通过交叉操作,极大的提高了遗传算法搜索最优解的能力。
第五,变异运算。针对某个个体,将其某个部位的基因值做一些变动。
第六,终止条件判断。算法在迭代过程中,一旦符合终止条件,就会自动终止。
在实际情况中,终止条件的设定应该具体问题具体分析。
图 4-2 遗传算法
4.3.2 基于遗传算法的特征选择
(1)特征子集的生成:首先随机生成一组特征,将其作为初始特征子集,然后
在该子集的的基础上进行选择,交叉,变异等一系列操作,从而生成一个新的特征
18
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
子集。
(2)评价特征子集:评价特征子集最重要的一点就是确定一个合适的适应度
函数。本文的抑郁识别是一个二分类问题,我们以 lightGBM 为分类器来对脑电分
类,并将分类准确率作为适应度函数。在对特征子集进行评价时,其分类准确率越
高,说明该特征子集越好。
(3)终止搜索判断:从群体的进化情况来判断搜索是否需要继续。经常使用的
判断依据有个体适应度是否达到目标值,遗传代数是否达到设定的最大数,进化是
否已经停滞。
(4)特征子集的性能测试:也就是判断某个特征子集的质量。通常的做法是
将最终得到的特征子集输入到分类器中,用分类准确率的高低来判断特征子集的质
量。
该方法选择出的特征为:V2,V3,V5,V9,V11,V12,V14,V15,V17-V19,V22-
V23,V25,V27,V31,V33-V35,V38,V40,V41-V45,V47,V49,V50,V52,V53,V-
58,V60,V61,V62,V64,V66,V68,V69,V72,V74。
4.4 特征投票
本文所使用的三种特征选择方法都有各自的优势和劣势,在进行特征选择时,
所选出的特征不尽相同。为了避免出现上述这种不稳定的现象,于是对这三种方法
选出来的特征,实施特征投票。其规则为:对某个特征记一次投票当且仅当该特征
被三种方法中的某一种选择过一次,针对上述三种方法选出的结果,我们将投票次
数为 2 或者 3 的特征列入最终入选名单。最后进入最终入选名单的特征有 54 个,
分别为:V2-V26,V34-V58,V62-V64,V66-V69,V71-V72。
三种特征选择方法分别选择的特征列表如 4-2 所示:
19
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
表 4-2 三种特征选择方法选择的特征
特征选择方法 选择的特征
特征密度比较及 K-S 检验 V1-V26,V34-V53,V58,V62-V71,V76,V77
基于随机森林的特征选择 V4-V9,V11-V20,V21,V25,V26,V36-V40,V41-V50,V52,
V53,V58,V60,V61,V62,V64,V66,V68,V69,V72,V74
基于遗传算法的特征选择 V2,V3,V5,V9,V11,V12,V14,V15,V17-V19,V22-V23,
V25,V27,V31,V33-V35,V38,V40,V41-V45,V47,V49,
V50,V52,V53,V58,V60,V61,V62,V64,V66,V68,V69,
V72,V74
类别不平衡问题。该算法被广泛应用于工业届和学术界,其大致思想为:在二分类
问题中,当遇到多数类和少数类样本量不均衡的情况时,为了增加少数类的样本量,
对其进行插值,以使得两类样本数达到均衡。该算法流程为算法 4.1 所示:
20
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
4.6 本章小结
本章介绍了特征选择方法在脑电信号分类中的应用。首先介绍了三种特征选择
方法,分别为两样本的 K-S 检验,基于遗传算法的特征选择,基于随机森林的特征
选择;然后介绍了特征投票的原理;最后介绍了 SMOTE 过采样算法。
21
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第五章 基于集成算法的分类器
最简单也最常用的算法之一,它既可以用作分类,也可以用作回归。KNN 的原理是
当给出一个新的样本点 X 时,找出离它最近的 K 个点,根据这 K 个点的类别来判
断点 X 的类别。KNN 分类算法简单易用,且训练速度较快。该算法如算法 ?? 所
示,K 的大小决定了图中绿色圆圈的类别。
图 5-1 KNN
影响 KNN 分类器分类效果好坏的三个因素:
(1)K 值的选择问题
22
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
K 值是 KNN 分类器的一个重要参数,它的大小对分类结果产生了极为重要的
影响。K 值是影响 KNN 分类效果好坏的一个重要因素,如果 K 值过小,即使用
预测样本周围小范围内的样本进行学习,此时结果会对这些小范围内的样本比较敏
感,当小范围内的样本是噪音时,预测就会出错;如果 K 值过大,也会出现误差,
例如当 K 取为样本量大小时,预测样本将会被分为多数类,这样的分类也就没有了
意义。一般情况下,我们会给 K 取较小的值。
(2)距离度量问题
对于样本 𝑥𝑖 = (𝑥𝑖1 ; 𝑥𝑖2 ; ...; 𝑥𝑖𝑚 ) 和样本 𝑥𝑗 = (𝑥𝑗1 ; 𝑥𝑗2 ; ...; 𝑥𝑗𝑚 ),测量它们之间
距离的方法有很多种,比如下述三种:
欧式距离
⎯
⎸ 𝑛
⎸∑︁
𝑑 (𝑥, 𝑦) = ⎷ (𝑥𝑖 − 𝑦𝑖 )2 (5.1)
𝑖=1
曼哈顿距离
𝑛
∑︁
𝑑 (𝑥, 𝑦) = |𝑥𝑖 − 𝑦𝑖 | (5.2)
𝑖=1
闵可夫斯基距离
(︃ 𝑛
)︃ 𝑝1
∑︁
𝑑 (𝑥, 𝑦) = |𝑥𝑖 − 𝑦𝑖 |𝑝 (5.3)
𝑖=1
(3)分类决策规则
KNN 的分类决策规则一般为多数投票表决,其思想大致为:给定一个样本空
间,需要对 X 的类别进行预测,于是我们找到 X 的 K 个近邻,这 K 个近邻中的多
数类别即为 X 的类别。
是一种监督学习算法,经常被用于处理二分类问题。该方法的基本思想是:在给定
23
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
样本实例的情况下,首先将其映射为特征空间中的一些点,从而分类样本实例的目
标也就转化成了在特征空间中寻找分离超平面来分类这些点的过程。选取的超平面
不仅可以将这些点分开,而且这些点到该平面的距离尽可能大。
图 5-2 SVM
假设我们的分离超平面可以用
𝑤·𝑥+𝑏=0 (5.4)
来表示,如果样本数据是线性可分的,那么该数据在特征空间中将会有很多个分离
超平面,但是使得样本的所有点到平面距离最大的却只有一个,这就是 SVM 的思
想。
设我们所研究的数据集为 𝑇 = (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑁 , 𝑦𝑁 ),其中 𝑥𝑖 ∈ 𝑅𝑛 , 𝑦𝑖 ∈
{+1, −1} , 𝑖 = 1, 2, ..., 𝑁。假设该数据集线性可分,首先给出以下几个定义。
(︁ )︁
几何间隔的定义为:𝛾𝑖 = 𝑦𝑖 ‖𝑤‖ · 𝑥𝑖 + ‖𝑤‖ .
𝑤 𝑏
max 𝛾,
𝑤,𝑏
(︂ )︂ (5.5)
𝑤 𝑏
𝑠𝑡.𝑦𝑖 𝑥𝑖 + ≥ 𝛾, 𝑖 = 1, 2, ..., 𝑁.
‖𝑤‖ ‖𝑤‖
24
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
然后将上述式子转化为约束最优化问题:
1
min ‖𝑤‖2 ,
𝑤,𝑏 2 (5.6)
𝑠.𝑡.𝑦𝑖 (𝑤 · 𝑥𝑖 + 𝑏) ≥ 1, 𝑖 = 1, 2, ..., 𝑁.
综上,可将支持向量机总结为算法 5.2:
输入:
𝑖=1 ,其中 𝑥𝑖 ∈ R ,𝑦𝑖 ∈ {+1, −1},i=1,2,...,N
训练数据集 {(𝑥𝑖 , 𝑦𝑖 )}𝑁 𝐷
输出:
分离超平面和分类决策函数
主体算法:
𝑁 𝑁 𝑁
1 ∑︁ ∑︁ ∑︁
min 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 (𝑥𝑖 𝑥𝑗 ) − 𝛼𝑖
𝛼 2
𝑖=1 𝑗=1 𝑖=1
𝑁
∑︁
𝑠.𝑡. 𝛼𝑖 𝑦 𝑖 = 0
𝑖=1
0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1, 2, ..., 𝑁
得到最优解
𝛼𝑖 = (𝛼1* , 𝛼1* , ..., 𝛼1* )𝑇
计算 𝑤* = 𝑁 *
∑︀
2: 𝑖=1 𝛼𝑖 𝑦𝑖 𝑥𝑖
选择 𝛼𝑖 的一个分量 𝛼𝑗* 满足条件 0 < 𝛼𝑗* < 𝐶,计算
𝑏* = 𝑦 𝑗 − 𝑁 *
∑︀
𝑖=1 𝛼𝑖 𝑦𝑖 (𝑥𝑖 𝑥𝑗 )
常情况下,分类器的分类效果直接受核函数的影响,所以针对不同分类问题,应该
选取适当的核函数。下面介绍几种常见的核函数:
25
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
(1)高斯核函数
(︃ )︃
‖𝑥 − 𝑦‖2
𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝 − , (5.7)
2𝜎 2
其中 𝜎 ≥ 1 为带宽。
(2)多项式核函数
其中,𝑑 ≥ 1 是多项式的次数。
(3)拉普拉斯核函数
‖𝑥 − 𝑦‖
𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝(− ). (5.9)
𝜎
(4)线性核函数
𝐾(𝑥, 𝑦) = 𝑥𝑇 𝑦. (5.10)
决策树是一种比较常用的预测模型,经常被用于处理分类问题。决策树算法相
对来说比较简单,它通过对样本数据的训练,将特征和类别之间的关系表示出来,就
形成了一颗决策树。决策树算法有很多种,其中最常见的有 ID3,C4.5,CART 等。
它们经常被用作许多集成算法 (Random Forest、Adaboost、xgboost、lightGBM) 的
26
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第二种为:
𝑘
∑︁ 𝑘
∑︁
𝐺𝑖𝑛𝑖(𝑝) = 𝑝𝑘 (1 − 𝑝𝑘 ) = 1 − 𝑝𝑘 2 , (5.12)
𝑘=1 𝑘=1
输入:
训练数据集 D
停止计算条件
输出:
CART决策树
主体算法:
1: 在数据集 𝑆 中,针对所有的特征和可能切分点,计算其基尼指数,并排序。例
如,对于特征 A,以 A=𝑎𝑖 为切分点,可将 𝑆 分为 𝑆1 和 𝑆2 两部分。则 𝐴 = 𝑎𝑖
时的基尼指数可以通过 𝐺𝑖𝑛𝑖(𝑆|𝐴) 计算。
2: 从上一步排好序的基尼指数中选出值最小的。以该最小值对应的特征和切分点
为依据,将数据集分配到切分出来的两个子节点上。
3: 重复步骤 1 和 2,直到达到停止计算条件。
4: 生成一棵 CART 决策树。
KNN,SVM,CART 决策树三种基分类器集成在一起用于分类。
27
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
集成学习又可以称为分类器集成,它使用某种策略,例如平均法和投票法,将
多个弱学习器组合在一起,以期得到一个更强的分类器,来完成学习任务。对于集
成学习,主要将其分为以下三类:
(1)Bagging 算法:属于最简单的一类集成算法,由 Breiman 在二十世纪九十
年代提出。该方法既可用于分类又可用于回归,基本思想是:首先在原数据集的基
型计算样本属于某一类的概率,然后对这些值取一个平均,选出概率最高的类别,
即为该样本的最终类别。
假设 𝑋 = 𝑥1 , 𝑥2 , ..., 𝑥𝑛 为输入样本,𝐶 = 𝑐1 , 𝑐2 , ..., 𝑐𝑛 为输入样本对应的类别标
签,选择 T 个基分类器对某个样本进行预测,其结果分别为 (ℎ1 , ℎ2 , ..., ℎ𝑇 )。将 T
∑︀𝑇 𝑗
𝐻(𝑥) = 𝐶𝑎𝑟𝑔𝑚𝑎𝑥 𝑖=1 𝑤𝑖 ℎ𝑖 (𝑥) , (5.14)
𝑗
28
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
算法 5.4所示:
算法 5.4 Soft Voting算法
输入:
训练集 𝐷 = {(𝑥1 , 𝑦1 ) , (𝑥2 , 𝑦2 ) , ..., (𝑥𝑛 , 𝑦𝑛 )};
′
测试集 𝐷 = {𝑥1 , 𝑥2 , ..., 𝑥𝑚 };
KNN 𝜁1 ;SVM 𝜁2 ;CART 𝜁3
输出:
𝐻(𝑥) = ℎ1 × 𝛼1 + ℎ2 × 𝛼2 + ℎ3 × 𝛼3 ;
主体算法:
1: for 𝑡 = 1, 2, ..., 𝑛 do
𝛼1 = 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝜁1 (𝐷))
𝛼2 = 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝜁2 (𝐷))
𝛼3 = 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝜁3 (𝐷))
2: end for
3: for 𝑖 = 1, 2, ..., 𝑚 do
ℎ1 = 𝜁1 (𝐷′ )
ℎ2 = 𝜁2 (𝐷′ )
ℎ2 = 𝜁3 (𝐷′ )
因此便于实时输出准确率。
5.4.2 集成分类器的设计
由于不同的抑郁症患者之间具有很大的差异性,于是我们要求分类模型不仅具
有较强的分类能力,同时也应具备较强的泛化能力。
KNN 模型的优点是时间复杂度低,分类效果较好且对异常点不是很敏感。即
使在类别之间有交叉时也可以取得较好的分类效果。缺点是有着高的空间复杂度,
当遇到样本类别不平衡的情况时,分类效果不是很好。
SVM 属于小样本学习,该方法有很扎实的理论基础,同时泛化能力比较强,所
以是一种很常用算法。在分类问题中,当遇到线性不可分的情况时,一般会使用核
函数,将其映射到较高维的空间中进行分类。核函数的选取至关重要,直接影响着
29
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
SVM 分类性能的好坏,所以针对不同的分类问题,应选取适当的核函数。但是目
前,仍然没有找到较好的方法来解决这一问题,核函数的选取是人为的根据经验进
行的,具有很大的随机性。所以 SVM 分类器也具有很大的局限性。
CART 决策树的优点是简单直观,可解释性强的同时又对异常点不太敏感;缺
点是该算法的结构不太稳定,且比较容易发生过拟合现象;仅能学习一些简单的关
系,当遇到异或这种复杂的关系时,决策树学习起来就比较困难了;最优决策树的
寻找也比较困难,当使用启发式的方法来搜寻时,很容易陷入局部最优。
考虑到实验对象的个体差异性,需同时提高模型的分类能力和泛化能力。通过
集成学习将几种不同的基分类器组合起来,最终的分类效果是模型的分类准确率提
高了,同时泛化能力也提高了。本文使用 Soft Voting 算法将 KNN,SVM 和 CART
这三种分类器的预测结果集成在一起,从而得到最终的结果。
5.5 模型评价指标
在二分类模型的评价指标中,我们一般使用 f1,recall,g-mean,accuracy等指
标。假设 TP 为正类被分为正类的样本数,TN 为负类被分为负类的样本数,FN 为
将正类误分为负类的样本数,FP 为将负类误分为正类的样本数。
下面我们来计算几种指标:
𝑇𝑃
𝑟𝑒𝑐𝑎𝑙𝑙 = (5.15)
𝑇𝑃 + 𝐹𝑁
𝑇𝑃 + 𝑇𝑁
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (5.17)
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
√︂
𝑇𝑃 𝑇𝑁
𝑔 − 𝑚𝑒𝑎𝑛 = × (5.18)
𝑇𝑃 + 𝐹𝑁 𝑇𝑁 + 𝐹𝑃
30
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
5.6 实验结果及讨论
型在测试集上测试其效果,得到的最终结果如下所示。
的集成分类器的分类效果最好,accuracy,recall,f1,g-mean 四种指标的值均高于
三种单一分类器,分别为 0.8216,0.8247,0.8258,0.8261。
31
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
单一分类器。
32
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
5.7 本章小结
本章主要介绍了基于集成算法的分类器。首先介绍了三种单一分类器,分别为
一分类器,从而可以得出集成分类器不仅保留了基分类器的优势,同时也提高了脑
33
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
34
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
第六章 总结与展望
6.1 本文总结
两个方面提取了 11 个相关特征来进行后续的分类研究。最后对特征选择方法以及
单一分类模型和集成分类模型进行了研究,得出了相较于 KNN,SVM,CART 这
三种单一分类器,基于 Soft Voting 的集成分类器分类效果最佳。本文的主要工作
总结如下:
(1)首先介绍了脑电抑郁识别的研究背景和研究意义。抑郁障碍和大脑活动有
着紧密的联系,而脑电采集了大脑皮层中的电位活动,也就是记录了大脑的活动,
这为脑电技术检测抑郁障碍提供了事实依据。本文使用的数据为五分钟的静息态脑
(3)研究发现,人脑的前额叶与情感精神密切相关,而抑郁症又是一种精神类
疾病。于是挑出前额叶的 7 个脑电通道,分别为 E34、E27、E9、E2、E23、E18、E15
来研究抑郁症。首先对前额 7 个通道中的每一个分别提取 11 个特征,然后将所有
的特征直接拼接起来,形成一个 77 列的特征矩阵。针对该特征矩阵,进行特征选
择,其目的是在降低计算复杂度的同时去除冗余特征,从而选出重要特征。本文中
采用三种特征选择方法,分别为 K-S 检验,基于随机森林的特征选择和基于遗传算
法的特征选择,分别对特征进行选择,再使用特征投票得到最终的特征矩阵。
(4)由于抑郁病人的样本数明显少于正常人的样本数,当使用分类器进行分类
时,其结果会向着多数类倾斜,从而使得分类准确率变低。为了避免这种情况的发
35
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
分类器的分类效果最好,且要明显好于另外三种基分类器。
6.2 未来展望
(2)本文用于抑郁症识别的脑电数据仅仅有 53 个,数据量太小,训练的模型
不具有代表性,希望在未来的研究中可以多采集一些脑电数据用于抑郁症识别。
(3)脑电是一种非常微弱的信号,其中包含着各种各样的杂质,如何从脑电信
号中提取到有效特征直接关系到分类结果的好坏,所以脑电信号中干扰信号的排除
至关重要,是以后脑电研究的重点。
36
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
参考文献
[2] Lisspers J, Nygren A, Sderman E. Hospital anxiety and depression scale (HAD):
some psychometric data for a swedish sample[J]. Scand, 2010, 96(4): 281-286.
37
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
[10] Liao S C, Wu C T, et al. Major depression detection from EEG signals using
[11] Bachmann M, Lass J, Hinrikus H. Single channel EEG analysis for detection
[15] Xiaowei L, Rong L, Ying W, et al. A deep learning approach for mild depression
38
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
[21] Mitchell T M. Machine learning[J]. Burr Ridge, IL: McGraw Hill, 1997, 45(37):
870-877.
[27] Schirrmeister RT, Springenberg JT, et al. Deep learning with convolutional neu-
ral networks for EEG decoding and visualization[J]. Humman Brain Mapping,
2017, 38: 5391-420.
39
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
津理工大学, 2021.
40
兰州大学硕士学位论文 基于特征选择和集成分类的 EEG 抑郁症识别研究
致 谢
三年的研究生生活即将画上句号,回想起研究生的美好时光,留下了很多值得
回忆的事情。兰州大学在我心中一直是美丽而神圣的学府,这三年与兰大的相识相
知,如今更是恋恋不舍。在兰大攻读硕士期间,我不仅夯实了专业理论知识,而且
综合素质也得到了很大的飞跃。在这里,我认识了很多情同手足的同学,认识了很
多知识渊博,德高望重的老师。在此,我对他们表示衷心的感谢。
首先我要感谢我的老师焦桂梅副教授,这篇论文是在焦老师的悉心指导下完成
的。从论文的选题,写作到最后的修改,焦老师给了我很大的帮助和指导,这三年
的言传身教中,焦老师严谨的科研态度和富有创新精神的科研思维时时刻刻影响着
我,在此我向焦老师表示我衷心的感谢,感谢这三年您在学习上的悉心教诲与指导,
感谢这三年您在生活上无微不至的关心和照顾。感恩之情难以言表,谨在此向您表
达深深的感谢与崇高的敬意。
其次感谢同门以及同学们,在我论文的实验构思方面给予我的帮助,以及研究
生三年来在我的生活上和学习上的帮助,让我学会了勇敢的面对困难,以及带给我
的快乐和陪伴,让我研究生三年的科研生活不在枯燥,变得有趣。
最后感谢我的父母,漫漫人生路你们给予我的关心和帮助让我度过了一次又一
次的考验,谢谢你们,我永远爱你们。
张露
2022 年 3 月于兰州大学
41