Professional Documents
Culture Documents
第11章 特征选择和稀疏学习
第11章 特征选择和稀疏学习
(南瓜书)
第11章 特征选择和稀疏学习
本节主讲:秦州
本节大纲
必要性:
1. 解决维数灾难的问题,和降维技术一起都是解决维数灾难的主流技术
2. 降低下游模型的学习难度
概念:
特征选择中所谓的“无关特征”是指与当前学习任务无关,所谓“冗余特征“是指该特征能够
由其他特征推演得到。
基本做法:
产生一个候选子集 -> 评价好坏 -> 更新候选子集 -> 评价好坏 -> ... -> 最优子集
特征选择-子集搜索
将上一轮选定的 k 特征集合作为特征选择结果.
2. 后向搜索:从完整子集开始,每次减少一个特征。
3. 双向搜索:在搜索过程中同时添加和减少特征。
特征选择-子集评价
信息熵:
∣Y∣
Ent(D) = − ∑ pk log2 pk
i=1
其中给定数据集D,假设D中第i类样本所占比例为 pi (i = 1, 2, … , ∣Y∣)
信息增益:
V
∣Dv ∣
Gain(A) = Ent(D) − ∑ Ent (Dv )
∣D∣
v=1
2 2
δ = ∑ (diff
j
(xi , xi, nm )
j
j
− diff (xi , xi,nh ) )
j
j
直接把最终将要使用的学习器作为特
征子集的评价准则。
LVW(Las Vegas Wrapper)算法
特征选择-嵌入式
将特征选择的过程和学习器的训练过程融合起来。即在学习器训练的过程中自动进行了
特征选择。
给定数据集 D = {(x1 , y1 ) , (x2 , y2 ) , … , (xm , ym )}, 其中 x ∈ Rd , y ∈ R. 我 们考
虑最简单的线性回归模型, 以平方误差为损失函数, 则优化目标为
m
min ∑ (yi − w xi ) T 2
w
i=1
为了降低模型过拟合的风险,我们可以对w加一个限制,即在优化目标中加上带有w的
项,比如
m
min ∑ (yi − w xi ) + λ∥w∥22 T 2
w
i=1
增加了w的L2 的正规化项也称为岭回归。
特征选择-嵌入式
范数更容易得到稀疏解,达到特征
L1
选择的目的。
基于L1正则化的学习方法就是一种嵌
入式特征选择方法,其特征选择过程
域学习器训练过程融为一体,同时完
成。
这个函数的形式又称为LASSO。
稀疏表示和字典学习
稀疏性:如果数据集D是一个矩阵,每行对应于一个样本,每列对应于一维特征,特征
选择解决的是矩阵中的列与任务无关,因此可以安全地去除。
另一种稀疏性是指数据集中存在许多0元素,但是他们不是整列排布的。稀疏性会带来一
些好处,比如文本数据使用字频表示后具有高度的稀疏性,从而变得线性可分。
将稠密数据变得稀疏是否有好的方法?显然,对于一般的任务没有这样的“字典”,因此
我们要学习得到一个合适的“字典”,使学习任务得以简化。这种技术就叫做“字典学
习”(dictionary learning),也称作“稀疏编码”(sparse coding)。字典学习更加偏重于
得到字典的过程,而稀疏编码偏重于得到字典后对样本进行稀疏转换。
字典学习
给定数据集{x1 , x2 , … , xm },字典学习最简单的形式为
m m
min ∑ ∥xi − Bαi ∥2 + λ ∑ ∥αi ∥1
2
B,αi
i=1 i=1
望 αi 尽量稀疏。
字典学习-求解方法
有两个变量α 和 B,因此我们采用变量交替优化的策略求解。
第一步:固定字典B求解αi ,则优化形式为
m m
min ∑ ∥xi − Bαi ∥2 + λ ∑ ∥αi ∥1
2
αi
i=1 i=1
可以采用LASSO的方式优化
第二步:固定αi 求解B,则优化形式为
m
min ∑ ∥xi − Bαi ∥2 = min ∥X − BA∥2F
2
B B
i=1
B bi
∥ ∥F
j=1
⎛ ⎞
∥ ∥2
= min X − ∑ bj α j
− bi αi
⎝ ⎠
bi
∥ j=i ∥
∥ i ∥2
= min ∥Ei − bi α ∥F
bi
矩阵近似,即求解Ei 的最优1秩近似矩阵bi αi 。
预告
下一节:计算学习理论
西瓜书对应章节:第12章
结束语
欢迎加入【南瓜书读者交流群】,我们将在群里进行答疑、勘误、本次直播回放、本次
直播PPT发放、下次直播通知等最新资源发放和活动通知。
加入步骤:
1. 关注公众号【Datawhale】,发送【南瓜书】三个字获取机器人“小豚”的微信二维码
2. 添加“小豚”为微信好友,然后对“小豚”发送【南瓜书】三个字即可自动邀请进群