Welcome to Scribd!

Skip carousel

第10章降维与度量学习（上）

Uploaded by

snow lee

0% found this document useful (0 votes)

0 views12 pages

Original Title

第10章-降维与度量学习（上）

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

0 views12 pages

第10章降维与度量学习（上）

Uploaded by

snow lee

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 12

Search inside document

《机器学习公式详解》

（南瓜书）
第10章降维和度量学习(上)
本节主讲：秦州
本节大纲

南瓜书对应章节：10.1 10.2 10.3

1. k近邻学习
2. 低维嵌入
3. 主成分分析
k近邻学习(kNN)

kNN：近朱者赤。基于与待测样本最近的k个样本的信息进行预测。
1NN：最近邻分类器，待测样本标签和与之最近的样本标签一致。
给定测试样本x，若与之最近邻样本为z，则最近邻分类器出错的概率为
P (err) = 1 − ∑ P (c ∣ x)P (c ∣ z)

c∈Y
k近邻学习(kNN)
令c∗ = arg maxc∈Y P (c ∣ x)表示贝叶斯最优分类器结果，有

P (err) = 1 − ∑ P (c ∣ x)P (c ∣ z)

c∈Y

≃ 1 − ∑ P 2 (c ∣ x)

c∈Y
⩽ 1 − P (c∗ ∣ x)
2

= (1 + P (c∗ ∣ x)) (1 − P (c∗ ∣ x))

⩽ 2 × (1 − P (c∗ ∣ x))

简单有效：最近邻分类器的误差不超过贝叶斯最优分类器的误差的两倍！
低维嵌入
维度灾难：样本稀疏而特征维数极高
降维：收集到的样本虽然是特征维数高，但与学习任务相关的可能仅仅是一个低维”嵌
入“（embedding). 因此可以通过降维的手段提取重要的特征。一种度量方式是原始空间
中的样本之间的距离在低维空间中仍然保持，对应本章的MDS算法。另一种简单方式是
乘以一个低维的线性矩阵进行变换。
线性降维方法：给定 d 维空间中的样本 X = (x1 , x2 , … , xm ) ∈ Rd×m , 变换之后得
到 d′ ⩽ d 维空间中的样本

Z = WT X
其中 W ∈ Rd×d′
是变换矩阵, Z ∈ ′
R ×m
d 是样本在新空间中的表达。
主成分分析

PCA 主成分分析能够保证低维子空间
对样本具有最大的可分性。
1. 样本点x1 在新空间中超平面上的
投影是zi = WT xi

2. 从最大可分性出发，我们希望在

新空间的每一维坐标轴上样本都
尽可能分散（即每维特征尽可能
分散）因此要求Z各行方差最大
主成分分析2

假设Z的第i行记作Zi⋅ 该行的均值记作zˉ则

m m
1 1 1
∑ (Zi⋅ − z
ˉ ) (Zi⋅ − z T
ˉ) = ∑ Zi⋅ Zi⋅ = tr (ZZT )
T
m i=1 m i=1 m

根据之前定义的记号：Z = WT X
忽略常数项，优化目标可写为
maxW tr (WT XXT W)

s.t. WT W = I
主成分分析-求解

使用拉格朗日乘子法，写出拉格朗日函数
L(W, Λ) = − tr (W⊤ XX⊤ W) + (W⊤ W − I) Λ

其中，
⎡ λ1

⎤ ⎡ 1 ⎤
λ2 d′ ×d′ 1 d′ ×d′
Λ= ∈R ,I = ∈R

⋱ ⋱
⎣ λd′ ⎦ ⎣ 1 ⎦

主成分分析 - 求解 2
对W ∈ Rd×d 求导：
′

∂L(W, Λ) ∂ tr (W⊤ XX⊤ W) ∂ (W⊤ W − I)

=− + Λ
∂W ∂W ∂W

⊤
= −XX⊤ W − (XX⊤ ) W + 2WΛ
= −2XX⊤ W + 2WΛ

另偏导 ∂L(W,Λ)
∂W

=0 ，得：
XX⊤ W = WΛ
或者将此式拆分成d′ 个式子：
XX⊤ wi = λi wi , 1 ⩽ i ⩽ d′

即求矩阵XX⊤ ∈ Rd×d 特征值和特征向量的形式。

主成分分析-求解3

有个特征向量，但是我们只需要其中d′ 个，如何选择特征向量？
XX⊤ ∈ Rd×d d
对XX⊤ W = WΛ 两边同乘 W⊤ , 得
W⊤ XX⊤ W = W⊤ WΛ = Λ
我们的优化目标
d′
tr (W⊤ XX⊤ W) = tr(Λ) = ∑ λi

i=1

因此最大化迹即选择最大的d′ 个λi ，和它们所对应的wi 组成矩阵W

预告

下一节：降维和度量学习(下)
流形学习
度量学习
西瓜书对应章节：10.5 10.6
结束语
欢迎加入【南瓜书读者交流群】，我们将在群里进行答疑、勘误、本次直播回放、本次
直播PPT发放、下次直播通知等最新资源发放和活动通知。
加入步骤：
1. 关注公众号【Datawhale】，发送【南瓜书】三个字获取机器人“小豚”的微信二维码
2. 添加“小豚”为微信好友，然后对“小豚”发送【南瓜书】三个字即可自动邀请进群

陈鄂生量子力学
Document30 pages
陈鄂生量子力学
YUXUAN ZHENG
No ratings yet
多變量
Document30 pages
多變量
me2you2
100% (1)
贾俊基数物2020 2021期末试题
Document2 pages
贾俊基数物2020 2021期末试题
227274779zzy
No ratings yet
贾俊基数物2019 2020学年期末考试卷
Document2 pages
贾俊基数物2019 2020学年期末考试卷
227274779zzy
No ratings yet
微积分题目
Document2 pages
微积分题目
SHAO HUI LEE
No ratings yet
White 2019 10 14 Linear Regression 02
Document3 pages
White 2019 10 14 Linear Regression 02
刘佳
No ratings yet
模式识别2023 第三章线性分类器
Document86 pages
模式识别2023 第三章线性分类器
Sakanama G
No ratings yet
贾俊基数物2018 2019期末试题
Document2 pages
贾俊基数物2018 2019期末试题
227274779zzy
No ratings yet
考研数学：定理、公式、考点、口诀
Document8 pages
考研数学：定理、公式、考点、口诀
cwz623755301
No ratings yet
Cheatsheet
Document2 pages
Cheatsheet
Sam Li
No ratings yet
第7章复习 PDF
Document14 pages
第7章复习 PDF
Leo Yu
No ratings yet
第3章二分类线性判别分析
Document16 pages
第3章二分类线性判别分析
snow lee
No ratings yet
2019超越答案
Document41 pages
2019超越答案
nessieq2
No ratings yet
Calculus ch07&08
Document38 pages
Calculus ch07&08
b1122103 111-niu-student
No ratings yet
数值分析 (全书)
Document87 pages
数值分析 (全书)
jingfeng huang
No ratings yet
电动力学清华大学讲义 (王青) PDF
Document109 pages
电动力学清华大学讲义 (王青) PDF
kkrr123
No ratings yet
【学习笔记】Cramer-Rao Lower Bound 克拉美-罗界
Document4 pages
【学习笔记】Cramer-Rao Lower Bound 克拉美-罗界
Ace Zhou
No ratings yet
聚类分析知识点梳理提纲板
Document15 pages
聚类分析知识点梳理提纲板
屠嘉铠
No ratings yet
复习题二
Document3 pages
复习题二
你爸爸
No ratings yet
电磁场 2.1 静态电磁场
Document95 pages
电磁场 2.1 静态电磁场
aollsd1
No ratings yet
高等数学B第十章的教案
Document55 pages
高等数学B第十章的教案
杜莹玉
No ratings yet
Solutions-7 6506
Document4 pages
Solutions-7 6506
qimin zhang
No ratings yet
量綱介紹 PDF
Document15 pages
量綱介紹 PDF
蘇建翰
No ratings yet
指数、对数函数高三数学课件示例人教版
Document16 pages
指数、对数函数高三数学课件示例人教版
api-3768513
No ratings yet
Syjh
Document52 pages
Syjh
迷悟
No ratings yet
微分方程ch2 PDF
Document10 pages
微分方程ch2 PDF
Yuder Li
No ratings yet
Short Answer Short TwoSide
Document41 pages
Short Answer Short TwoSide
yangleyang476
No ratings yet
Material1 1
Document3 pages
Material1 1
Chihcheng Han
No ratings yet
Final 10
Document9 pages
Final 10
Sundae bgram
No ratings yet
文字版 1.4-第二章
Document40 pages
文字版 1.4-第二章
bhlqh.qwq
No ratings yet
self - store 10 self - attach 991 1 臺北區學測數學解析
Document2 pages
self - store 10 self - attach 991 1 臺北區學測數學解析
陳傳中
No ratings yet
ch1 PDF
Document38 pages
ch1 PDF
Yuchen Gui
No ratings yet
第九届试题
Document6 pages
第九届试题
rosegoal
No ratings yet
Lab 6.1
Document9 pages
Lab 6.1
Jim
No ratings yet
1 數學甲分科解答 (北聯第二次)
Document3 pages
1 數學甲分科解答 (北聯第二次)
kigmun
No ratings yet
1-第一章数理方程概论-研究生
Document36 pages
1-第一章数理方程概论-研究生
kazedlei0403
No ratings yet
Book5 Ch01 本书概率统计全景统计至简鸢尾花书从加减乘除到机器学习
Document17 pages
Book5 Ch01 本书概率统计全景统计至简鸢尾花书从加减乘除到机器学习
James Jiang
No ratings yet
896782452
Document32 pages
896782452
richy chen
No ratings yet
期中考试样题解答
Document5 pages
期中考试样题解答
李恩冲
No ratings yet
实变函数与泛函分析定理·方法·问题
Document267 pages
实变函数与泛函分析定理·方法·问题
Shengshi Wei
No ratings yet
固体力学3 4 286502492
Document23 pages
固体力学3 4 286502492
nicopc6631944
No ratings yet
1 1
Document57 pages
1 1
史天成
No ratings yet
第10章降维与度量学习（下）
Document13 pages
第10章降维与度量学习（下）
snow lee
No ratings yet
高等数学I (1 1)
Document40 pages
高等数学I (1 1)
2646501812
No ratings yet
矩阵理论知识点总结
Document158 pages
矩阵理论知识点总结
Gori LLLla
No ratings yet
第四章不定积分
Document41 pages
第四章不定积分
Jeffry Utama
No ratings yet
高斯公式,曲线积分
Document64 pages
高斯公式,曲线积分
api-19984036
No ratings yet
Lucas Kanade 算法
Document3 pages
Lucas Kanade 算法
xychen
No ratings yet
计信院叶奕希数学
Document17 pages
计信院叶奕希数学
chelsea200111
No ratings yet
Brief Note To Power Series Solutions To ODE
Document6 pages
Brief Note To Power Series Solutions To ODE
1614409132
No ratings yet
复习题三
Document3 pages
复习题三
你爸爸
No ratings yet
義守 IV 傳輸線理論與阻抗匹配
Document36 pages
義守 IV 傳輸線理論與阻抗匹配
Bowncat Yeh
No ratings yet
计量经济学知识点框架
Document21 pages
计量经济学知识点框架
1780178025
No ratings yet
SVM2
Document13 pages
SVM2
Logan Cheng
No ratings yet
数理统计与随机过程3 2 数理统计
Document57 pages
数理统计与随机过程3 2 数理统计
li337062166
No ratings yet
第二章导数的概念
Document38 pages
第二章导数的概念
Jeffry Utama
No ratings yet
實驗八
Document11 pages
實驗八
黃偉斌
No ratings yet
2017年考研数学一真题及答案解析
Document13 pages
2017年考研数学一真题及答案解析
tigerlee0214
No ratings yet
2006 2007学年第一学期期末考试闭卷题二
Document7 pages
2006 2007学年第一学期期末考试闭卷题二
snow lee
No ratings yet
11 第十一章条件随机场
Document60 pages
11 第十一章条件随机场
snow lee
No ratings yet
2018.10.25基础40班第二次作业点评
Document5 pages
2018.10.25基础40班第二次作业点评
snow lee
No ratings yet
10 第十章隐马尔科夫模型
Document50 pages
10 第十章隐马尔科夫模型
snow lee
No ratings yet
2-机器学习实战 - 图解机器学习神器：Scikit-Learn
Document39 pages
2-机器学习实战 - 图解机器学习神器：Scikit-Learn
snow lee
No ratings yet
6-机器学习实战 - 综合项目 - 电商销量预估进阶方案
Document14 pages
6-机器学习实战 - 综合项目 - 电商销量预估进阶方案
snow lee
No ratings yet
2006 2007学年第一学期期末考试闭卷题
Document8 pages
2006 2007学年第一学期期末考试闭卷题
snow lee
No ratings yet
2006 2007学年第一学期期末考试闭卷题答案
Document2 pages
2006 2007学年第一学期期末考试闭卷题答案
snow lee
No ratings yet
5-机器学习实战 - 综合项目 - 电商销量预估
Document15 pages
5-机器学习实战 - 综合项目 - 电商销量预估
snow lee
No ratings yet
3-机器学习实战 - XGBoost建模应用详解
Document18 pages
3-机器学习实战 - XGBoost建模应用详解
snow lee
No ratings yet
4-机器学习实战 - LightGBM建模应用详解
Document19 pages
4-机器学习实战 - LightGBM建模应用详解
snow lee
No ratings yet
Machine Learning Yearning-吴恩达新书
Document111 pages
Machine Learning Yearning-吴恩达新书
snow lee
No ratings yet
第3章二分类线性判别分析
Document16 pages
第3章二分类线性判别分析
snow lee
No ratings yet
第6章支持向量机
Document21 pages
第6章支持向量机
snow lee
No ratings yet
初赛答案
Document3 pages
初赛答案
snow lee
No ratings yet
第3章一元线性回归
Document33 pages
第3章一元线性回归
snow lee
No ratings yet
第五章
Document69 pages
第五章
snow lee
No ratings yet
【BT教育】2024年《五色框架-战略》-关注公众号【李彬教你考注会】
Document74 pages
【BT教育】2024年《五色框架-战略》-关注公众号【李彬教你考注会】
snow lee
No ratings yet
Mag 202916
Document8 pages
Mag 202916
snow lee
No ratings yet
初赛答案
Document2 pages
初赛答案
snow lee
No ratings yet
PYTHON机器学习及实践－从零开始通往KAGGLE竞赛之路
Document198 pages
PYTHON机器学习及实践－从零开始通往KAGGLE竞赛之路
snow lee
No ratings yet
13一等奖冲刺贪心法主讲：杜瑜皓
Document88 pages
13一等奖冲刺贪心法主讲：杜瑜皓
snow lee
No ratings yet
第7章文件和结构体 (C++版)
Document28 pages
第7章文件和结构体 (C++版)
snow lee
No ratings yet
复赛试题
Document2 pages
复赛试题
snow lee
No ratings yet
第5章数组 (C++版)
Document100 pages
第5章数组 (C++版)
snow lee
No ratings yet
第3章选择结构 (C++版)
Document54 pages
第3章选择结构 (C++版)
snow lee
No ratings yet
第8章 C++实用技巧与模版库
Document50 pages
第8章 C++实用技巧与模版库
snow lee
No ratings yet
第6章函数和递归 (C++版)
Document61 pages
第6章函数和递归 (C++版)
snow lee
No ratings yet
第8章指针及其应用
Document25 pages
第8章指针及其应用
snow lee
No ratings yet
第4章循环结构 (C++版)
Document90 pages
第4章循环结构 (C++版)
snow lee
No ratings yet
人脸识别论文
Document7 pages
人脸识别论文
afefikoaz
No ratings yet
Book5 Ch14 再谈随机变量统计至简鸢尾花书从加减乘除到机器学习
Document23 pages
Book5 Ch14 再谈随机变量统计至简鸢尾花书从加减乘除到机器学习
James Jiang
No ratings yet
专题3 主成分分析与偏最小二乘法判别
Document17 pages
专题3 主成分分析与偏最小二乘法判别
zhonghua zhi
No ratings yet
資訊技術使用中的正念
Document12 pages
資訊技術使用中的正念
www.mingerzeng
No ratings yet
PCA降维与SVD
Document19 pages
PCA降维与SVD
wulinjun1360943519
No ratings yet
基于跨语言对齐词向量的汉日词汇意义比较研究胡楠
Document11 pages
基于跨语言对齐词向量的汉日词汇意义比较研究胡楠
丁伊雯
No ratings yet
578cf07020439
Document40 pages
578cf07020439
Ismael OKi Mojede
No ratings yet
机器学习周晓飞
Document31 pages
机器学习周晓飞
enzezhuucas
No ratings yet