机器学习中数学基础

5 月深度学习班：机器学习中的数学
程博士
julyedu.com
程博士 5 月深度学习班：机器学习中的数学 julyedu.com 1 / 41

1 序言
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点

1 数学理论是算法的基石，编程是工具。三者都很重要，但是如果只
会重复编程，不可能理解到事物的本质。
2 微积分、概率、线性代数和矩阵是优化的基础，优化贯穿几乎所有
的工科，人们总是希望求得最优解。机器学习中大量的问题最终都
可以归结为一个优化问题(例如SVM)。
3 2个小时回顾四门极其重要的数学课，选取精华中的精华部分。

本次课件主要参考资料
1 本人矩阵理论学习笔记
2 张贤达，矩阵分析与应用
3 本人凸优化理论学习笔记
4 Stephen Boyd, Convex Optimization, 英文原版
5 概率和数理统计，本科教材
6 互联网相关搜索资料

示例表
红色框表示非常重要的定理或内容
定理或内容，仔细弄明白
绿色框表示具体的例子
举例，会举一反三

1 序言
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点

微积分总视图(板书)

导数(标量)
导数的定义
0 f (a + h) − f (a)
f (a) = lim (1)
h→0 h
常见函数的导数
I (xa )0 = axa−1
I (ex )0 = ex
I (ax )0 = ln (a) ax
I (ln (x))0 = 1
x
d
I
dx sin(x) = cos(x)
d
I
dx cos(x) = − sin(x)

导数法则
(α f + β g)0 = α f 0 + β g0
( f g)0 = f 0 g + f g0
0
f f 0 g− f g0
g = g2
如果， f (x) = h(g(x))，则有 f 0 (x) = h0 (g(x)) · g0 (x)
计算 f (x) = x4 + sin(x2 ) − ln(x)ex + 7的导数

2

d x d (ln x) d (ex)
f 0 (x) = 4x(4−1) + cos(x2 ) − ex − ln(x) +0
dx dx dx
3 2 1 x
= 4x + 2x cos(x ) − e − ln(x)ex
x

梯度和Hessian矩阵
梯度和Hessian矩阵(以下均假设连续可导)
一阶导数和梯度(gradient vector)
 
∂ f (x)
∂ x1
0 ∂ f (x)  .. 
f (x) ; ∇ f (x) = = .  (2)
∂x 
∂ f (x)

∂ xn
二阶导数和Hessian矩阵
∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
 
∂ x12 ∂ x1 ∂ x2 ··· ∂ x1 ∂ xn ···
∂ 2 f (x) ∂ 2 f (x)
 
 
∂ x2 ∂ x1 ∂ x22
f 00 (x) ; 2
H (x) = ∇ f (x) =   (3)
 
..

 . 

∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
∂ xn ∂ x1 ∂ xn ∂ x2 ∂ xn2

二次型的梯度(详见张矩阵)

泰勒级数与极值
泰勒级数展开(标量)
输入为标量的泰勒级数展开
1 00
f (xk + δ ) ≈ f (xk ) + f 0 (xk ) δ + f (xk ) δ 2
2
称满足 f 0 (xk ) = 0的点为平稳点(候选点)，此时如果还有：

I f 00 (xk ) > 0，xk 为一严格局部极小点(反之，严格局部最大点)(充分条
件)
I 如果 f 00 (xk ) = 0，有可能是一个鞍点(saddle point)，why？
思考实际使用中的局限？

泰勒级数与极值
泰勒级数展开(矢量)(和标量情况对比)
输入为矢量的泰勒级数展开
T 1 T 2
f (xk + δ ) ≈ f (xk ) + ∇ f (xk ) δ + δ ∇ f (xk ) δ
2
称满足∇T f (xk ) = 0的点为平稳点(候选点)，此时如果还有：

I ∇2 f (xk ) 0，xk 为一严格局部极小点(反之，严格局部最大点)
I 如果∇2 f (xk )不定矩阵，是一个鞍点(saddle point)
I 思考∇2 f (xk ) 0
梯度方向？梯度下降法从哪儿来？

微积分总结(板书)

1 序言
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点

随机变量(随机事件的数量表现)
累积分布函数
FX (x) = P(X ≤ x) (4)
P(a < X < b) = FX (b) − FX (a) (5)

随机变量
概率密度函数
d
fX (x) = FX (x) (6)
dx
Z b
P[a ≤ X ≤ b] = fX (x) dx (7)
a
Z x
FX (x) = fX (u) du (8)
−∞
P(t < X < t + dt) = f (t) dt
举例

高斯分布(最美的分布)
2
− (x−µ)
一元概率密度： f (x|µ, σ 2 ) = √1 e 2σ
σ 2π
2
多元概率密度: fx (x1 , . . . , xk ) = √ 1 k exp − 12 (x − µ )T Σ −1 (x − µ )

(2π) |Σ
Σ|
中心极限定理
思考独立高斯变量相加？思考高斯变量加任意一个随机变量？

贝叶斯公式(机器学习中最重要的公式)
通常，P(A|B) 6= P(B|A)，但是如何确定两者的关系？（溯源）
P(A∩B) P(A∩B)
I P(A|B) = P(B) ，同样有P(B|A) = P(A) ，因此
有P(A|B) P(B) = P(A ∩ B) = P(B|A) P(A)
I 可得P(B|A) = P(A|B) P(B)
P(A) 和P(A|B) = P(B|A) P(A)
P(B)
I 先验概率，后验概率解释
二则一：P(B) = P(A, B) + P(AC , B) = P(B|A)P(A) + P(B|AC )P(AC )故
有
P(B|A) P(A)
P(A|B) = C C
(9)
P(B|A)P(A) + P(B|A )P(A )
概率密度形式：
f (x, y) f (y|x) f (x) f (y|x) f (x)
f (x|y) = = = R∞ (10)
f (y) f (y) −∞ f (y|x) f (x) dx

贝叶斯公式
贝叶斯应用举例
假设吸毒者每次检测呈阳性（+）的概率为99%。而不吸毒者每次检测
呈阴性（-）的概率为99%。假设某公司对全体雇员进行吸毒检测，已
知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多
高？（作业，答案0.3322）

概率论总结(板书)

1 序言
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点

方阵的特征值(Eigenvalues)与特征向量(Eigenvectors)
Ax = λ x几何意义，并思考如何计算A1000

4 1 1
给定一个矩阵A = ，对于x1 = , 则有Ax1 =
1 4 0

4 1 1
；对于x3 = ，则有Ax3 = 5
1 1 1

特征分解的性质
特征分解的一般性质
对于Axi = λ xi ，如果所有的特征值都不相同，则相应的所有的特征
向量线性无关。此时，A可以被对角化为
A = VΛV−1 . (11)
其中V = [x1 , . . . , xn ]，Λ = Diag (λ1 , . . . , λn )。思考A1000 。
思考：所有的方阵都可以对角化吗？

对称矩阵的特征分解(1/2)
如果一个对称矩阵的特征值不同，则其相应的所有的特征向量正
交(UUT = UT U = I)
A = UΛUT (12)
  
λ1 uT1
..   .. 
= [u1 , . . . , un ]  (13)

.  . 
λn uTn
n
= ∑ λi ui uTi (14)
i=1
深入思考公式(14)
思考，如果一个对称矩阵的特征值相同，是否也可以找到相互正交
的特征向量？
思考实际工程中对称矩阵多吗？
对称矩阵的特征分解(2/2)
对称矩阵的特征值是实数
如果A ∈ Rn×n 是一对称矩阵且rank r ≤ n，则有
|λ | ≥ |λ 2 | ≥ . . . ≥ |λ r | > λ r+1 = . . . λ n = 0 (15)

| 1 {z } | {z }
r n−r
AT A AAT

Rank = Rank = Rank (A) = Rank (Λ)
思考对于任意矩阵，能否找到一个类似的分解？

二次型(Quadratic Form)
给定矩阵A ∈ Rn×n ，函数
xT Ax = ∑∑ xi x j ai j (16)
被称为二次型。
如果对于所有x ∈ Rn ，有xT Ax ≥ 0，则为半正定矩阵(positive
semidefinite)，此时λ (A) ≥ 0。
如果对于所有x ∈ Rn , x 6= 0，有xT Ax > 0，则为正定矩阵(positive
definite)。
负定矩阵
不定矩阵(indefinite)

二次型
二次型图形
二次函数 f (x) = xT Ax + 2bT x + c
∇ f (x) = 2Ax + 2b，∇2 f (x) = 2A

特征分解的应用—PCA本质讲述(1/3)
PCA的本质(协方差矩阵的相似对角化，KL变换)
给定一个矩阵X ∈ Rm×n ，例如

a1 a2 · · · an
X=
b1 b2 · · · bn
选择k < m个正交基进行降维的同时又尽量保留原始的信息。即，使
得A变换到这组基后，使得行向量间的协方差为0，而每个行向量的方差
尽可能大。
协方差矩阵(对称半正定)为
1 n 2 1 n

1 ∑ a n ∑i=1 ai bi
CX = XXT = n i=1 i
1 n 1 n 2
n n ∑i=1 ai bi ∑
n i=1 ib

PCA的本质
问题：假设变换矩阵为Y = QX，并先假设Q是方阵(先不降维)，则
有
1
CY = YYT = QCX QT
n
如何使得CY 是一个对角矩阵？回忆CX = UΛUT ⇒ Λ = UT CX U. 如
果Q = UT ？
思考如何降维？

PCA降维举例(思考特征值反应了什么？)
6 4

−1 −1 0 2 0
1 X= ，CX = 5
4
5
6
−2 0 0 1 1 5 5
2 计算C
" 1X 特征值为：λ
# " # 1 = 2, λ 2 = 2/5, 特征值特征向量
√ − √1
为 √12 , √1
2 ，因
2" 2 # " 1 #
1 1 1
√ − √2 √ √
此U = √1 2
√1
,则U T = 2
1 1
2 , 此时如
2 " 2
− 2
√ √
2
1 1
#
√ √
果Q = UT = 2 2 ，则只对角化了CY ，未降维。降维则是
− √12 1
√
2
取Q的第一行
h i h i
3 降维： √12 √1
2
X= − √32 − √12 0 √3
2
− √12 ，此时可验
证CY = 2 = λ1
矩阵总结(板书)

1 序言
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点

一般约束优化问题
约束优化问题一般形式：
minimize f (x)
subject to ai (x) = 0 for i = 1, 2, · · · , p
c j (x) ≥ 0 for j = 1, 2, · · · , q (17)
可行域：满足 f (x)定义域和约束条件的x的集合。c j (x) = 0表明不

等式约束被激活(active)。

一般约束优化问题(举例)
考虑以下约束优化问题
minimize f (x) = x12 + x22 − 4x1 + 4 = (x1 − 2)2 + x22

subject to c1 (x) = x1 − 2x2 + 6 ≥ 0
c2 (x) = −x12 + x2 − 1 ≥ 0, c3 (x) = x1 ≥ 0, c4 (x) = x2 ≥ 0

一般约束优化问题极值点一阶必要条
件(Karush-Kuhn-Tucker(KKT))
KKT条件(思考如何把约束优化转化为无约束优化）
如果x∗ 是约束优化问题的局部最小解，那么有
1 ai (x∗ ) = 0 for i = 1, 2, · · · , p
2 c j (x∗ ) ≥ 0 for j = 1, 2, · · · , q
3 存在Lagrange multipliers λi∗ , i = 1, 2, · · · , p和u∗j , j = 1, 2, · · · , p 使得
p q
∗
∇ f (x ) = ∑ λi∗ ∇ai (x∗ ) + u∗
∑ j ∇c j (x∗
)
i=1 j=1
4 u∗j c j (x∗ ) = 0 for j = 1, 2, · · · , q

5 u∗j ≥ 0 for j = 1, 2, · · · , q
条件3解释：Lagrangin
p
L (x, λ , µ ) = f (x) − ∑i=1 λi ai (x) − ∑qj=1 u j c j (x),则条件3等价
∗
于∇x L x , λ , µ = 0
∗ ∗


KKT应用举例(1/2)
函数
minimize f (x) = x12 + x22 − 14x1 − 6x2

subject to c1 (x) = 2 − x1 − x2 ≥ 0
c2 (x) = 3 − x1 − 2x2 ≥ 0
KKT
2x1 − 14 + u1 + u2 = 0
2x2 − 6 + u1 + 2u2 = 0
u1 (2 − x1 − x2 ) = 0
u2 (3 − x1 − 2x2 ) = 0
u1 ≥ 0
u2 ≥ 0

KKT应用举例(2/2)
解KKT条件，考虑所有的cases：不等式激活和ui 的非负性
Case I，没有激活的情况，则u∗1 = u∗2 = 0，可得x1∗ = 7, x2∗ = 3，非
解。
Case II, 一个激活(作业)
Case III，两个都激活(作业)

凸优化问题标准形式(Game Over)
凸优化问题
minimize f0 (x)
subject to fi (x) ≤ 0 for i = 1, 2, · · · , m
hi (x) = 0 for i = 1, 2, · · · , p (18)
则有 f0 (x)是凸函数，可行域是凸集，课上简单讲述凸函数和凸集。

优化在机器学习中的应用概述
PCA
ICA
SVM，找最优的分离平面
线性回归
最大似然
等等

谢谢！内容多，时间有限，恳
请大家批评指正！

机器学习中数学基础

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

机器学习中数学基础

Uploaded by

Copyright:

Available Formats

5 月深度学习班：机器学习中的数学

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 1 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 2 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 3 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 4 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 5 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 6 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 7 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 8 / 41

如果， f (x) = h(g(x))，则有 f 0 (x) = h0 (g(x)) · g0 (x)

计算 f (x) = x4 + sin(x2 ) − ln(x)ex + 7的导数

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 9 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 10 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 11 / 41

称满足 f 0 (xk ) = 0的点为平稳点(候选点)，此时如果还有：

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 12 / 41

称满足∇T f (xk ) = 0的点为平稳点(候选点)，此时如果还有：

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 13 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 14 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 15 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 16 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 17 / 41

多元概率密度: fx (x1 , . . . , xk ) = √ 1 k exp − 12 (x − µ )T Σ −1 (x − µ )

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 18 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 19 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 20 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 21 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 22 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 23 / 41

其中V = [x1 , . . . , xn ]，Λ = Diag (λ1 , . . . , λn )。思考A1000 。

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 24 / 41

如果A ∈ Rn×n 是一对称矩阵且rank r ≤ n，则有

|λ | ≥ |λ 2 | ≥ . . . ≥ |λ r | > λ r+1 = . . . λ n = 0 (15)

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 26 / 41

给定矩阵A ∈ Rn×n ，函数

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 27 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 28 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 29 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 30 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 32 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 33 / 41

可行域：满足 f (x)定义域和约束条件的x的集合。c j (x) = 0表明不

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 34 / 41

minimize f (x) = x12 + x22 − 4x1 + 4 = (x1 − 2)2 + x22

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 35 / 41

4 u∗j c j (x∗ ) = 0 for j = 1, 2, · · · , q

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 36 / 41

minimize f (x) = x12 + x22 − 14x1 − 6x2

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 37 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 38 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 39 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 40 / 41

程博士 5 月深度学习班：机器学习中的数学 julyedu.com 41 / 41

You might also like