Download as pdf or txt
Download as pdf or txt
You are on page 1of 41

5 月深度学习班:机器学习中的数学

程博士

julyedu.com

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 1 / 41


1 序言

2 微积分重点

3 概率论重点

4 矩阵重点

5 凸优化重点

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 2 / 41


1 数学理论是算法的基石,编程是工具。三者都很重要,但是如果只
会重复编程,不可能理解到事物的本质。
2 微积分、概率、线性代数和矩阵是优化的基础,优化贯穿几乎所有
的工科,人们总是希望求得最优解。机器学习中大量的问题最终都
可以归结为一个优化问题(例如SVM)。
3 2个小时回顾四门极其重要的数学课,选取精华中的精华部分。

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 3 / 41


本次课件主要参考资料

1 本人矩阵理论学习笔记
2 张贤达,矩阵分析与应用
3 本人凸优化理论学习笔记
4 Stephen Boyd, Convex Optimization, 英文原版
5 概率和数理统计,本科教材
6 互联网相关搜索资料

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 4 / 41


示例表

红色框表示非常重要的定理或内容
定理或内容,仔细弄明白

绿色框表示具体的例子
举例,会举一反三

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 5 / 41


1 序言

2 微积分重点

3 概率论重点

4 矩阵重点

5 凸优化重点

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 6 / 41


微积分总视图(板书)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 7 / 41


导数(标量)

导数的定义
0 f (a + h) − f (a)
f (a) = lim (1)
h→0 h

常见函数的导数
I (xa )0 = axa−1

I (ex )0 = ex

I (ax )0 = ln (a) ax

I (ln (x))0 = 1
x

d
I
dx sin(x) = cos(x)
d
I
dx cos(x) = − sin(x)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 8 / 41


导数法则

(α f + β g)0 = α f 0 + β g0

( f g)0 = f 0 g + f g0
 0
f f 0 g− f g0
g = g2

如果, f (x) = h(g(x)),则有 f 0 (x) = h0 (g(x)) · g0 (x)

计算 f (x) = x4 + sin(x2 ) − ln(x)ex + 7的导数


2

d x d (ln x) d (ex)
f 0 (x) = 4x(4−1) + cos(x2 ) − ex − ln(x) +0
dx dx dx
3 2 1 x
= 4x + 2x cos(x ) − e − ln(x)ex
x

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 9 / 41


梯度和Hessian矩阵

梯度和Hessian矩阵(以下均假设连续可导)
一阶导数和梯度(gradient vector)
 
∂ f (x)
∂ x1
0 ∂ f (x)  .. 
f (x) ; ∇ f (x) = = .  (2)
∂x 
∂ f (x)

∂ xn

二阶导数和Hessian矩阵
∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
 
∂ x12 ∂ x1 ∂ x2 ··· ∂ x1 ∂ xn ···
∂ 2 f (x) ∂ 2 f (x)
 
 
∂ x2 ∂ x1 ∂ x22
f 00 (x) ; 2
H (x) = ∇ f (x) =   (3)
 
..

 . 

∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
∂ xn ∂ x1 ∂ xn ∂ x2 ∂ xn2

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 10 / 41


二次型的梯度(详见张矩阵)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 11 / 41


泰勒级数与极值

泰勒级数展开(标量)
输入为标量的泰勒级数展开
1 00
f (xk + δ ) ≈ f (xk ) + f 0 (xk ) δ + f (xk ) δ 2
2

称满足 f 0 (xk ) = 0的点为平稳点(候选点),此时如果还有:


I f 00 (xk ) > 0,xk 为一严格局部极小点(反之,严格局部最大点)(充分条
件)
I 如果 f 00 (xk ) = 0,有可能是一个鞍点(saddle point),why?

思考实际使用中的局限?

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 12 / 41


泰勒级数与极值

泰勒级数展开(矢量)(和标量情况对比)
输入为矢量的泰勒级数展开

T 1 T 2
f (xk + δ ) ≈ f (xk ) + ∇ f (xk ) δ + δ ∇ f (xk ) δ
2

称满足∇T f (xk ) = 0的点为平稳点(候选点),此时如果还有:


I ∇2 f (xk )  0,xk 为一严格局部极小点(反之,严格局部最大点)
I 如果∇2 f (xk )不定矩阵,是一个鞍点(saddle point)
I 思考∇2 f (xk )  0

梯度方向?梯度下降法从哪儿来?

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 13 / 41


微积分总结(板书)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 14 / 41


1 序言

2 微积分重点

3 概率论重点

4 矩阵重点

5 凸优化重点

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 15 / 41


随机变量(随机事件的数量表现)
累积分布函数
FX (x) = P(X ≤ x) (4)
P(a < X < b) = FX (b) − FX (a) (5)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 16 / 41


随机变量
概率密度函数
d
fX (x) = FX (x) (6)
dx
Z b
P[a ≤ X ≤ b] = fX (x) dx (7)
a
Z x
FX (x) = fX (u) du (8)
−∞
P(t < X < t + dt) = f (t) dt
举例

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 17 / 41


高斯分布(最美的分布)
2
− (x−µ)
一元概率密度: f (x|µ, σ 2 ) = √1 e 2σ
σ 2π
2

多元概率密度: fx (x1 , . . . , xk ) = √ 1 k exp − 12 (x − µ )T Σ −1 (x − µ )



(2π) |Σ
Σ|
中心极限定理
思考独立高斯变量相加?思考高斯变量加任意一个随机变量?

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 18 / 41


贝叶斯公式(机器学习中最重要的公式)

通常,P(A|B) 6= P(B|A),但是如何确定两者的关系?(溯源)
P(A∩B) P(A∩B)
I P(A|B) = P(B) ,同样有P(B|A) = P(A) ,因此
有P(A|B) P(B) = P(A ∩ B) = P(B|A) P(A)
I 可得P(B|A) = P(A|B) P(B)
P(A) 和P(A|B) = P(B|A) P(A)
P(B)
I 先验概率,后验概率解释
二则一:P(B) = P(A, B) + P(AC , B) = P(B|A)P(A) + P(B|AC )P(AC )故

P(B|A) P(A)
P(A|B) = C C
(9)
P(B|A)P(A) + P(B|A )P(A )
概率密度形式:
f (x, y) f (y|x) f (x) f (y|x) f (x)
f (x|y) = = = R∞ (10)
f (y) f (y) −∞ f (y|x) f (x) dx

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 19 / 41


贝叶斯公式

贝叶斯应用举例
假设吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测
呈阴性(-)的概率为99%。假设某公司对全体雇员进行吸毒检测,已
知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多
高?(作业,答案0.3322)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 20 / 41


概率论总结(板书)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 21 / 41


1 序言

2 微积分重点

3 概率论重点

4 矩阵重点

5 凸优化重点

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 22 / 41


方阵的特征值(Eigenvalues)与特征向量(Eigenvectors)

Ax = λ x几何意义,并思考如何计算A1000
   
4 1 1
给定一个矩阵A = ,对于x1 = , 则有Ax1 =
1 4 0
     
4 1 1
;对于x3 = ,则有Ax3 = 5
1 1 1

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 23 / 41


特征分解的性质

特征分解的一般性质
对于Axi = λ xi ,如果所有的特征值都不相同,则相应的所有的特征
向量线性无关。此时,A可以被对角化为

A = VΛV−1 . (11)

其中V = [x1 , . . . , xn ],Λ = Diag (λ1 , . . . , λn )。思考A1000 。

思考:所有的方阵都可以对角化吗?

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 24 / 41


对称矩阵的特征分解(1/2)

如果一个对称矩阵的特征值不同,则其相应的所有的特征向量正
交(UUT = UT U = I)

A = UΛUT (12)
  
λ1 uT1
..   .. 
= [u1 , . . . , un ]  (13)

.  . 
λn uTn
n
= ∑ λi ui uTi (14)
i=1

深入思考公式(14)
思考,如果一个对称矩阵的特征值相同,是否也可以找到相互正交
的特征向量?
思考实际工程中对称矩阵多吗?
程博士 5 月深度学习班:机器学习中的数学 julyedu.com 25 / 41
对称矩阵的特征分解(2/2)

对称矩阵的特征值是实数

如果A ∈ Rn×n 是一对称矩阵且rank r ≤ n,则有

|λ | ≥ |λ 2 | ≥ . . . ≥ |λ r | > λ r+1 = . . . λ n = 0 (15)


| 1 {z } | {z }
r n−r

AT A AAT
 
Rank = Rank = Rank (A) = Rank (Λ)

思考对于任意矩阵,能否找到一个类似的分解?

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 26 / 41


二次型(Quadratic Form)

给定矩阵A ∈ Rn×n ,函数

xT Ax = ∑∑ xi x j ai j (16)

被称为二次型。
如果对于所有x ∈ Rn ,有xT Ax ≥ 0,则为半正定矩阵(positive
semidefinite),此时λ (A) ≥ 0。
如果对于所有x ∈ Rn , x 6= 0,有xT Ax > 0,则为正定矩阵(positive
definite)。
负定矩阵
不定矩阵(indefinite)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 27 / 41


二次型

二次型图形
二次函数 f (x) = xT Ax + 2bT x + c
∇ f (x) = 2Ax + 2b,∇2 f (x) = 2A

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 28 / 41


特征分解的应用—PCA本质讲述(1/3)

PCA的本质(协方差矩阵的相似对角化,KL变换)
给定一个矩阵X ∈ Rm×n ,例如
 
a1 a2 · · · an
X=
b1 b2 · · · bn
选择k < m个正交基进行降维的同时又尽量保留原始的信息。即,使
得A变换到这组基后,使得行向量间的协方差为0,而每个行向量的方差
尽可能大。
协方差矩阵(对称半正定)为
1 n 2 1 n
 
1 ∑ a n ∑i=1 ai bi
CX = XXT = n i=1 i
1 n 1 n 2
n n ∑i=1 ai bi ∑
n i=1 ib

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 29 / 41


特征分解的应用—PCA本质讲述(2/3)

PCA的本质
问题:假设变换矩阵为Y = QX,并先假设Q是方阵(先不降维),则

1
CY = YYT = QCX QT
n
如何使得CY 是一个对角矩阵?回忆CX = UΛUT ⇒ Λ = UT CX U. 如
果Q = UT ?
思考如何降维?

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 30 / 41


特征分解的应用—PCA本质讲述(3/3)

PCA降维举例(思考特征值反应了什么?)
6 4
   
−1 −1 0 2 0
1 X= ,CX = 5
4
5
6
−2 0 0 1 1 5 5
2 计算C
" 1X 特征值为:λ
# " # 1 = 2, λ 2 = 2/5, 特征值特征向量
√ − √1
为 √12 , √1
2 ,因
2" 2 # " 1 #
1 1 1
√ − √2 √ √
此U = √1 2
√1
,则U T = 2
1 1
2 , 此时如
2 " 2
− 2
√ √
2
1 1
#
√ √
果Q = UT = 2 2 ,则只对角化了CY ,未降维。降维则是
− √12 1

2
取Q的第一行
h i h i
3 降维: √12 √1
2
X= − √32 − √12 0 √3
2
− √12 ,此时可验
证CY = 2 = λ1
程博士 5 月深度学习班:机器学习中的数学 julyedu.com 31 / 41
矩阵总结(板书)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 32 / 41


1 序言

2 微积分重点

3 概率论重点

4 矩阵重点

5 凸优化重点

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 33 / 41


一般约束优化问题

约束优化问题一般形式:

minimize f (x)
subject to ai (x) = 0 for i = 1, 2, · · · , p
c j (x) ≥ 0 for j = 1, 2, · · · , q (17)

可行域:满足 f (x)定义域和约束条件的x的集合。c j (x) = 0表明不


等式约束被激活(active)。

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 34 / 41


一般约束优化问题(举例)

考虑以下约束优化问题

minimize f (x) = x12 + x22 − 4x1 + 4 = (x1 − 2)2 + x22


subject to c1 (x) = x1 − 2x2 + 6 ≥ 0
c2 (x) = −x12 + x2 − 1 ≥ 0, c3 (x) = x1 ≥ 0, c4 (x) = x2 ≥ 0

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 35 / 41


一般约束优化问题极值点一阶必要条
件(Karush-Kuhn-Tucker(KKT))

KKT条件(思考如何把约束优化转化为无约束优化)
如果x∗ 是约束优化问题的局部最小解,那么有
1 ai (x∗ ) = 0 for i = 1, 2, · · · , p
2 c j (x∗ ) ≥ 0 for j = 1, 2, · · · , q
3 存在Lagrange multipliers λi∗ , i = 1, 2, · · · , p和u∗j , j = 1, 2, · · · , p 使得
p q

∇ f (x ) = ∑ λi∗ ∇ai (x∗ ) + u∗
∑ j ∇c j (x∗
)
i=1 j=1

4 u∗j c j (x∗ ) = 0 for j = 1, 2, · · · , q


5 u∗j ≥ 0 for j = 1, 2, · · · , q
条件3解释:Lagrangin
p
L (x, λ , µ ) = f (x) − ∑i=1 λi ai (x) − ∑qj=1 u j c j (x),则条件3等价

于∇x L x , λ , µ = 0
∗ ∗


程博士 5 月深度学习班:机器学习中的数学 julyedu.com 36 / 41


KKT应用举例(1/2)

函数

minimize f (x) = x12 + x22 − 14x1 − 6x2


subject to c1 (x) = 2 − x1 − x2 ≥ 0
c2 (x) = 3 − x1 − 2x2 ≥ 0

KKT

2x1 − 14 + u1 + u2 = 0
2x2 − 6 + u1 + 2u2 = 0
u1 (2 − x1 − x2 ) = 0
u2 (3 − x1 − 2x2 ) = 0
u1 ≥ 0
u2 ≥ 0

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 37 / 41


KKT应用举例(2/2)

解KKT条件,考虑所有的cases:不等式激活和ui 的非负性
Case I,没有激活的情况,则u∗1 = u∗2 = 0,可得x1∗ = 7, x2∗ = 3,非
解。
Case II, 一个激活(作业)
Case III,两个都激活(作业)

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 38 / 41


凸优化问题标准形式(Game Over)

凸优化问题

minimize f0 (x)
subject to fi (x) ≤ 0 for i = 1, 2, · · · , m
hi (x) = 0 for i = 1, 2, · · · , p (18)

则有 f0 (x)是凸函数,可行域是凸集,课上简单讲述凸函数和凸集。

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 39 / 41


优化在机器学习中的应用概述

PCA
ICA
SVM,找最优的分离平面
线性回归
最大似然
等等

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 40 / 41


谢谢!内容多,时间有限,恳
请大家批评指正!

程博士 5 月深度学习班:机器学习中的数学 julyedu.com 41 / 41

You might also like