Professional Documents
Culture Documents
机器学习中数学基础
机器学习中数学基础
程博士
julyedu.com
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点
1 本人矩阵理论学习笔记
2 张贤达,矩阵分析与应用
3 本人凸优化理论学习笔记
4 Stephen Boyd, Convex Optimization, 英文原版
5 概率和数理统计,本科教材
6 互联网相关搜索资料
红色框表示非常重要的定理或内容
定理或内容,仔细弄明白
绿色框表示具体的例子
举例,会举一反三
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点
导数的定义
0 f (a + h) − f (a)
f (a) = lim (1)
h→0 h
常见函数的导数
I (xa )0 = axa−1
I (ex )0 = ex
I (ax )0 = ln (a) ax
I (ln (x))0 = 1
x
d
I
dx sin(x) = cos(x)
d
I
dx cos(x) = − sin(x)
(α f + β g)0 = α f 0 + β g0
( f g)0 = f 0 g + f g0
0
f f 0 g− f g0
g = g2
梯度和Hessian矩阵(以下均假设连续可导)
一阶导数和梯度(gradient vector)
∂ f (x)
∂ x1
0 ∂ f (x) ..
f (x) ; ∇ f (x) = = . (2)
∂x
∂ f (x)
∂ xn
二阶导数和Hessian矩阵
∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
∂ x12 ∂ x1 ∂ x2 ··· ∂ x1 ∂ xn ···
∂ 2 f (x) ∂ 2 f (x)
∂ x2 ∂ x1 ∂ x22
f 00 (x) ; 2
H (x) = ∇ f (x) = (3)
..
.
∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
∂ xn ∂ x1 ∂ xn ∂ x2 ∂ xn2
泰勒级数展开(标量)
输入为标量的泰勒级数展开
1 00
f (xk + δ ) ≈ f (xk ) + f 0 (xk ) δ + f (xk ) δ 2
2
思考实际使用中的局限?
泰勒级数展开(矢量)(和标量情况对比)
输入为矢量的泰勒级数展开
T 1 T 2
f (xk + δ ) ≈ f (xk ) + ∇ f (xk ) δ + δ ∇ f (xk ) δ
2
梯度方向?梯度下降法从哪儿来?
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点
通常,P(A|B) 6= P(B|A),但是如何确定两者的关系?(溯源)
P(A∩B) P(A∩B)
I P(A|B) = P(B) ,同样有P(B|A) = P(A) ,因此
有P(A|B) P(B) = P(A ∩ B) = P(B|A) P(A)
I 可得P(B|A) = P(A|B) P(B)
P(A) 和P(A|B) = P(B|A) P(A)
P(B)
I 先验概率,后验概率解释
二则一:P(B) = P(A, B) + P(AC , B) = P(B|A)P(A) + P(B|AC )P(AC )故
有
P(B|A) P(A)
P(A|B) = C C
(9)
P(B|A)P(A) + P(B|A )P(A )
概率密度形式:
f (x, y) f (y|x) f (x) f (y|x) f (x)
f (x|y) = = = R∞ (10)
f (y) f (y) −∞ f (y|x) f (x) dx
贝叶斯应用举例
假设吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测
呈阴性(-)的概率为99%。假设某公司对全体雇员进行吸毒检测,已
知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多
高?(作业,答案0.3322)
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点
Ax = λ x几何意义,并思考如何计算A1000
4 1 1
给定一个矩阵A = ,对于x1 = , 则有Ax1 =
1 4 0
4 1 1
;对于x3 = ,则有Ax3 = 5
1 1 1
特征分解的一般性质
对于Axi = λ xi ,如果所有的特征值都不相同,则相应的所有的特征
向量线性无关。此时,A可以被对角化为
A = VΛV−1 . (11)
思考:所有的方阵都可以对角化吗?
如果一个对称矩阵的特征值不同,则其相应的所有的特征向量正
交(UUT = UT U = I)
A = UΛUT (12)
λ1 uT1
.. ..
= [u1 , . . . , un ] (13)
. .
λn uTn
n
= ∑ λi ui uTi (14)
i=1
深入思考公式(14)
思考,如果一个对称矩阵的特征值相同,是否也可以找到相互正交
的特征向量?
思考实际工程中对称矩阵多吗?
程博士 5 月深度学习班:机器学习中的数学 julyedu.com 25 / 41
对称矩阵的特征分解(2/2)
对称矩阵的特征值是实数
AT A AAT
Rank = Rank = Rank (A) = Rank (Λ)
思考对于任意矩阵,能否找到一个类似的分解?
xT Ax = ∑∑ xi x j ai j (16)
被称为二次型。
如果对于所有x ∈ Rn ,有xT Ax ≥ 0,则为半正定矩阵(positive
semidefinite),此时λ (A) ≥ 0。
如果对于所有x ∈ Rn , x 6= 0,有xT Ax > 0,则为正定矩阵(positive
definite)。
负定矩阵
不定矩阵(indefinite)
二次型图形
二次函数 f (x) = xT Ax + 2bT x + c
∇ f (x) = 2Ax + 2b,∇2 f (x) = 2A
PCA的本质(协方差矩阵的相似对角化,KL变换)
给定一个矩阵X ∈ Rm×n ,例如
a1 a2 · · · an
X=
b1 b2 · · · bn
选择k < m个正交基进行降维的同时又尽量保留原始的信息。即,使
得A变换到这组基后,使得行向量间的协方差为0,而每个行向量的方差
尽可能大。
协方差矩阵(对称半正定)为
1 n 2 1 n
1 ∑ a n ∑i=1 ai bi
CX = XXT = n i=1 i
1 n 1 n 2
n n ∑i=1 ai bi ∑
n i=1 ib
PCA的本质
问题:假设变换矩阵为Y = QX,并先假设Q是方阵(先不降维),则
有
1
CY = YYT = QCX QT
n
如何使得CY 是一个对角矩阵?回忆CX = UΛUT ⇒ Λ = UT CX U. 如
果Q = UT ?
思考如何降维?
PCA降维举例(思考特征值反应了什么?)
6 4
−1 −1 0 2 0
1 X= ,CX = 5
4
5
6
−2 0 0 1 1 5 5
2 计算C
" 1X 特征值为:λ
# " # 1 = 2, λ 2 = 2/5, 特征值特征向量
√ − √1
为 √12 , √1
2 ,因
2" 2 # " 1 #
1 1 1
√ − √2 √ √
此U = √1 2
√1
,则U T = 2
1 1
2 , 此时如
2 " 2
− 2
√ √
2
1 1
#
√ √
果Q = UT = 2 2 ,则只对角化了CY ,未降维。降维则是
− √12 1
√
2
取Q的第一行
h i h i
3 降维: √12 √1
2
X= − √32 − √12 0 √3
2
− √12 ,此时可验
证CY = 2 = λ1
程博士 5 月深度学习班:机器学习中的数学 julyedu.com 31 / 41
矩阵总结(板书)
2 微积分重点
3 概率论重点
4 矩阵重点
5 凸优化重点
约束优化问题一般形式:
minimize f (x)
subject to ai (x) = 0 for i = 1, 2, · · · , p
c j (x) ≥ 0 for j = 1, 2, · · · , q (17)
考虑以下约束优化问题
KKT条件(思考如何把约束优化转化为无约束优化)
如果x∗ 是约束优化问题的局部最小解,那么有
1 ai (x∗ ) = 0 for i = 1, 2, · · · , p
2 c j (x∗ ) ≥ 0 for j = 1, 2, · · · , q
3 存在Lagrange multipliers λi∗ , i = 1, 2, · · · , p和u∗j , j = 1, 2, · · · , p 使得
p q
∗
∇ f (x ) = ∑ λi∗ ∇ai (x∗ ) + u∗
∑ j ∇c j (x∗
)
i=1 j=1
函数
KKT
2x1 − 14 + u1 + u2 = 0
2x2 − 6 + u1 + 2u2 = 0
u1 (2 − x1 − x2 ) = 0
u2 (3 − x1 − 2x2 ) = 0
u1 ≥ 0
u2 ≥ 0
解KKT条件,考虑所有的cases:不等式激活和ui 的非负性
Case I,没有激活的情况,则u∗1 = u∗2 = 0,可得x1∗ = 7, x2∗ = 3,非
解。
Case II, 一个激活(作业)
Case III,两个都激活(作业)
凸优化问题
minimize f0 (x)
subject to fi (x) ≤ 0 for i = 1, 2, · · · , m
hi (x) = 0 for i = 1, 2, · · · , p (18)
则有 f0 (x)是凸函数,可行域是凸集,课上简单讲述凸函数和凸集。
PCA
ICA
SVM,找最优的分离平面
线性回归
最大似然
等等