Professional Documents
Culture Documents
第3章 一元线性回归
第3章 一元线性回归
(南瓜书)
第3章 一元线性回归
本节主讲:谢文睿
本节大纲
西瓜书对应章节:3.1、3.2
1. 算法原理
2. 线性回归的最小二乘估计和极大似然估计
3. 求解w和b
算法原理
举一个通过【发际线的高度】预测【计算机水平】的例子
算法原理
仅通过【发际线高度】预测【计算机水平】:
f (x) = w1 x1 + b
+二值离散特征【颜值】(好看:1,不好看:0)
f (x) = w1 x1 + w2 x2 + b
+有序的多值离散特征【饭量】(小:1,中:2,大:3)
f (x) = w1 x1 + w2 x2 + w3 x3 + b
+无序的多值离散特征【肤色】(黄:[1,0,0],黑:[0,1,0],白:[0,0,1])
f (x) = w1 x1 + w2 x2 + w3 x3 + w4 x4 + w5 x5 + w6 x6 + b
最小二乘估计
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
m
E(w,b) = ∑ (yi − f (xi ))2
i=1
m
= ∑ (yi − (wxi + b))
2
i=1
m
= ∑ (yi − wxi − b)
2
i=1
第三步:求出使得L(μ, σ2 )取到最大值的μ, σ
极大似然估计
由于对数函数ln是单调递增函数,所以ln L(μ, σ2 )和L(μ, σ2 )拥有相同的最大值点,
而且利用对数函数的性质可以化简L(μ, σ2 )中的连乘项,因此通常会用ln L(μ, σ2 )代
替L(μ, σ2 )来求μ, σ,加了对数函数符号的似然函数ln L(μ, σ2 )称为对数似然函数。
n
ln L(μ, σ 2 ) = ln [∏ exp (− )]
1 (xi − μ)2
2σ 2
i=1
2π σ
n
exp (− )
1 (xi − μ)2
= ∑ ln 2
i=1
2π σ 2σ
推荐视频:张宇考研数学——《概率论与数理统计》
推荐教材:陈希孺.《概率论与数理统计》、盛骤 等.《概率论与数理统计》
极大似然估计
对于线性回归来说,也可以假设其为以下模型
y = wx + b + ϵ
其中ϵ为不受控制的随机误差,通常假设其服从均值为0的正态分布ϵ ∼ N (0, σ2 )(高斯
提出的,也可以用中心极限定理解释),所以ϵ的概率密度函数为
exp (− 2 )
1 ϵ2
p(ϵ) =
2π σ 2σ
若将ϵ用y − (wx + b)等价替换可得
exp (− )
1 (y − (wx + b))2
p(y) = 2
2π σ 2σ
极大似然估计
上式显然可以看作y ∼ N (wx + b, σ2 ),下面便可以用极大似然估计来估计w和b的
值,似然函数为
exp (− )
m m
1 (yi − (wxi + b))2
L(w, b) = ∏ p(yi ) = ∏ 2
2π σ 2σ
i=1 i=1
m
exp (− )
1 (yi − wxi − b)2
ln L(w, b) = ∑ ln 2
i=1
2π σ 2σ
m m
+ ∑ ln exp (− )
1 (yi − wxi − b)2
= ∑ ln 2
i=1
2π σ i=1 2σ
极大似然估计
m
1 1
ln L(w, b) = m ln − 2 ∑(yi − wxi − b)2
2π σ 2σ i=1
此即为公式3.4,等价于最小二乘估计。
拓展阅读:靳志辉.《正态分布的前世今生》
求解w和b
m
(w∗ , b∗ ) = arg min ∑(yi − wxi − b)2
(w,b) i=1
求解w和b其本质上是一个多元函数求最值(点)的问题,更具体点是凸函数求最值的问
题。
推导思路:
1. 证明E(w,b) = ∑mi=1 (yi − wxi − b)2 是关于w和b的凸函数
2. 用凸函数求最值的思路求解出w和b
求解w和b
凸集:设集合D ⊂ Rn ,如果对任意的x, y ∈ D与任意的α ∈ [0, 1],有
αx + (1 − α)y ∈ D
则称集合D是凸集。凸集的几何意义是:若两个点属于此集合,则这两点连线上的任意
一点均属于此集合(此处应该有图)。常见的凸集有空集∅,n维欧式空间Rn
凸函数:设D是非空凸集,f 是定义在D上的函数,如果对任意的x1 , x2 ∈ D, α ∈
(0, 1),均有
f (αx1 + (1 − α)x2 ) ⩽ αf (x1 ) + (1 − α)f (x2 )
则称f 为D上的凸函数(此处也应该有图)。
推荐教材:王燕军.《最优化基础理论与方法》
求解w和b
⎡ ⎤
∂f (x)
∂x1
∂f (x)
∂x2
∇f (x) =
⋮
⎣ ∂f (x) ⎦
∂xn
为函数f (x)在x处的一阶导数或梯度(说一下为啥是列向量)。
求解w和b
Hessian(海塞)矩阵(多元函数的二阶导数):设n元函数f (x)对自变量x =
(x1 , x2 , ..., xn )T 的各分量xi 的二阶偏导数 ∂∂xf∂x
2
(x)
(i = 1, 2, ..., n; j = 1, 2, ..., n)
都存在,则称函数f (x)在x处二阶可导,并称矩阵
i j
⎡ ⎤
∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
∂x21 ∂x1 ∂x2 ⋯ ∂x1 ∂xn
∂ 2 f (x) ∂ 2 f (x) ∂ 2 f (x)
2 ∂x2 ∂x1 ∂x22
⋯ ∂x2 ∂xn
∇ f (x) =
⋮ ⋮ ⋱ ⋮
⎣ ∂ 2 f (x) ∂ 2 f (x)
⋯ ∂ 2 f (x) ⎦
∂xn ∂x1 ∂xn ∂x2 ∂x2n
为函数f (x)在x处的二阶导数或Hessian(海塞)矩阵。
求解w和b
∂ 2 E(w,b) ∂ 2 E(w,b)
∇2 E(w,b) = [ ∂ 2∂w 2
E(w,b)
∂w∂b
∂ 2 E(w,b)
]
∂b∂w ∂b2
是半正定的,那么E(w,b) 就是关于w和b的凸函数。
求解w和b
m
[∑ (yi − wxi − b) ]
∂E(w,b) ∂ 2
=
∂w ∂w i=1
m
∂
=∑
2
(yi − wxi − b)
i=1
∂w
m
= ∑ 2 ⋅ (yi − wxi − b) ⋅ (−xi )
i=1
m m
= 2 (w ∑ x2i − ∑ (yi − b) xi ) 此即为公式3.5
i=1 i=1
求解w和b
∂E(w,b) ∂ ∂E(w,b)
2
= ( )
∂w ∂w ∂w
m m
[2 (w ∑ x2i − ∑ (yi − b) xi )]
∂
=
∂w i=1 i=1
m
(2w ∑ x2i )
∂
=
∂w
i=1
m
= 2 ∑ x2i
i=1
求解w和b
∂E(w,b) ∂ ∂E(w,b)
= ( )
∂w∂b ∂b ∂w
m m
[2 (w ∑ x2i − ∑ (yi − b) xi )]
∂
=
∂b
i=1 i=1
m
[−2 ∑ (yi − b) xi ]
∂
=
∂b i=1
m m
(−2 ∑ yi xi + 2 ∑ bxi )
∂
=
∂b i=1 i=1
m
= 2 ∑ xi
i=1
求解w和b
m
[∑ (yi − wxi − b) ]
∂E(w,b) ∂ 2
=
∂b ∂b i=1
m
∂
=∑
2
(yi − wxi − b)
i=1
∂b
m
= ∑ 2 ⋅ (yi − wxi − b) ⋅ (−1)
i=1
m
= 2 (mb − ∑ (yi − wxi )) 此即为公式3.6
i=1
求解w和b
∂E(w,b) ∂ ∂E(w,b)
= ( )
∂b∂w ∂w ∂b
m
[2 (mb − ∑ (yi − wxi ))]
∂
=
∂w i=1
m
(2 ∑ wxi )
∂
=
∂w
i=1
m
= 2 ∑ xi
i=1
求解w和b
∂ 2 E(w,b) ∂ ∂E(w,b)
2
= ( )
∂b ∂b ∂b
m
[2 (mb − ∑ (yi − wxi ))]
∂
=
∂b
i=1
= 2m
求解w和b
∂ 2 E(w,b) ∂ 2 E(w,b)
[ ∂ 2∂w ]
m m
2 ∑i=1 x2i 2 ∑i=1
[ ]
2 2 xi
∇ E(w,b) = ∂w∂b
∂ 2 E(w,b)
= m
E(w,b) 2 ∑i=1 xi 2m
∂b∂w ∂b2
半正定矩阵的判定定理之一:若实对称矩阵的所有顺序主子式均为非负,则该矩阵为半
正定矩阵。
∣ 2 ∑m x2 ∣ > 0
∣ i=1 i ∣
m m m
∣ 2 ∑m x2 m
2 ∑i=1 xi ∣
i=1 i
m = 2 ∑ x2i ⋅ 2m − 2 ∑ xi ⋅ 2 ∑ xi
∣ 2 ∑i=1 xi 2m ∣ i=1 i=1 i=1
m m 2
= 4m ∑ x2i − 4 (∑ xi )
i=1 i=1
求解w和b
m m 2 m m 2
− 4 (∑ xi ) = ⋅ (∑ xi )
1
4m ∑ x2i 4m ∑ x2i −4⋅m⋅
i=1 i=1 i=1
m i=1
ˉ ⋅ ∑ xi = 4m (∑ x2i − ∑ xi x
ˉ) = 4m ∑(x2i − xi x
m m m m m
= 4m ∑ x2i − 4m ⋅ x ˉ)
i=1 i=1 i=1 i=1 i=1
为了便于后续求解w,在此对b进行化简
m m
1 1
b = ∑ yi − w ⋅ ∑ xi = yˉ − wx
ˉ
m i=1 m i=1
求解w和b
= 2 (w ∑ x2i − ∑ (yi − b) xi ) = 0
m m
∂E(w,b)
∂w
i=1 i=1
m m
w ∑ x2i − ∑(yi − b)xi = 0
i=1 i=1
m m m
w ∑ x2i = ∑ yi xi − ∑ bxi
i=1 i=1 i=1
把b = yˉ − wxˉ代入上式可得
m m m
w ∑ x2i = ∑ yi xi − ∑(yˉ − w x
ˉ)xi
i=1 i=1 i=1
求解w和b
m m m m
w ∑ x2i = ∑ yi xi − yˉ ∑ xi + w x
ˉ ∑ xi
i=1 i=1 i=1 i=1
m m m m
w ∑ x2i − w x
ˉ ∑ xi = ∑ yi xi − yˉ ∑ xi
i=1 i=1 i=1 i=1
m m m m
w(∑ x2i − x
ˉ ∑ xi ) = ∑ yi xi − yˉ ∑ xi
i=1 i=1 i=1 i=1
求解w和b m m
∑i=1 yi xi − yˉ ∑i=1 xi
w=
∑m x
i=1 i
2 −xˉ ∑ m
i=1 xi
其中
m m m m
1
yˉ ∑ xi = ∑ yi ∑ xi = x
ˉ ∑ yi
i=1
m i=1 i=1 i=1
m m m m
1 1
ˉ ∑ xi = ∑ xi ∑ xi = (∑ xi )2
x
i=1
m i=1 i=1
m i=1
所以
m m m
∑i=1 yi xi − x
ˉ ∑i=1 yi ∑i=1 yi (xi − x
ˉ)
w= = 公式3.7
m 2
1 m 2 m 2
1 m
∑i=1 xi − (∑i=1 xi ) ∑i=1 xi − (∑i=1 xi )2
m m
求解w和b
w 的向量化参见《机器学习公式详解》(南瓜书)式(3.7)的解析~
BTW
机器学习三要素:
1. 模型:根据具体问题,确定假设空间
2. 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)
3. 算法:求解损失函数,确定最优模型
预告
下一节:多元线性回归
西瓜书对应章节:3.2
结束语
欢迎加入【南瓜书读者交流群】,我们将在群里进行答疑、勘误、本次直播回放、本次
直播PPT发放、下次直播通知等最新资源发放和活动通知。
加入步骤:
1. 关注公众号【Datawhale】,发送【南瓜书】三个字获取机器人“小豚”的微信二维码
2. 添加“小豚”为微信好友,然后对“小豚”发送【南瓜书】三个字即可自动邀请进群