Chapter4 线性模型20230916 I(了解机器学习重要要素、回归、分类)

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 128





Chapter 4 线性模型I







1

1
OUTLINE



•1. 机器学习概念--模型


•2. 基本形式及概念



•3. 经典的线性回归


•4. 线性分类


•5. 对数几率回归



•6. 线性判别分析

•7. 多分类学习

•8. 类别不平衡问题

2

2
1. 机器学习概念 – 模型



机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的


规律,并可以将总结出来的规律应用到未观测样本上的方法。





建立样





Review
2023-9-18 3

1. 机器学习概念 – 机器学习系统输入、输出




待决策、待预测样本









Review 4

1. 机器学习概念 – 输入、输出












2023-9-18 5

3.2.1. 机器学习的相关概念








认真阅读《机器学习系统示例》!


系统输入




6

1. 机器学习概念 –学习算法、参数化函数族











学习算法

Review 7

1. 机器学习概念 – 假设空间—模型求解










p 我们把学习过程看作一个在所有假设组成的空间中进行 ?X

搜索的过程,搜索目标是找到与训练集“匹配”fit的假

设,即能够将训练集中的样本(瓜、芒果)判断正确的
假设。假设表示一旦确定,假设空间及其规模大小就确

定了。-------某个特征的参数组合
 
?X 8

1. 机器学习概念 – 假设空间—模型求解











参数化的函数族

Review
2023-9-18 9

1. 机器学习概念 – 机器学习的三个基本要素



p机器学习方法分为三个基本要素:模型、学习准则、优化算法。








p 我们把学习过
程看作一个在
Review

所有假设组成

的空间中进行
模型、学习准则、 优化算法 基本概念

搜索的过程。
2023-9-18   arg min J ( )

10


1. 机器学习概念 – 基本要素-- 模型












2023-9-18 11

1. 机器学习概念 – 基本要素-- 模型











Do you remember?

2023-9-18 12

1. 机器学习概念 – 基本要素-- 模型











Do you remember? 非线性SVM 核函数

2023-9-18 13

1. 机器学习概念 – 基本要素-- 模型












2023-9-18 14









1943年,McCulloch
and Pitts提出上述神

学 经元模型,沿用至

今,称为M-P神经元
模型

Review





•2. 线性模型基本形式及概念








16

16








线性模型






17
2. linear model基本形式











p 确定! 模型确定!!

2023-9-18   arg min J ( )




线性模型



制留
分类 回归

复 权保
禁 所有
严 专用
,论课程
习 习导
学 器学
部 学机
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数
内 京大

16
20

简单、基本、可理解性好

向量形式:

2. linear model基本形式、优势



① 定义:线性模型是通过属性的线性组合来预测或分


类的模型,形式是线性函数。




② 作用:a. 预测或者分类。b. 可通过引入层级结构或


高维映射得到功能更为强大的非线性模型。



③ 特点:形式简单、易于建模、意义明确便于解释。



20
机器学习的三个基本要素



p机器学习方法分为三个基本要素:模型、学习准则、优化算法。







学 Review

模型、学习准则、 优化算法 基本概念


2023-9-18   arg min J ( )



21






•3. 线性回归



p线性回归是典型的线性模型,






22

22
3. 线性回归



(1)基本概念:


① 定义:试图学得一个线性模型以尽可能准确地预测


实值输出标记。


② 作用:预测。


③ 特点:形式简单、易于建模、意义明确便于解释。







23
3. 线性回归










p机器学习方法分为三个基本要素:模型、学习准则、优化算法。

2023-9-18   arg min J ( )




24









3. 线性回归





25
最小二乘法



补充:


① 最小二乘法:基于均方误差最小化来求进行模型求解的方法
称为最小二乘法。最小二乘估计法是对过度确定系统(超定方


程),即其中存在比未知数更多的方程组,以回归分析求得近似解


的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式


的结果中,将残差平方和的总和最小化。


② 几何意义:在线性回归中最小二乘法就是试图找到一条直


线,使得所有样本到直线上的欧式距离最小。



Do you remember?

补充内容

26
最小二乘法



作用:曲线拟合、预测。


线性回归为什么应用最小二乘法?



最小二乘法=可以由高斯噪声假设+极大似然估计推导出来。



= wx+bias, 认为bias服从正态分布。


在已知w和x的条件下, 也服从正态分布。然后使得 乘积最


大。经变形后,等价于最小二乘。

(可由极大似然推出,后面推导)。

补充内容

27
最大似然估计



极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概
似估计或最大似然估计。



极大似然原理的直观理解







通俗一点讲,最大似然估计,就是利用已知的样本结果,反推最有可能
(最大概率)导致这样结果的参数值。

补充内容

28













补充内容
29













补充内容
30













补充内容
31
为什么经典线性模型的优化目标函数是最小二乘(误差平方和)


,而逻辑回归则是似然函数(交叉熵)?






补充内容







32
为什么经典线性模型的优化目标函数是最小二乘(误差平方和)


,而逻辑回归则是似然函数(交叉熵)?




补充内容









33
为什么经典线性模型的优化目标函数是最小二乘(误差平方和)


,而逻辑回归则是似然函数(交叉熵)?




补充内容









34
为什么经典线性模型的优化目标函数是最小二乘(误差平方和),而


逻辑回归则是似然函数(交叉熵)?


由于有上面的假设,从而就有下面的似然函数:



补充内容



从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前


面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least
mean squares。




本页内容整理来至

作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/

lilyth_lilyth/article/det
ails/10032993 35
为什么经典线性模型的优化目标函数是最小二乘(误差平方和),而


逻辑回归则是似然函数(交叉熵)? 补充内容


2)Logistic回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到


logistic变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线


性回归用于分类问题中,也有一个假设(对应于上面回归问题中误差项独立同


分布于正态分布),其中h(x)是logistic function。


即,给定x和参数,y服从二项分布;
前面回归问题中,给定x和参数,y服从正态分布。



问题不同(一个是分类、一个是回
归)对应假设也就不同,决定了logistic


regression问题最优化目标函数是左边
这项,而非回归问题中的均方误差

LMS。

本页内容整理来至

作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/

lilyth_lilyth/article/det
以此构建优化目标函数 ails/10032993 36
最小二乘法算法步骤






Do you remember?








37
线性回归 (linear regression)



制留
使得

复 权保
禁 所有
离散属性的处理:若有“序”(order),则连续化;

严 专用
否则,转化为 k 维向量

,论课程
令均方误差最小化,有

习 习导
学 器学
部 学机
内 京大

对 进行最小二乘参数估计
16
20

补充内容

线性回归

分别对

仅 20
供 16


内 京大
部 学机
求导:

学 器学
习 习导
,论课程
严 专用
令导数为 0, 得到闭式(closed-form)解:

禁 所有
复 权保
制留


补充内容
多变量线性回归(多元线性回归,多属性线性回归)












补充内容

40
多变量线性回归(多元线性回归,多属性线性回归)






一行一个样例,前d
个位属性值,最后一
个元素为1。







补充内容

41
多变量线性回归(多元线性回归,多属性线性回归)






一行一个样例,前d
个位属性值,最后一
个元素为1。







补充内容

42
多变量线性回归(多元线性回归,多属性线性回归)






Homework 1?


Do you remember?






补充内容

43
多变量线性回归(多元线性回归,多属性线性回归)











Do you remember?

补充内容

44
多元(multi-variate)线性回归



制留
复 权保
使得

禁 所有
严 专用
,论课程
把 和 吸收入向量形式 ,数据集表示为

习 习导
学 器学
部 学机
内 京大

16
20

补充内容

多元线性回归 补充内容



制留
同样采用最小二乘法求解,有

复 权保
禁 所有
严 专用
,论课程
令 ,对 求导:

习 习导
令其为零可得

学 器学
然而,麻烦来了:涉及矩阵求逆!
部 学机
内 京大
p若 满秩或正定,则

p若 不满秩,则可解出多个
16
20

此时需求助于归纳偏好,或引入 正则化 (regularization) 后面章节介绍









•4. 线性分类








47
47
4. linear model分类














4. linear model分类














4. linear model分类





p还记得感知器?


pSVM


pLogistic回归


pSoftmax回归吗?


p主要区别使用了不同的

学 损失函数!

   arg min J ( )



线性判别函数和决策边界











p先讨论两类分类

p再多类分类

线性判别函数和决策边界—两类分类









?X




?X

线性判别函数和决策边界—两类分类














线性判别函数和决策边界—两类分类









?X




?X

线性判别函数和决策边界—两类分类









学 分类感知器原理?




线性判别函数和决策边界—两类分类











p机器学习方法分为三个基本要素:模型、学习准则、优化算法。

2023-9-18   arg min J ( )



56



线性判别函数和决策边界—两类分类














经典数值优化方法 1. 梯度下降法









梯度下降法



补充内容

58
线性判别函数和决策边界—两类分类















线性判别函数和决策边界—多类分类



•多类分类讨论









60

60
线性判别函数和决策边界—多类分类














线性判别函数和决策边界—多类分类














线性判别函数和决策边界—多类分类


















•5. 对数几率回归



广义线性模型






64

64
两类分类模型 -- Logistic 回归














Logistic 函数 补充内容!














Logistic 函数












对应位置元素相乘?
补充内容!














补充内容!
(1)对数线性回归(log-linear regression)












补充内容!

69
线性模型的变化 补充内容!



制留
对于样例 若希望线性模型的预测值逼近真实标记,

复 权保
禁 所有
则得到线性回归模型

严 专用
令预测值逼近 y 的衍生物?

,论课程
习 习导
若令

学 器学
则得到对数线性回归
部 学机
(log-linear regression)
内 京大

实际是在用 逼近 y
16
20


广义(generalized)线性模型



制留
复 权保
一般形式:

禁 所有
严 专用
,论课程
单调可微的 联系函数 (link function)

习 习导
令 则得到 对数线性回归

学 器学
部 学机
内 京大
……

16
20

补充内容!

广义线性模型(generalized linear model)











两类分类模型 -- Logistic 回归是


一种广义线性模型!

72
两类分类模型 -- Logistic 回归














两类分类模型 -- Logistic 回归














两类分类模型 -- Logistic 回归



对数几率回归












分类模型 -- Logistic 回归—参数学习



模型、学习准则、 优化算法 基本概念


2023-9-18   arg min J ( )


76




分类模型 -- Logistic 回归—损失函数




交叉熵?!!!


分类模型 -- Logistic 回归—参数学习



模型、学习准则、 优化算法 基本概念


2023-9-18   arg min J ( )


77




分类模型 -- Logistic 回归—损失函数





补充内容!

基于熵函数的可分性判据 补充内容!



u 在特征的某个取值下,如果样本属于各类的后验概


率越平均,则该特征越不利于分类;如果后验概率


越集中于某一类,则特征越有利于分类。


为了衡量各类后验概率的集中程度,借用信息论中


u
熵的概念定义了类别可分性的判据。



• 熵定义如下:变量的不确定性越大,熵也
就越大,了解所需要的信息量也就越大。 学

• 信息熵是信息论中用于度量信息量的一个

J (  )  E  J c  P (  1 | x ) , ..., P (  c | x )  
概念。一个系统越是有序,信息熵就越低;

反之,一个系统越是混乱,信息熵就越高。

13


(1)信息熵


信息论之父C. E. Shannon 在 1948 年发表的论文“通信的数


学理论( A Mathematical Theory of Communication )”中,


Shannon 指出,任何信息都存在冗余,冗余大小与信息中每


个符号(数字、字母或单词)的出现概率或者说不确定性有


关。


Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平


均信息量称为“信息熵”,并给出了计算信息熵的数学表达

式。

补充内容!

79


(1)信息熵


信息会改变你对事物的未知度和好奇心,所获得的信息量越


大,你对事物越了解,事物本身保留的信息量(事件发生后对


人产生的影响,或者说人能够接收到的不确定性)就越小,进


而你对事物的好奇心也会降低,因为你对事物的确定性越高。


至此,为了抽象这个模型,香农总结出了信息熵这个概念。


信息熵用以表示一个事物的非确定性,如果该事物的非确定性

越高,你的好奇心越重,该事物的信息熵就越高。


补充内容!

80


(1)信息熵


一个信源发送出什么符号是不确定的,衡量它可以根据其出现


的概率来度量。


概率大,出现机会多,不确定性小;反之就大。



明天。。。—概率小,不确定性越大,信息量大。


学 补充内容!



81


(1)信息熵


一个信源发送出什么符号是不确定的,衡量它可以根据其出现


的概率来度量。


概率大,出现机会多,不确定性小;反之就大。



明天。。。—概率小,不确定性越大,信息量大。





补充内容!

82


(1)信息熵
补充内容!


熵表述的是一种状态,信息熵表述的就是事物的信息状态。


事物的信息怎么定义呢?


如果你确定一件事件的发生概率是100%,你认为这件事情的


信息量为0——可不是吗,既然都确定了,就没有信息量了;


相反,如果你不确定这件事,你需要通过各种方式去了解,就


说明这件事是有意义的,是有信息量的。


信息熵表述的就是事物的不确定程度。一场势均力敌的比赛结

果的不确定性高于一场已经被看到结果的比赛,多么符合直观
理解啊!

83


(1)信息熵


从上面的直观表述,我们发现信息熵其实可以有很直观的表


述,表征的是事物的不确定性。


我们应该定量表述事物的不确定性呢?这就是信息熵的数学表


述了。



已经知道确定的事件表述为P(A)=100%,则熵为0;假设一件
事情,只有两种可能,则概率分布是P(A)和P(-A),其熵表述
为 学



补充内容! 84


(1)信息熵


该式子对应的数据分布是
补充内容!







可以发现,P(A)=0.5的时候,也就是事件结果最难预测的时

候,信息熵是最大的,值达到1——这同样是符合直觉判断

的。

85


(1)信息熵


在信源中,考虑的不是某一单个符号发生的不确定性,而是要


考虑这个信源所有可能发生情况的平均不确定性。若信源符号


有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种


符号的出现彼此独立。这时,信源的平均不确定性应当为单个


符号不确定性-logPi的统计平均值(E),可称为信息熵,即


学 补充内容!

式中对数一般取2为底,单位为比特。但是,也可以取其它对

数底,采用其它相应的单位,它们间可用换底公式换算。

86


(1)信息熵


最简单的单符号信源仅取0和1两个元素,即二元信源,其概率


为P和Q=1-P,该信源的熵即为如图1所示。


补充内容!


图1 二元信源的熵




由图可见,离散信源的信息熵具有:①非负性,即收到一个信

源符号所获得的信息量应为正值,H(U)≥0;②对称性,即

对称于P=0.5(③确定性,H(1,0)=0,即P=0或P=1已是

确定状态,所得信息量为零;④极值性,当P=0.5时,H

(U)最大;而且H(U)是P的上凸函数。 87


(1)信息熵


虽然连续熵HC(U)仍具有可加性,但不具有信息的非负性,


已不同于离散信源。


HC(U)不代表连续信源的信息量。连续信源取值无限,信息


量是无限大,而HC(U)是一个有限的相对值,又称相对熵。



但是,在取两熵的差值为互信息时,它仍具有非负性。这与力
学中势能的定义相仿。


补充内容!

88


(1)信息熵


“信息熵”(information entropy)是度量样本结合纯度的常用


指标,假定当前样本集合D中第k类样本所占比例为pk,则样


本集合D的信息熵定义为:






补充内容!

89
8.3.3 划分选择(1)信息熵











补充内容!

90
8.3.3 划分选择—ID3 算法(2)条件熵



(2)条件熵


条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不


确定性。





熵与条件熵中概率由数据估计得到时,所对应的熵和条件熵称


为经验熵和经验条件熵。若概率为0,令0log0=0

补充内容!

91
8.2.3 划分选择—ID3 算法(3)信息增益



(3)信息增益
补充内容!


信息增益表示得知特征X的信息使得类Y的信息的不确定性减


少程度。


特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验


熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差。




熵H(Y)与条件熵H(Y|X)之差称为互信息(真正传递出来的信

息),即g(D,A)。

信息增益大表明传递的信息量大,则不确定性就越小,应该选

择使得信息增益增大的条件确定结果。

92
分类模型 -- Logistic 回归—损失函数














分类模型 -- Logistic 回归—损失函数











为什么经典线性模型回归的优化目标函数

是LMSE,而Logistic回归分类则是交叉熵?

如何确定模型参数?转化为优化问题解决!




学习(求取模型)过程本质就是确定模型参数的过程。



机器学习------》优化方法解决,即cost function+优化算法



如何构建目标优化函数?



p机器学习方法分为三个基本要素:模型、学习准则、优化算法。

  arg min J ( )

2023-9-18

95
如何确定模型参数?转化为优化问题解决!




最小二乘法=可以由高斯噪声假设+极大似然估计推导出来。



Logistic回归中,实质是分类任务,Y服从二项分布,误差服
从二项分布,而非高斯分布,所以不能用最小二乘进行模型参


数估计,可以用极大似然估计来进行参数估计。





补充内容!


96
为什么经典线性模型回归的优化目标函数


是最小二乘,而逻辑回归分类则是似然函数?




补充内容







本页内容整理来至

作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/

lilyth_lilyth/article/det
ails/10032993 97
为什么经典线性模型回归的优化目标函数


是最小二乘,而逻辑回归分类则是似然函数?


由于有上面的假设,从而就有下面的似然函数:



补充内容



从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前


面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least
mean squares。




本页内容整理来至

作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/

lilyth_lilyth/article/det
ails/10032993 98
为什么经典线性模型回归的优化目标函数


是最小二乘,而逻辑回归分类则是似然函数? 补充内容


2)logistic回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到


logit变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性


回归用于分类问题中,也有一个二项分布假设(对应于上面回归问题中误差项


独立同分布于正态分布),其中h(x)是logistic function。


即,给定x和参数,y服从二项分布;
前面回归问题中,给定x和参数,y服从正态分布。



问题不同(一个是分类、一个是回
归)对应假设也就不同,决定了logistic


regression问题最优化目标函数是左边
这项,而并非回归问题中的均方误差

LMS。

本页内容整理来至

作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/

lilyth_lilyth/article/det
以此构建优化目标函数 ails/10032993 99
最大似然估计求解步骤



1.求极大似然函数估计值的一般步骤:


(1) 写出似然函数;


(2) 对似然函数取对数,并整理;


(3) 求导数 ;


(4) 解似然方程 。





补充内容!


100
求解思路



制留
若将 y 看作类后验概率估计

复 权保
禁 所有
可写为

严 专用
,论课程
于是,可使用“极大似然法”

习 习导
(maximum likelihood method)

学 器学
给定数据集
部 学机 补充内容!
最大化“对数似然”(log-likelihood)函数
内 京大

16
20


求解思路



令 , ,则 可简写为

制留
复 权保
再令

禁 所有
严 专用
,论课程
则似然项可重写为

习 习导
于是,最大化似然函数

学 器学
部 学机
内 京大
等价为最小化

16

高阶可导连续凸函数,可用经典的数值优化方法
20

补充内容!

如梯度下降法/牛顿法 [Boyd and Vandenberghe, 2004]



分类模型 -- Logistic 回归—优化计算














分类模型 -- Logistic 回归—优化计算














多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归 补充内容!



























补充内容!













补充内容!













补充内容!
多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归



补充内容!












多类分类问题 -- Softmax回归











p机器学习方法分为三个基本要素:模型、学习准则、优化算法。

   arg min J ( )

2023-9-18

如何确定模型参数?转化为优化问题解决!




学习(求取模型)过程本质就是确定模型参数的过程。



机器学习------》优化方法解决,即cost function+优化算法



如何构建目标优化函数?



p机器学习方法分为三个基本要素:模型、学习准则、优化算法。

  arg min J ( )

2023-9-18

115
多类分类问题 -- Softmax回归











p机器学习方法分为三个基本要素:模型、学习准则、优化算法。

   arg min J ( )

2023-9-18

多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归



























补充内容!
多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归














多类分类问题 -- Softmax回归














讨论:对数几率回归应用于分类任务



优点:



直接对分类可能性进行建模,无需事先假设数据分布,避免了


假设分布不准确所带来的问题;



不是仅预测出“类别”,而是可得到近似概率预测,这对许多


需利用概率辅助决策的任务很有用;



对率函数是任意阶可导的凸函数,有很好的数学性质,现有很

多数值优化算法都可以直接用于求解最优解。

补充内容!123

讨论:对数几率回归应用于分类任务



思考题:在二分类问题中,为什么弃用传统的线性回归模型,


改用逻辑回归?



线性回归用于二分类时,首先想到下面这种形式,p是属于类


别的概率:



但是这时存在的问题是:
1)等式两边的取值范围不同,右边是负无穷到正无穷,左边

是[0,1],这个分类模型的存在问题

2)实际中的很多问题,都是当x很小或很大时,对于因变量P

的影响很小,当x达到中间某个阈值时,影响很大。即实际中

很多问题,概率P与自变量并不是直线关系。

补充内容!
124
讨论:对数几率回归应用于分类任务



思考题:在二分类问题中,为什么弃用传统的线性回归模型,


改用逻辑回归?
补充内容!







y = P(i |X)

= 逻辑

回归函数

Z=

125
二分类任务 补充内容!



制留
线性回归模型产生的实值输出 找z和y的

复 权保
期望输出 联系函数

禁 所有
严 专用
理想的“单位阶跃函数”

,论课程
(unit-step function)

习 习导
学 器学
部 学机
内 京大
常用
性质不好, 单调可微、任意阶可导

需找“替代函数”
16

对数几率函数
(surrogate function)
20

(logistic function)

简称“对率函数”

对率回归 补充内容!



以对率函数为联系函数:

制留
复 权保
变为

禁 所有
严 专用
即:

,论课程
“对数几率” 几率(odds), 反映了 x 作为正例的相对可能性

习 习导
(log odds, 亦称 logit)

学 器学
“对数几率回归”(logistic regression)
部 学机
简称“对率回归”
注意:它是
内 京大
• 无需事先假设数据分布 分类学习算法!

• 可得到“类别”的近似概率预测
16
20

• 可直接应用现有数值优化算法求取最优解


致谢与说明



• 本章课件标有“南京大学机器学习导论课程专用所有权保留”的页


面所有权属南京大学。


• 课件部分内容来自《Introduction of Machine Learning 台湾Dr.


Hung-yi Lee》



• 课件仅限本课堂内部教学使用,不用商业用途。


• 课件仅限本课堂内部教学使用,勿转载或作他用。



You might also like