Professional Documents
Culture Documents
Chapter4 线性模型20230916 I(了解机器学习重要要素、回归、分类)
Chapter4 线性模型20230916 I(了解机器学习重要要素、回归、分类)
Chapter4 线性模型20230916 I(了解机器学习重要要素、回归、分类)
转
制
复
禁
Chapter 4 线性模型I
严
,
习
学
部
内
供
1
仅
1
OUTLINE
载
转
•1. 机器学习概念--模型
制
•2. 基本形式及概念
复
禁
•3. 经典的线性回归
严
•4. 线性分类
,
•5. 对数几率回归
习
学
•6. 线性判别分析
部
•7. 多分类学习
内
•8. 类别不平衡问题
供
2
仅
2
1. 机器学习概念 – 模型
载
转
机器学习是指:从有限的观测数据中学习(或“猜测”)出具有一般性的
制
规律,并可以将总结出来的规律应用到未观测样本上的方法。
复
禁
严
,
建立样
习
学
部
内
供
Review
2023-9-18 3
仅
1. 机器学习概念 – 机器学习系统输入、输出
载
转
制
待决策、待预测样本
复
禁
严
,
习
学
部
内
供
Review 4
仅
1. 机器学习概念 – 输入、输出
载
转
制
复
禁
严
,
习
学
部
内
供
2023-9-18 5
仅
3.2.1. 机器学习的相关概念
载
转
制
复
禁
严
,
认真阅读《机器学习系统示例》!
习
系统输入
学
部
内
供
6
仅
1. 机器学习概念 –学习算法、参数化函数族
载
转
制
复
禁
严
,
习
学
部
内
学习算法
供
Review 7
仅
1. 机器学习概念 – 假设空间—模型求解
载
转
制
复
禁
严
,
习
学
p 我们把学习过程看作一个在所有假设组成的空间中进行 ?X
部
搜索的过程,搜索目标是找到与训练集“匹配”fit的假
内
设,即能够将训练集中的样本(瓜、芒果)判断正确的
假设。假设表示一旦确定,假设空间及其规模大小就确
供
定了。-------某个特征的参数组合
?X 8
仅
1. 机器学习概念 – 假设空间—模型求解
载
转
制
复
禁
严
,
习
学
部
参数化的函数族
内
供
Review
2023-9-18 9
仅
1. 机器学习概念 – 机器学习的三个基本要素
载
转
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
制
复
禁
严
,
习
学
p 我们把学习过
程看作一个在
Review
部
所有假设组成
内
的空间中进行
模型、学习准则、 优化算法 基本概念
供
搜索的过程。
2023-9-18 arg min J ( )
10
仅
1. 机器学习概念 – 基本要素-- 模型
载
转
制
复
禁
严
,
习
学
部
内
供
2023-9-18 11
仅
1. 机器学习概念 – 基本要素-- 模型
载
转
制
复
禁
严
,
习
学
部
Do you remember?
内
供
2023-9-18 12
仅
1. 机器学习概念 – 基本要素-- 模型
载
转
制
复
禁
严
,
习
学
部
Do you remember? 非线性SVM 核函数
内
供
2023-9-18 13
仅
1. 机器学习概念 – 基本要素-- 模型
载
转
制
复
禁
严
,
习
学
部
内
供
2023-9-18 14
仅
载
转
制
复
禁
严
,
习
1943年,McCulloch
and Pitts提出上述神
学 经元模型,沿用至
部
今,称为M-P神经元
模型
内
供
Review
仅
载
转
制
复
•2. 线性模型基本形式及概念
禁
严
,
习
学
部
内
供
16
仅
16
仅
供
内
部
学
习
,
严
线性模型
禁
复
制
转
载
17
2. linear model基本形式
载
转
制
复
禁
严
,
习
学
部
内
p 确定! 模型确定!!
供
线性模型
载
转
制留
分类 回归
复 权保
禁 所有
严 专用
,论课程
习 习导
学 器学
部 学机
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数
内 京大
南
16
20
简单、基本、可理解性好
供
向量形式:
仅
2. linear model基本形式、优势
载
转
① 定义:线性模型是通过属性的线性组合来预测或分
制
类的模型,形式是线性函数。
复
禁
严
② 作用:a. 预测或者分类。b. 可通过引入层级结构或
,
高维映射得到功能更为强大的非线性模型。
习
学
③ 特点:形式简单、易于建模、意义明确便于解释。
部
内
供
仅
20
机器学习的三个基本要素
载
转
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
制
复
禁
严
,
习
学 Review
部
内
载
转
制
复
•3. 线性回归
禁
严
p线性回归是典型的线性模型,
,
习
学
部
内
供
22
仅
22
3. 线性回归
载
转
(1)基本概念:
制
① 定义:试图学得一个线性模型以尽可能准确地预测
复
实值输出标记。
禁
② 作用:预测。
严
③ 特点:形式简单、易于建模、意义明确便于解释。
,
习
学
部
内
供
仅
23
3. 线性回归
载
转
制
复
禁
严
,
习
学
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
部
内
仅
24
仅
供
内
部
学
习
,
严
禁
3. 线性回归
复
制
转
载
25
最小二乘法
载
转
补充:
制
① 最小二乘法:基于均方误差最小化来求进行模型求解的方法
称为最小二乘法。最小二乘估计法是对过度确定系统(超定方
复
程),即其中存在比未知数更多的方程组,以回归分析求得近似解
禁
的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式
严
的结果中,将残差平方和的总和最小化。
,
② 几何意义:在线性回归中最小二乘法就是试图找到一条直
习
线,使得所有样本到直线上的欧式距离最小。
学
部
Do you remember?
内
供
补充内容
仅
26
最小二乘法
载
转
作用:曲线拟合、预测。
制
线性回归为什么应用最小二乘法?
复
禁
最小二乘法=可以由高斯噪声假设+极大似然估计推导出来。
严
,
= wx+bias, 认为bias服从正态分布。
习
在已知w和x的条件下, 也服从正态分布。然后使得 乘积最
学
大。经变形后,等价于最小二乘。
部
(可由极大似然推出,后面推导)。
内
供
补充内容
仅
27
最大似然估计
载
转
极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概
似估计或最大似然估计。
制
复
极大似然原理的直观理解
禁
严
,
习
学
部
通俗一点讲,最大似然估计,就是利用已知的样本结果,反推最有可能
(最大概率)导致这样结果的参数值。
内
供
补充内容
仅
28
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容
29
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容
30
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容
31
为什么经典线性模型的优化目标函数是最小二乘(误差平方和)
载
,而逻辑回归则是似然函数(交叉熵)?
转
制
复
禁
严
补充内容
,
习
学
部
内
供
仅
32
为什么经典线性模型的优化目标函数是最小二乘(误差平方和)
载
,而逻辑回归则是似然函数(交叉熵)?
转
制
复
补充内容
禁
严
,
习
学
部
内
供
仅
33
为什么经典线性模型的优化目标函数是最小二乘(误差平方和)
载
,而逻辑回归则是似然函数(交叉熵)?
转
制
复
补充内容
禁
严
,
习
学
部
内
供
仅
34
为什么经典线性模型的优化目标函数是最小二乘(误差平方和),而
载
逻辑回归则是似然函数(交叉熵)?
转
由于有上面的假设,从而就有下面的似然函数:
制
复
补充内容
禁
严
从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前
,
面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least
mean squares。
习
学
部
内
本页内容整理来至
供
作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/
仅
lilyth_lilyth/article/det
ails/10032993 35
为什么经典线性模型的优化目标函数是最小二乘(误差平方和),而
载
逻辑回归则是似然函数(交叉熵)? 补充内容
转
2)Logistic回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到
制
logistic变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线
复
性回归用于分类问题中,也有一个假设(对应于上面回归问题中误差项独立同
禁
分布于正态分布),其中h(x)是logistic function。
严
即,给定x和参数,y服从二项分布;
前面回归问题中,给定x和参数,y服从正态分布。
,
习
问题不同(一个是分类、一个是回
归)对应假设也就不同,决定了logistic
学
regression问题最优化目标函数是左边
这项,而非回归问题中的均方误差
部
LMS。
内
本页内容整理来至
供
作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/
仅
lilyth_lilyth/article/det
以此构建优化目标函数 ails/10032993 36
最小二乘法算法步骤
载
转
制
复
禁
Do you remember?
严
,
习
学
部
内
供
仅
37
线性回归 (linear regression)
载
转
制留
使得
复 权保
禁 所有
离散属性的处理:若有“序”(order),则连续化;
严 专用
否则,转化为 k 维向量
,论课程
令均方误差最小化,有
习 习导
学 器学
部 学机
内 京大
南
对 进行最小二乘参数估计
16
20
供
补充内容
仅
线性回归
分别对
仅 20
供 16
和
南
内 京大
部 学机
求导:
学 器学
习 习导
,论课程
严 专用
令导数为 0, 得到闭式(closed-form)解:
禁 所有
复 权保
制留
转
载
补充内容
多变量线性回归(多元线性回归,多属性线性回归)
载
转
制
复
禁
严
,
习
学
部
内
供
补充内容
仅
40
多变量线性回归(多元线性回归,多属性线性回归)
载
转
制
复
禁
一行一个样例,前d
个位属性值,最后一
个元素为1。
严
,
习
学
部
内
供
补充内容
仅
41
多变量线性回归(多元线性回归,多属性线性回归)
载
转
制
复
禁
一行一个样例,前d
个位属性值,最后一
个元素为1。
严
,
习
学
部
内
供
补充内容
仅
42
多变量线性回归(多元线性回归,多属性线性回归)
载
转
制
复
禁
Homework 1?
严
Do you remember?
,
习
学
部
内
供
补充内容
仅
43
多变量线性回归(多元线性回归,多属性线性回归)
载
转
制
复
禁
严
,
习
学
部
Do you remember?
内
供
补充内容
仅
44
多元(multi-variate)线性回归
载
转
制留
复 权保
使得
禁 所有
严 专用
,论课程
把 和 吸收入向量形式 ,数据集表示为
习 习导
学 器学
部 学机
内 京大
南
16
20
供
补充内容
仅
多元线性回归 补充内容
载
转
制留
同样采用最小二乘法求解,有
复 权保
禁 所有
严 专用
,论课程
令 ,对 求导:
习 习导
令其为零可得
学 器学
然而,麻烦来了:涉及矩阵求逆!
部 学机
内 京大
p若 满秩或正定,则
南
p若 不满秩,则可解出多个
16
20
供
,
严
禁
复
制
转
载
47
47
4. linear model分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
4. linear model分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
4. linear model分类
载
转
制
复
p还记得感知器?
禁
pSVM
严
pLogistic回归
,
pSoftmax回归吗?
习
p主要区别使用了不同的
学 损失函数!
部
内
arg min J ( )
供
仅
线性判别函数和决策边界
载
转
制
复
禁
严
,
习
学
部
内
p先讨论两类分类
供
p再多类分类
仅
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
?X
学
部
内
供
?X
仅
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
?X
学
部
内
供
?X
仅
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
学 分类感知器原理?
部
内
供
仅
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
学
部
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
内
仅
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
经典数值优化方法 1. 梯度下降法
载
转
制
复
禁
严
,
习
梯度下降法
学
部
内
供
补充内容
仅
58
线性判别函数和决策边界—两类分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
载
线性判别函数和决策边界—多类分类
转
制
•多类分类讨论
复
禁
严
,
习
学
部
内
供
60
仅
60
线性判别函数和决策边界—多类分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
线性判别函数和决策边界—多类分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
线性判别函数和决策边界—多类分类
载
转
制
复
禁
严
,
习
学
部
内
供
仅
载
转
制
复
•5. 对数几率回归
禁
严
广义线性模型
,
习
学
部
内
供
64
仅
64
两类分类模型 -- Logistic 回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
Logistic 函数 补充内容!
载
转
制
复
禁
严
,
习
学
部
内
供
仅
Logistic 函数
载
转
制
复
禁
严
,
习
学
部
内
供
对应位置元素相乘?
补充内容!
仅
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容!
(1)对数线性回归(log-linear regression)
载
转
制
复
禁
严
,
习
学
部
内
供
补充内容!
仅
69
线性模型的变化 补充内容!
载
转
制留
对于样例 若希望线性模型的预测值逼近真实标记,
复 权保
禁 所有
则得到线性回归模型
严 专用
令预测值逼近 y 的衍生物?
,论课程
习 习导
若令
学 器学
则得到对数线性回归
部 学机
(log-linear regression)
内 京大
南
实际是在用 逼近 y
16
20
供
仅
广义(generalized)线性模型
载
转
制留
复 权保
一般形式:
禁 所有
严 专用
,论课程
单调可微的 联系函数 (link function)
习 习导
令 则得到 对数线性回归
学 器学
部 学机
内 京大
……
南
16
20
供
补充内容!
仅
广义线性模型(generalized linear model)
载
转
制
复
禁
严
,
习
学
部
内
一种广义线性模型!
仅
72
两类分类模型 -- Logistic 回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
两类分类模型 -- Logistic 回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
两类分类模型 -- Logistic 回归
载
转
对数几率回归
制
复
禁
严
,
习
学
部
内
供
仅
分类模型 -- Logistic 回归—参数学习
载
转
模型、学习准则、 优化算法 基本概念
制
2023-9-18 arg min J ( )
复
76
禁
严
,
分类模型 -- Logistic 回归—损失函数
习
学
部
内
交叉熵?!!!
供
仅
分类模型 -- Logistic 回归—参数学习
载
转
模型、学习准则、 优化算法 基本概念
制
2023-9-18 arg min J ( )
复
77
禁
严
,
分类模型 -- Logistic 回归—损失函数
习
学
部
内
供
补充内容!
仅
基于熵函数的可分性判据 补充内容!
载
转
u 在特征的某个取值下,如果样本属于各类的后验概
制
率越平均,则该特征越不利于分类;如果后验概率
复
越集中于某一类,则特征越有利于分类。
禁
为了衡量各类后验概率的集中程度,借用信息论中
严
u
熵的概念定义了类别可分性的判据。
,
习
• 熵定义如下:变量的不确定性越大,熵也
就越大,了解所需要的信息量也就越大。 学
部
• 信息熵是信息论中用于度量信息量的一个
内
J ( ) E J c P ( 1 | x ) , ..., P ( c | x )
概念。一个系统越是有序,信息熵就越低;
供
反之,一个系统越是混乱,信息熵就越高。
仅
13
载
转
(1)信息熵
制
信息论之父C. E. Shannon 在 1948 年发表的论文“通信的数
复
学理论( A Mathematical Theory of Communication )”中,
禁
Shannon 指出,任何信息都存在冗余,冗余大小与信息中每
严
个符号(数字、字母或单词)的出现概率或者说不确定性有
,
关。
习
Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平
学
均信息量称为“信息熵”,并给出了计算信息熵的数学表达
部
式。
内
补充内容!
供
仅
79
载
转
(1)信息熵
制
信息会改变你对事物的未知度和好奇心,所获得的信息量越
复
大,你对事物越了解,事物本身保留的信息量(事件发生后对
禁
人产生的影响,或者说人能够接收到的不确定性)就越小,进
严
而你对事物的好奇心也会降低,因为你对事物的确定性越高。
,
至此,为了抽象这个模型,香农总结出了信息熵这个概念。
习
信息熵用以表示一个事物的非确定性,如果该事物的非确定性
学
越高,你的好奇心越重,该事物的信息熵就越高。
部
内
供
补充内容!
仅
80
载
转
(1)信息熵
制
一个信源发送出什么符号是不确定的,衡量它可以根据其出现
复
的概率来度量。
禁
概率大,出现机会多,不确定性小;反之就大。
严
,
明天。。。—概率小,不确定性越大,信息量大。
习
学 补充内容!
部
内
供
仅
81
载
转
(1)信息熵
制
一个信源发送出什么符号是不确定的,衡量它可以根据其出现
复
的概率来度量。
禁
概率大,出现机会多,不确定性小;反之就大。
严
,
明天。。。—概率小,不确定性越大,信息量大。
习
学
部
内
供
补充内容!
仅
82
载
转
(1)信息熵
补充内容!
制
熵表述的是一种状态,信息熵表述的就是事物的信息状态。
复
事物的信息怎么定义呢?
禁
如果你确定一件事件的发生概率是100%,你认为这件事情的
严
信息量为0——可不是吗,既然都确定了,就没有信息量了;
,
相反,如果你不确定这件事,你需要通过各种方式去了解,就
习
说明这件事是有意义的,是有信息量的。
学
部
信息熵表述的就是事物的不确定程度。一场势均力敌的比赛结
内
果的不确定性高于一场已经被看到结果的比赛,多么符合直观
理解啊!
供
仅
83
载
转
(1)信息熵
制
从上面的直观表述,我们发现信息熵其实可以有很直观的表
复
述,表征的是事物的不确定性。
禁
我们应该定量表述事物的不确定性呢?这就是信息熵的数学表
严
述了。
,
习
已经知道确定的事件表述为P(A)=100%,则熵为0;假设一件
事情,只有两种可能,则概率分布是P(A)和P(-A),其熵表述
为 学
部
内
供
仅
补充内容! 84
载
转
(1)信息熵
制
该式子对应的数据分布是
补充内容!
复
禁
严
,
习
学
可以发现,P(A)=0.5的时候,也就是事件结果最难预测的时
部
候,信息熵是最大的,值达到1——这同样是符合直觉判断
内
的。
供
仅
85
载
转
(1)信息熵
制
在信源中,考虑的不是某一单个符号发生的不确定性,而是要
复
考虑这个信源所有可能发生情况的平均不确定性。若信源符号
禁
有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种
严
符号的出现彼此独立。这时,信源的平均不确定性应当为单个
,
符号不确定性-logPi的统计平均值(E),可称为信息熵,即
习
学 补充内容!
部
内
式中对数一般取2为底,单位为比特。但是,也可以取其它对
供
数底,采用其它相应的单位,它们间可用换底公式换算。
仅
86
载
转
(1)信息熵
制
最简单的单符号信源仅取0和1两个元素,即二元信源,其概率
复
为P和Q=1-P,该信源的熵即为如图1所示。
禁
补充内容!
严
图1 二元信源的熵
,
习
学
由图可见,离散信源的信息熵具有:①非负性,即收到一个信
部
源符号所获得的信息量应为正值,H(U)≥0;②对称性,即
内
对称于P=0.5(③确定性,H(1,0)=0,即P=0或P=1已是
供
确定状态,所得信息量为零;④极值性,当P=0.5时,H
仅
(U)最大;而且H(U)是P的上凸函数。 87
载
转
(1)信息熵
制
虽然连续熵HC(U)仍具有可加性,但不具有信息的非负性,
复
已不同于离散信源。
禁
HC(U)不代表连续信源的信息量。连续信源取值无限,信息
严
量是无限大,而HC(U)是一个有限的相对值,又称相对熵。
,
习
但是,在取两熵的差值为互信息时,它仍具有非负性。这与力
学中势能的定义相仿。
学
部
内
补充内容!
供
仅
88
载
转
(1)信息熵
制
“信息熵”(information entropy)是度量样本结合纯度的常用
复
指标,假定当前样本集合D中第k类样本所占比例为pk,则样
禁
本集合D的信息熵定义为:
严
,
习
学
部
内
补充内容!
供
仅
89
8.3.3 划分选择(1)信息熵
载
转
制
复
禁
严
,
习
学
部
内
补充内容!
供
仅
90
8.3.3 划分选择—ID3 算法(2)条件熵
载
转
(2)条件熵
制
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不
复
确定性。
禁
严
,
习
熵与条件熵中概率由数据估计得到时,所对应的熵和条件熵称
学
为经验熵和经验条件熵。若概率为0,令0log0=0
部
内
补充内容!
供
仅
91
8.2.3 划分选择—ID3 算法(3)信息增益
载
转
(3)信息增益
补充内容!
制
信息增益表示得知特征X的信息使得类Y的信息的不确定性减
复
少程度。
禁
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验
严
熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差。
,
习
学
熵H(Y)与条件熵H(Y|X)之差称为互信息(真正传递出来的信
部
息),即g(D,A)。
内
信息增益大表明传递的信息量大,则不确定性就越小,应该选
供
择使得信息增益增大的条件确定结果。
仅
92
分类模型 -- Logistic 回归—损失函数
载
转
制
复
禁
严
,
习
学
部
内
供
仅
分类模型 -- Logistic 回归—损失函数
载
转
制
复
禁
严
,
习
学
部
内
为什么经典线性模型回归的优化目标函数
供
是LMSE,而Logistic回归分类则是交叉熵?
仅
如何确定模型参数?转化为优化问题解决!
载
转
制
学习(求取模型)过程本质就是确定模型参数的过程。
复
禁
机器学习------》优化方法解决,即cost function+优化算法
严
,
如何构建目标优化函数?
习
学
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
部
内
arg min J ( )
供
2023-9-18
仅
95
如何确定模型参数?转化为优化问题解决!
载
转
制
最小二乘法=可以由高斯噪声假设+极大似然估计推导出来。
复
禁
Logistic回归中,实质是分类任务,Y服从二项分布,误差服
从二项分布,而非高斯分布,所以不能用最小二乘进行模型参
严
数估计,可以用极大似然估计来进行参数估计。
,
习
学
部
补充内容!
内
供
仅
96
为什么经典线性模型回归的优化目标函数
载
是最小二乘,而逻辑回归分类则是似然函数?
转
制
复
补充内容
禁
严
,
习
学
部
内
本页内容整理来至
供
作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/
仅
lilyth_lilyth/article/det
ails/10032993 97
为什么经典线性模型回归的优化目标函数
载
是最小二乘,而逻辑回归分类则是似然函数?
转
由于有上面的假设,从而就有下面的似然函数:
制
复
补充内容
禁
严
从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前
,
面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least
mean squares。
习
学
部
内
本页内容整理来至
供
作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/
仅
lilyth_lilyth/article/det
ails/10032993 98
为什么经典线性模型回归的优化目标函数
载
是最小二乘,而逻辑回归分类则是似然函数? 补充内容
转
2)logistic回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到
制
logit变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性
复
回归用于分类问题中,也有一个二项分布假设(对应于上面回归问题中误差项
禁
独立同分布于正态分布),其中h(x)是logistic function。
严
即,给定x和参数,y服从二项分布;
前面回归问题中,给定x和参数,y服从正态分布。
,
习
问题不同(一个是分类、一个是回
归)对应假设也就不同,决定了logistic
学
regression问题最优化目标函数是左边
这项,而并非回归问题中的均方误差
部
LMS。
内
本页内容整理来至
供
作者:玉心sober
来源:CSDN
原文:
https://blog.csdn.net/
仅
lilyth_lilyth/article/det
以此构建优化目标函数 ails/10032993 99
最大似然估计求解步骤
载
转
1.求极大似然函数估计值的一般步骤:
制
(1) 写出似然函数;
复
(2) 对似然函数取对数,并整理;
禁
(3) 求导数 ;
严
(4) 解似然方程 。
,
习
学
部
补充内容!
内
供
仅
100
求解思路
载
转
制留
若将 y 看作类后验概率估计
复 权保
禁 所有
可写为
严 专用
,论课程
于是,可使用“极大似然法”
习 习导
(maximum likelihood method)
学 器学
给定数据集
部 学机 补充内容!
最大化“对数似然”(log-likelihood)函数
内 京大
南
16
20
供
仅
求解思路
载
转
令 , ,则 可简写为
制留
复 权保
再令
禁 所有
严 专用
,论课程
则似然项可重写为
习 习导
于是,最大化似然函数
学 器学
部 学机
内 京大
等价为最小化
南
16
高阶可导连续凸函数,可用经典的数值优化方法
20
补充内容!
供
载
转
制
复
禁
严
,
习
学
部
内
供
仅
分类模型 -- Logistic 回归—优化计算
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归 补充内容!
载
转
制
复
禁
严
,
习
学
部
内
供
仅
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容!
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容!
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容!
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
补充内容!
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
供
arg min J ( )
仅
2023-9-18
如何确定模型参数?转化为优化问题解决!
载
转
制
学习(求取模型)过程本质就是确定模型参数的过程。
复
禁
机器学习------》优化方法解决,即cost function+优化算法
严
,
如何构建目标优化函数?
习
学
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
部
内
arg min J ( )
供
2023-9-18
仅
115
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
p机器学习方法分为三个基本要素:模型、学习准则、优化算法。
供
arg min J ( )
仅
2023-9-18
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
仅
供
内
部
学
习
,
严
禁
复
制
转
载
补充内容!
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
多类分类问题 -- Softmax回归
载
转
制
复
禁
严
,
习
学
部
内
供
仅
讨论:对数几率回归应用于分类任务
载
转
优点:
制
复
直接对分类可能性进行建模,无需事先假设数据分布,避免了
禁
假设分布不准确所带来的问题;
严
,
不是仅预测出“类别”,而是可得到近似概率预测,这对许多
习
需利用概率辅助决策的任务很有用;
学
部
对率函数是任意阶可导的凸函数,有很好的数学性质,现有很
内
多数值优化算法都可以直接用于求解最优解。
供
补充内容!123
仅
讨论:对数几率回归应用于分类任务
载
转
思考题:在二分类问题中,为什么弃用传统的线性回归模型,
制
改用逻辑回归?
复
禁
线性回归用于二分类时,首先想到下面这种形式,p是属于类
严
别的概率:
,
习
但是这时存在的问题是:
1)等式两边的取值范围不同,右边是负无穷到正无穷,左边
学
是[0,1],这个分类模型的存在问题
部
2)实际中的很多问题,都是当x很小或很大时,对于因变量P
内
的影响很小,当x达到中间某个阈值时,影响很大。即实际中
供
很多问题,概率P与自变量并不是直线关系。
仅
补充内容!
124
讨论:对数几率回归应用于分类任务
载
转
思考题:在二分类问题中,为什么弃用传统的线性回归模型,
制
改用逻辑回归?
补充内容!
复
禁
严
,
习
学
y = P(i |X)
部
= 逻辑
内
回归函数
供
Z=
仅
125
二分类任务 补充内容!
载
转
制留
线性回归模型产生的实值输出 找z和y的
复 权保
期望输出 联系函数
禁 所有
严 专用
理想的“单位阶跃函数”
,论课程
(unit-step function)
习 习导
学 器学
部 学机
内 京大
常用
性质不好, 单调可微、任意阶可导
南
需找“替代函数”
16
对数几率函数
(surrogate function)
20
(logistic function)
供
简称“对率函数”
仅
对率回归 补充内容!
载
转
以对率函数为联系函数:
制留
复 权保
变为
禁 所有
严 专用
即:
,论课程
“对数几率” 几率(odds), 反映了 x 作为正例的相对可能性
习 习导
(log odds, 亦称 logit)
学 器学
“对数几率回归”(logistic regression)
部 学机
简称“对率回归”
注意:它是
内 京大
• 无需事先假设数据分布 分类学习算法!
南
• 可得到“类别”的近似概率预测
16
20
供
• 可直接应用现有数值优化算法求取最优解
仅
载
致谢与说明
转
制
• 本章课件标有“南京大学机器学习导论课程专用所有权保留”的页
复
面所有权属南京大学。
禁
• 课件部分内容来自《Introduction of Machine Learning 台湾Dr.
严
Hung-yi Lee》
,
习
• 课件仅限本课堂内部教学使用,不用商业用途。
学
• 课件仅限本课堂内部教学使用,勿转载或作他用。
部
内
供
仅