损失函数｜交叉熵损失函数

9/21/23, 1:40 PM 损失函数｜交叉熵损失函数
损失函数｜交叉熵损失函数
飞鱼Talk
小渔村｜码农｜GTD
2934 赞同 · 147 评论 · 3847 收藏
这篇文章中，讨论的Cross Entropy损失函数常用于分类问题中，但是为什么它会在分类问题中这
么有效呢？我们先从一个简单的分类例子来入手。
1. 图像分类任务
我们希望根据图片动物的轮廓、颜色等特征，来预测动物的类别，有三种可预测类别：猫、狗、
猪。假设我们当前有两个模型（参数不同），这两个模型都是通过sigmoid/softmax的方式得到对
于每个预测结果的概率值：
模型1：
预测真实是否正确
0.3 0.3 0.4 0 0 1 (猪) 正确
0.3 0.4 0.3 0 1 0 (狗) 正确
0.1 0.2 0.7 1 0 0 (猫) 错误
模型1对于样本1和样本2以非常微弱的优势判断正确，对于样本3的判断则彻底错误。
模型2：
预测真实是否正确
0.1 0.2 0.7 0 0 1 (猪) 正确
0.1 0.7 0.2 0 1 0 (狗) 正确
0.3 0.4 0.3 1 0 0 (猫) 错误
模型2对于样本1和样本2判断非常准确，对于样本3判断错误，但是相对来说没有错得太离谱。
好了，有了模型之后，我们需要通过定义损失函数来判断模型在样本上的表现了，那么我们可以定
义哪些损失函数呢？
1.1 Classification Error（分类错误率）
https://www.zhihu.com/tardis/zm/art/35709485?source_id=1003 1/9
最为直接的损失函数定义为：
模型1：
模型2：
我们知道，模型1和模型2虽然都是预测错了1个，但是相对来说模型2表现得更好，损失函数值照
理来说应该更小，但是，很遗憾的是，并不能判断出来，所以这种损失函数
虽然好理解，但表现不太好。
1.2 Mean Squared Error (均方误差)
均方误差损失也是一种比较常见的损失函数，其定义为：
模型1：
对所有样本的loss求平均：
模型2：
我们发现，MSE能够判断出来模型2优于模型1，那为什么不采样这种损失函数呢？主要原因是在
分类问题中，使用sigmoid/softmx得到概率，配合MSE损失函数时，采用梯度下降法进行学习时，
会出现模型一开始训练时，学习速率非常慢的情况（MSE损失函数）。
有了上面的直观分析，我们可以清楚的看到，对于分类问题的损失函数来说，分类错误率和均方误
差损失都不是很好的损失函数，下面我们来看一下交叉熵损失函数的表现情况。
1.3 Cross Entropy Loss Function（交叉熵损失函数）
1.3.1 表达式
(1) 二分类
在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为
和，此时表达式为（的底数是）：
其中：
- —— 表示样本的label，正类为，负类为
- —— 表示样本预测为正类的概率
(2) 多分类
多分类的情况实际上就是对二分类的扩展：
其中：
- ——类别的数量
- ——符号函数（或），如果样本的真实类别等于取，否则取
- ——观测样本属于类别的预测概率
现在我们利用这个表达式计算上面例子中的损失函数值：
模型1：
模型2：
上述计算可以使用python的sklearn库
from sklearn.metrics import log_loss

y_true = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]
y_pred_1 = [[0.3, 0.3, 0.4], [0.3, 0.4, 0.3], [0.1, 0.2, 0.7]]
y_pred_2 = [[0.1, 0.2, 0.7], [0.1, 0.7, 0.2], [0.3, 0.4, 0.3]]
print(log_loss(y_true, y_pred_1))
print(log_loss(y_true, y_pred_2))
____________
1.3783888522474517
0.6391075640678003
可以发现，交叉熵损失函数可以捕捉到模型1和模型2预测效果的差异。
2. 函数性质
可以看出，该函数是凸函数，求导时能够得到全局最优值。
3. 学习过程
交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损
失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和sigmoid(或
softmax)函数一起出现。
我们用神经网络最后一层输出的情况，来看一眼整个模型预测、获得损失和学习的流程：
1. 神经网络最后一层得到每个类别的得分scores（也叫logits）；
2. 该得分经过sigmoid(或softmax)函数获得概率输出；
3. 模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。
学习任务分为二分类和多分类情况，我们分别讨论这两种情况的学习过程。
3.1 二分类情况
二分类交叉熵损失函数学习过程
如上图所示，求导过程可分成三个子过程，即拆成三项偏导的乘积：
\frac{\partial L_i}{\partial w_i}=\frac{\partial L_i}{\partial p_i}\cdot \frac{\partial p_i}{\partial

s_i}\cdot \frac{\partial s_i}{\partial w_i}\\
3.1.1 计算第一项： \frac{\partial L_i}{\partial p_i}
L_i = -[y_i\cdot log(p_i) + (1-y_i)\cdot log(1-p_i)] \\
- p_i 表示样本 i 预测为正类的概率
- y_i 为符号函数，样本 i 为正类时取 1 ，否则取 0
\begin{aligned} \frac{\partial L_i}{\partial p_i} &=\frac{\partial -[y_i\cdot log(p_i) + (1-y_i)\cdot

log(1-p_i)]}{\partial p_i}\\ &= -\frac{y_i}{p_i}-[(1-y_i)\cdot \frac{1}{1-p_i}\cdot (-1)] \\ &= -\frac{y_i}
{p_i}+\frac{1-y_i}{1-p_i} \\ &= -\frac{y_i}{\sigma(s_i)}+\frac{1-y_i}{1-\sigma(s_i)} \\ \end{aligned} \\
3.1.2 计算第二项： \frac{\partial p_i}{\partial s_i}
这一项要计算的是sigmoid函数对于score的导数，我们先回顾一下sigmoid函数和分数求导的公
式：
p = \sigma(s) = \frac{e^{s}}{1+e^{s}} \\
f'(x) = \frac{g(x)}{h(x)}=\frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)} \\
\begin{aligned} \frac{\partial p_i}{\partial s_i} &= \frac{(e^{s_i})'\cdot (1+e^{s_i})-e^{s_i}\cdot

(1+e^{s_i})'}{(1+e^{s_i})^2} \\ &= \frac{e^{s_i}\cdot (1+e^{s_i})-e^{s_i}\cdot e^{s_i}}{(1+e^{s_i})^2}
\\ &= \frac{e^{s_i}}{(1+e^{s_i})^2} \\ &= \frac{e^{s_i}}{1+e^{s_i}}\cdot \frac{1}{1+e^{s_i}} \\ &=
\sigma(s_i)\cdot [1-\sigma(s_i)] \\ \end{aligned} \\
3.1.3 计算第三项： \frac{\partial s_i}{\partial w_i \\}
一般来说，scores是输入的线性函数作用的结果，所以有：
\frac{\partial s_i}{\partial w_i}=x_i \\
3.1.4 计算结果 \frac{\partial L_i}{\partial w_i}
\begin{aligned} \frac{\partial L_i}{\partial w_i} &= \frac{\partial L_i}{\partial p_i}\cdot \frac{\partial

p_i}{\partial s_i}\cdot \frac{\partial s_i}{\partial w_i} \\ &= [-\frac{y_i}{\sigma(s_i)}+\frac{1-y_i}{1-
\sigma(s_i)}] \cdot \sigma(s_i)\cdot [1-\sigma(s_i)]\cdot x_i \\ &= [-\frac{y_i}{\sigma(s_i)}\cdot
\sigma(s_i)\cdot (1-\sigma(s_i))+\frac{1-y_i}{1-\sigma(s_i)}\cdot \sigma(s_i)\cdot (1-
\sigma(s_i))]\cdot x_i \\ &= [-y_i+y_i\cdot \sigma(s_i)+\sigma(s_i)-y_i\cdot \sigma(s_i)]\cdot x_i \\
&= [\sigma(s_i)-y_i]\cdot x_i \\ \end{aligned} \\
可以看到，我们得到了一个非常漂亮的结果，所以，使用交叉熵损失函数，不仅可以很好的衡量模
型的效果，又可以很容易的的进行求导计算。
3.2 多分类情况
多分类交叉熵损失函数学习过程
如上图所示，求导过程可以分为三个子过程：
\frac{\partial L_i}{\partial w_{ic}}=\frac{\partial L_{i}}{\partial p_{ik}}\cdot \frac{\partial p_{ik}}

{\partial s_{ic}}\cdot \frac{\partial s_{ic}}{\partial w_{ic}} \\
和二分类区别在于：
• 因为多分类只有一个类别为 1 ，其他为 0 ，不失一般性，我们可以假设 y_{ik} 为 1

，其他为 0 ，所以损失函数求和式子中只有 y_{ik} 这项不为 0 ，即
L_i = -\log(p_{ik})
• \frac{\partial p_{ik}}{\partial s_{ic}} 这一项求导时，需要针对 c 是否等于 k 进行分类讨
论（这里 k 表示的是样本真实类别为 k ， c 表示的是对我们想对输入到 s_{ic} 的参
数 w_{ic} 求导）
3.2.1 计算第一项： \frac{\partial L_i}{\partial p_{ik}}
不失一般性，我们可以假设 y_{ik} 为 1 ，其他为 0 ，则
L_i = -\log(p_{ik}) \\
求导：
\begin{aligned} \frac{\partial L_i}{\partial p_{ik}} &=\frac{\partial -\log(p_{ik})}{\partial p_{ik}}\\

&= -\frac{1}{p_{ik}}\\ \end{aligned} \\
3.2.2 计算第二项： \frac{\partial p_{ik}}{\partial s_{ic}}
这一项要计算的是softmax函数对于得分的导数，我们先回顾一下softmax函数和分数求导的公
式：
p_{ik} = \sigma(s_{ik}) = \frac{e^{s_{ik}}}{\sum e^{s_{ij}}} \\

f'(x) = \frac{g(x)}{h(x)}=\frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)} \\
这里 k 表示的是样本真实类别为 k ， c 表示的是对输入到 s_{ic} 的参数 w_{ic} 求

导，这时候存在两种情况：
情况1: c=k
则第二项的求导式子，可以写成：
\frac{\partial p_{ik}}{\partial s_{ic}} = \frac{\partial p_{ik}}{\partial s_{ik}} \\
求导后得
\begin{aligned} \frac{\partial p_{ik}}{\partial s_{ik}} &= \frac{\frac{\partial e^{s_{ik}}}{\partial

s_{ik}}\cdot \sum e^{s_{ij}} -e^{s_{ik}}\cdot \frac{\partial \sum e^{s_{ij}}}{\partial s_{ik}}}{(\sum
e^{s_{ij}})^2} \\ &= \frac{e^{s_{ik}}\cdot \sum e^{s_{ij}}-e^{s_{ik}}\cdot e^{s_{ik}}}{(\sum
e^{s_{ij}})^2} \\ &= \frac{e^{s_{ik}}}{\sum e^{s_{ij}}} - (\frac{e^{s_{ik}}}{\sum e^{s_{ij}}})^2 \\ &=
\frac{e^{s_{ik}}}{\sum e^{s_{ij}}}\cdot (1-\frac{e^{s_{ik}}}{\sum e^{s_{ij}}}) \\ &= p_{ik}\cdot (1-
p_{ik}) \\ \end{aligned} \\
情况2: c\neq k
此时 s_{ic} 这一项只在分母中存在，求导后得：
\begin{aligned} \frac{\partial p_{ik}}{\partial s_{ic}} &= \frac{\frac{\partial e^{s_{ik}}}{\partial

s_{ic}}\cdot \sum e^{s_{ij}} -e^{s_{ik}}\cdot \frac{\partial \sum e^{s_{ij}}}{\partial s_{ic}}}{(\sum
e^{s_{ij}})^2} \\ &= \frac{0\cdot \sum e^{s_{ij}}-e^{s_{ik}}\cdot e^{s_{ic}}}{(\sum e^{s_{ij}})^2} \\ &=
-\frac{e^{s_{ik}}\cdot e^{s_{ic}}}{(\sum e^{s_{ij}})^2} \\ &= -\frac{e^{s_{ik}}}{\sum e^{s_{ij}}}\cdot
\frac{e^{s_{ic}}}{\sum e^{s_{ij}}} \\ &= -p_{ik}\cdot p_{ic} \\ \end{aligned} \\
3.2.3 计算第三项： \frac{\partial s_{ic}}{\partial w_{ic}}
一般来说，scores是输入的线性函数作用的结果，所以有：
\frac{\partial s_{ic}}{\partial w_{ic}}=x_{ic} \\
3.2.4 计算结果 \frac{\partial L_{i}}{\partial w_{ic}}
\frac{\partial L_{i}}{\partial w_{ic}}=\frac{\partial L_{i}}{\partial p_{ik}}\cdot \frac{\partial p_{ik}}

{\partial s_{ic}}\cdot \frac{\partial s_{ic}}{\partial w_{ic}} \\
情况1: c=k
\begin{aligned} \frac{\partial L_{i}}{\partial w_{ic}} &= \frac{\partial L_{i}}{\partial p_{ik}}\cdot

\frac{\partial p_{ik}}{\partial s_{ic}}\cdot \frac{\partial s_{ic}}{\partial w_{ic}} \\ &= (-\frac{1}
{p_{ik}})\cdot [p_{ik}\cdot (1-p_{ik})]\cdot x_{ik}\\ &= (p_{ik} - 1)\cdot x_{ik}\\ &= (p_{ik} -
y_{ik})\cdot x_{ik}\\ &= [\sigma(s_{ik}) - y_{ik}]\cdot x_{ik}\\ \end{aligned} \\
情况2: c\neq k
\begin{aligned} \frac{\partial L_{i}}{\partial w_{ic}} &= \frac{\partial L_{i}}{\partial p_{ik}}\cdot

\frac{\partial p_{ik}}{\partial s_{ic}}\cdot \frac{\partial s_{ic}}{\partial w_{ic}} \\ &= (-\frac{1}
{p_{ik}})\cdot [-p_{ik}\cdot p_{ic}]\cdot x_{ic}\\ &= p_{ic}\cdot x_{ic}\\ &= (p_{ic}-0)\cdot x_{ic}\\ &=
(p_{ic}-y_{ic})\cdot x_{ic}\\ &= [\sigma(s_{ic})-y_{ic}]\cdot x_{ic}\\ \end{aligned} \\
不失一般性，我们上述假设样本的真实类别为 k ，则有:
y_{ik}=1 \\
y_{ic}=0, c\neq k \\
我们求导时，对不同情况带入 y 的值后，得到了一致的表达式，如果采用向量化的形式，那么
导数就不用再分情况写了，统一成：
\frac{\partial L_{i}}{\partial w_{i}} = [\sigma(s_i)-y_i]\cdot x_i \\
可以看出，交叉熵损失函数对于二分类和多分类求导时，采用向量化的形式后，求导结果的形式是
一致的。
4. 优缺点
4.1 优点
在用梯度下降法做参数更新的时候，模型学习的速度取决于两个值：一、学习率；二、偏导值。其
中，学习率是我们需要设置的超参数，所以我们重点关注偏导值。从上面的式子中，我们发现，偏
导值的大小取决于 x_i 和 [\sigma(s)-y] ，我们重点关注后者，后者的大小值反映了我们模型
的错误程度，该值越大，说明模型效果越差，但是该值越大同时也会使得偏导值越大，从而模型学
习速度更快。所以，使用逻辑函数得到概率，并结合交叉熵当损失函数时，在模型效果差的时候学
习速度比较快，在模型效果好的时候学习速度变慢。
4.2 缺点
Deng [4]在2019年提出了ArcFace Loss，并在论文里说了Softmax Loss的两个缺点：1、随着分类

数目的增大，分类层的线性变化矩阵参数也随着增大；2、对于封闭集分类问题，学习到的特征是
可分离的，但对于开放集人脸识别问题，所学特征却没有足够的区分性。对于人脸识别问题，首先
人脸数目(对应分类数目)是很多的，而且会不断有新的人脸进来，不是一个封闭集分类问题。
另外，sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息，因为它采用了类间竞争机

制，它只关心对于正确标签预测概率的准确性，忽略了其他非正确标签的差异，导致学习到的特征
比较散。基于这个问题的优化有很多，比如对softmax进行改进，如L-Softmax、SM-Softmax、
AM-Softmax等。
5. 参考
[1]. 博客 - 神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY
[2]. 博客 - Softmax as a Neural Networks Activation Function
[3]. 博客 - A Gentle Introduction to Cross-Entropy Loss Function
[4]. Deng, Jiankang, et al. "Arcface: Additive angular margin loss for deep face recognition."
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
广告
深度学习(异步图书出品)
京东
¥140.70 去购买
编辑于 2022-03-28 · 著作权归作者所有

损失函数｜交叉熵损失函数

Uploaded by

Copyright:

Available Formats

You might also like

损失函数｜交叉熵损失函数

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

损失函数｜交叉熵损失函数

Uploaded by

Copyright:

Available Formats

9/21/23, 1:40 PM 损失函数｜交叉熵损失函数

1.1 Classification Error（分类错误率）

1.2 Mean Squared Error (均方误差)

1.3 Cross Entropy Loss Function（交叉熵损失函数）

from sklearn.metrics import log_loss

\frac{\partial L_i}{\partial w_i}=\frac{\partial L_i}{\partial p_i}\cdot \frac{\partial p_i}{\partial

3.1.1 计算第一项： \frac{\partial L_i}{\partial p_i}

L_i = -[y_i\cdot log(p_i) + (1-y_i)\cdot log(1-p_i)] \\

- p_i 表示样本 i 预测为正类的概率

- y_i 为符号函数，样本 i 为正类时取 1 ，否则取 0

\begin{aligned} \frac{\partial L_i}{\partial p_i} &=\frac{\partial -[y_i\cdot log(p_i) + (1-y_i)\cdot

3.1.2 计算第二项： \frac{\partial p_i}{\partial s_i}

\begin{aligned} \frac{\partial p_i}{\partial s_i} &= \frac{(e^{s_i})'\cdot (1+e^{s_i})-e^{s_i}\cdot

3.1.3 计算第三项： \frac{\partial s_i}{\partial w_i \\}

3.1.4 计算结果 \frac{\partial L_i}{\partial w_i}

\begin{aligned} \frac{\partial L_i}{\partial w_i} &= \frac{\partial L_i}{\partial p_i}\cdot \frac{\partial

\frac{\partial L_i}{\partial w_{ic}}=\frac{\partial L_{i}}{\partial p_{ik}}\cdot \frac{\partial p_{ik}}

• 因为多分类只有一个类别为 1 ，其他为 0 ，不失一般性，我们可以假设 y_{ik} 为 1

3.2.1 计算第一项： \frac{\partial L_i}{\partial p_{ik}}

不失一般性，我们可以假设 y_{ik} 为 1 ，其他为 0 ，则

\begin{aligned} \frac{\partial L_i}{\partial p_{ik}} &=\frac{\partial -\log(p_{ik})}{\partial p_{ik}}\\

3.2.2 计算第二项： \frac{\partial p_{ik}}{\partial s_{ic}}

p_{ik} = \sigma(s_{ik}) = \frac{e^{s_{ik}}}{\sum e^{s_{ij}}} \\

这里 k 表示的是样本真实类别为 k ， c 表示的是对输入到 s_{ic} 的参数 w_{ic} 求

\frac{\partial p_{ik}}{\partial s_{ic}} = \frac{\partial p_{ik}}{\partial s_{ik}} \\

\begin{aligned} \frac{\partial p_{ik}}{\partial s_{ik}} &= \frac{\frac{\partial e^{s_{ik}}}{\partial

\begin{aligned} \frac{\partial p_{ik}}{\partial s_{ic}} &= \frac{\frac{\partial e^{s_{ik}}}{\partial

3.2.3 计算第三项： \frac{\partial s_{ic}}{\partial w_{ic}}

\frac{\partial s_{ic}}{\partial w_{ic}}=x_{ic} \\

3.2.4 计算结果 \frac{\partial L_{i}}{\partial w_{ic}}

\frac{\partial L_{i}}{\partial w_{ic}}=\frac{\partial L_{i}}{\partial p_{ik}}\cdot \frac{\partial p_{ik}}

\begin{aligned} \frac{\partial L_{i}}{\partial w_{ic}} &= \frac{\partial L_{i}}{\partial p_{ik}}\cdot

\begin{aligned} \frac{\partial L_{i}}{\partial w_{ic}} &= \frac{\partial L_{i}}{\partial p_{ik}}\cdot

\frac{\partial L_{i}}{\partial w_{i}} = [\sigma(s_i)-y_i]\cdot x_i \\

Deng [4]在2019年提出了ArcFace Loss，并在论文里说了Softmax Loss的两个缺点：1、随着分类

另外，sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息，因为它采用了类间竞争机

[1]. 博客 - 神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY

[2]. 博客 - Softmax as a Neural Networks Activation Function

[3]. 博客 - A Gentle Introduction to Cross-Entropy Loss Function

编辑于 2022-03-28 · 著作权归作者所有

You might also like