语义分割中常用的损失函数

东方采菊

已于 2022-12-06 10:21:43 修改

阅读量5.1k

点赞数 4

CC 4.0 BY-SA版权

文章标签：人工智能深度学习

于 2022-12-05 21:34:47 首次发布

本文链接：https://blog.youkuaiyun.com/Zen_of_code/article/details/128130076

前言

语义分割任务可以看作像素级的分类任务，在设计基于语义分割的深度学习架构时，尤其是在伪装目标分割的特殊场景下，损失/目标函数的选择非常关键，会直接影响到算法的学习过程，进而影响到模型的收敛速度、分割准确度。

目前，语义分割种常用的损失函数包括cross entropy, generalized dice coefficient, focal loss 等。

1. cross entropy交叉熵

逐像素的交叉熵是语义分割中最常用的一种损失函数，一般用来量化两个概率分布之间的差异。
（1）对于二分类的情况，其公式如下：
$L=\frac{1}{N} \sum_i -[y_i \cdot log(p_i)+(1-y_i) \cdot log(1-p_i)]$

其中：

$y_i$ 表示样本i的label，正类为1，负类为-
$p_I$ 表示样本i预测为正类的概率

（2）对于多分类的情况
$\frac{1}{N} \sum_i \sum_{c=1}^M y_{ic}log(p_{ic})$
其中：

M代表类别的数量
$y_{ic}$ 如果样本i的真实类别等于c取1，否则取0
$p_{ic}$ 观测样本i属于类别c的预测概率

多分类的情况实际上是对二分类的扩展。

2. dice coefficient

Dice Loss最先由V-Net文章中被提出，目的是为了增强网络对于医学影像中细小结构的分割能力，解决在学习过程中损失函数陷入局部最小值，导致前景区域特征丢失的问题。

Dice系数是一种度量集合相似度的函数，通常用于计算两个样本的相似度，取值范围在[0, 1]：
$s=\frac{2 \lvert X \cap Y \rvert}{\lvert X \rvert + \lvert Y \rvert}$
其中， $\lvert X \cap Y \rvert$ 是X和Y集合的交集的元素个数， $\lvert X \rvert$ 和 $\lvert Y \rvert$ 分别表示X和Y的元素的个数。分子系数为2，是因为分母中存在重复计算X和Y之间的共同元素的原因。

Dice越大则表示两个集合的元素之间越相似，也就说明模型训练得越好。
Dice Loss:
$d=1-\frac{2 \lvert X \cap Y \rvert}{\lvert X \rvert + \lvert Y \rvert}$
为了避免分子被0除和减少过拟合，一般会在分子分母上同时加一个常数：
$d=1-\frac{2 \lvert X \cap Y \rvert + \epsilon}{\lvert X \rvert + \lvert Y \rvert + \epsilon}$

Dice-coefficient loss function vs cross-entropy

（1）交叉熵损失函数的优点在于交叉熵值关于logits的梯度计算形式类似于p-t，其中，p代表softmax输出的预测值，t代表真实标签。而dice-coefficient的loss值为 $\frac{2pt}{p^2+t^2}$ 或 $\frac{2pt}{p+t}$ ，其关于p的梯度形式很复杂： $\frac{2t(t^2-p^2)}{{(p^2+t^2)}^2}$ 或 $\frac{2t^2}{{(p+t)}^2}$ 。当p和t的值都很小时，计算得到的梯度值可能会非常大，导致训练更加不稳定。

（2）采用Dice-coefficient的原因在于分割的最终目标就是使IOU和dice-coefficient最大，而交叉熵仅是一种代理函数。

（3）为什么Dice-coefficient对于类别不均衡问题，效果可能更好？

图像分割任务中，softmax 交叉熵loss 是对每一个像素点进行类别预测，然后平均所有的像素点. 其本质上仍是对图片的每个像素进行平等的学习，这就导致如果图像上的多种类别存在不平衡时，模型的训练会由最主流的类别所主导. 网络更偏向于对主流类别的学习，而降低了对非主流类别的特征提取能力.

而Dice loss 通过预测和GT的交集除以它们的总体像素进行计算，将一个类别的所有像素作为一个整体进行考量，而且计算交集在总体中的比例，所以不会受大量主流像素的影响，能够提取更好的效果.

实际中，dice loss 往往与 bce loss (binary cross entropy loss)结合使用，以提升模型训练的稳定性.

3. focal loss

focal loss是何恺明团队为了解决one-stage目标检测中类别不平衡（class imbalance）的问题而提出的一种损失函数。类别不平衡问题是指在对一张图像进行目标检测时，需要评估 $10^4$ 至 $10^5$ 个侯选位置，但是其中只有少数位置包含目标对象。这导致了两个问题：

（1）训练效率低。将样本分为positive和negative两类，由于大部分位置都是negative样本，使用交叉熵损失函数进行计算时，negative样本的贡献远大于positive样本，从而不利于整个目标函数的收敛。

（2）大部分negative样本位于背景区，只有极少的negative样本位于前景和背景的过渡区。位于背景区的negative样本分类相对容易，称为easy negative样本。easy negative样本在训练时对应的score很大，loss很小。在梯度下降法对模型参数进行更新时，easy negative样本对参数收敛作用有限。从而导致hard negative样本很难得到更新，效果不佳。

focal loss论文中认为，导致上述两个问题的原因在于传统的交叉熵损失函数只关注了positive \ negative样本，而没有区分easy \ hard样本。所以在传统交叉熵损失的基础上引入了调制因子 $(1-p_t)^\gamma$ ，公式如下：
$FL(p_t)=-(1-p_t)^\gamma log(p_t)$
$p_t= \begin{cases} p, & \text {if $y=1$} \\ 1-p, & \text{otherwise} \end{cases}$
其中， $\in \lbrace \pm1 \rbrace$ 代表真实标签。 $\in [0, 1]$ 代表模型对于标签y=1的估计概率。