各种 IoU 损失变体-GIoU、DIoU、CIoU、EIoU、α-IoU、SIoU、MPDIoU、Inner/Shape/Focaler-IoU...

有为少年

已于 2024-04-25 15:12:00 修改

阅读量4k

点赞数 7

分类专栏： # 深度学习实战总结深度学习 # 数字图像处理文章标签： 1024程序员节深度学习人工智能机器学习计算机视觉

于 2022-10-24 21:35:01 首次发布

本文链接：https://blog.youkuaiyun.com/P_LarT/article/details/127502104

版权

深度学习同时被 3 个专栏收录

153 篇文章

订阅专栏

深度学习实战总结

7 篇文章

订阅专栏

数字图像处理

6 篇文章

订阅专栏

在这里插入图片描述

各种 IoU 损失变体

IoU 损失及其各种变体已经在密集预测任务中展现出了优异的效果。这里做一个简单的罗列与梳理。

修改记录：

2024-4-25：添加 Inner-IoU 和 Focaler-IoU。

IoU

$\begin{align} \text{IoU} & = \frac{\text{inner}}{\text{union}} \end{align}$

这里的分子分母在不同任务中可以有着不同的定义，例如分割任务中表示目标区域，而目标检测任务中可以表示边界框。

这里列出后面可能用到的定义：

$P$ ：表示预测值，其高和宽表示为 $h_P,w_P$ ，中心点表示为 $c_P = (cx_P, cy_p)$ 。
$G$ ：表示真实值，其高和宽表示为 $h_G,w_G$ ，中心点表示为 $c_G = (cy_P, cy_p)$ 。
$\text{inner} = |P \cap G|$ ：二者的交集区域面积。
$\text{union} = |P \cup G|$ ：二者的并集区域面积。
$C$ ：表示包围 $P, G$ 的最小外接框，其高和宽表示为 $h_C,w_C$ ，中心点表示为 $c_C = (cx_C, cy_C)$ ，对角线表示为 $d_C$ 。

IoU Loss

论文：UnitBox: An Advanced Object Detection Network

$\begin{align} L_{\text{IoU}} = 1 - \text{IoU} \end{align}$

$\cdot |$ 表示区域面积或者是框的包围面积。
取值范围： $[0, 1]$

IoU Loss 的不足：

如果两个边界框没有重叠部分（non-overlapping），IoU=0，模型参数的梯度为 0 得不到更新。所以，使用 IoU 损失函数训练神经网络的收敛速度会很慢。
如果不同的预测框与真值框有相同的 IoU，无法衡量不同的预测框的好坏。

CVPR 2019 | GIoU: Generalized IoU Loss

论文：Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

$\begin{align} \text{GIoU} = \text{IoU} - \frac{|C - P \cup G|}{|C|} \end{align}$

取值范围： $(- 1, 1]$
- 完全重合时，GIoU = IoU，此时值为 1。
- 当两个框重叠区域为 0，间隔无限远的时候，此时 GIoU 值趋于 -1。

GIoU Loss：

$\begin{align} L_{\text{GIoU}} = 1 - \text{GIoU} \end{align}$

$C$ 的作用是作为一个惩罚项将预测框向真实框靠拢。对于预测框与真实框不重叠的情况，GIoU 通过向目标框缓慢移动来增加二者的重叠区域以达到最大化预测框与真实框之间重叠区域的目的，这是一个不断迭代的过程。使用 GIoU 可以解决预测框与真实框无重叠区域造成的梯度消失问题，可以得到比 MSE 和 IoU 损失函数更高精度的预测框，但是存在迭代速度慢和边界框回归错误的问题。

GIoU Loss 不足：

如果两个框处于包含状态，GIoU 就退变为 IoU，起不到大小、形状上的额外约束。
还有一种特殊情况，GIoU 也会退变为 IoU，即两个框某个边完全重合，即 $\cup G$ 。

AAAI 2020 | DIoU: Distance IoU Loss

论文：Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression

$\begin{align} \text{DIoU} = \text{IoU} - \frac{\rho^2(P, G)}{d_C^2} \end{align}$

$\rho(P, G)$ 表示预测框 $P$ 与真实框 $G$ 中心点的 欧式距离，即 2 范数（ $c_P - c_G\|_2$ ）。
$d_C$ 表示覆盖预测框与真实框的最小闭合框的对角线长度。

$\begin{align} L_{\text{DIoU}} = 1 - \text{DIoU} \end{align}$

当两个框无线接近时，IoU Loss = GIoU Loss = DIoU loss = 0
当两个框无穷远时，IoU Loss 等于 1，GIoU Loss 和 DIoU Loss 趋于 2

DIoU 中提出了两个问题，并解决了第一个问题：

能否直接优化预测框和真值框之间的距离来使模型快速收敛。
当预测框和真值框有重叠时，能否更加准确的做回归。

DIoU 损失使用了预测框与真实框中心点之间的归一化距离，对于回归问题是尺度不变的。

与 GIoU 损失一样，DIoU 损失也为非重叠情况下的预测框提供了移动方向；与 GIoU 损失不一样的是，DIoU 损失直接最小化了预测框和真实框之间的距离，即使在真实框具有水平和垂直方向时，其收敛速度也比 GIoU 要快得多。DIoU 损失可以加快神经网络的训练过程并且得到更准确的边界框回归结果，将其用于非极大值抑制 (NMS) 过程中的指标时，可以在有遮挡的情况下提供更为鲁棒的结果。

但是 DIOU 损失函数计算过程只包含了边界框与预测框重叠面积和中心点距离，并没有考虑两框的长宽比。

AAAI 2020 | CIoU: Complete IoU

论文：Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression

$\begin{align} \text{CIoU} = \text{IoU} - \frac{\rho^2(P, G)}{d_C^2} - \beta v \end{align}$

$\frac{4}{\pi^2}(\arctan \frac{w_G}{h_G} - \arctan \frac{w_P}{h_P})^2$ 用来度量预测框和真值框长宽比的相似性。
$\beta = \frac{v}{1 - \text{IoU} + v}$ 为权重系数。

$\begin{align} L_{\text{CIoU}} = 1 - \text{CIoU} \end{align}$

可以知道，CIoU 损失包含了以下 3 个几何因子：

预测框与真实框重叠区域面积的 IoU 损失。
预测框与真实框中心点之间归一化的距离。
预测框与真实框纵横比差异。

CIoU 同时解决了上面的两个问题。同时考虑了长宽比。

当预测框和真值框距离较远时，权重变小，他们的长宽比相对来说重要程度变小，模型同时拉近预测框和真值框的中心点距离。
当预测框和真值框距离较近时，权重变大，长宽比重要程度变大，模型优化预测框和真值框的长宽比，模型依然还要拉近预测框和真值框的中心点距离。

与 GIoU 和 DIoU 一样，CIoU 也是通过迭代将预测框向真实框移动，但是 CIoU 所需要的迭代次数更少，并且得到的预测框与真实框的纵横比更为接近。

Enhanced Completed IoU

论文：Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation

后续的工作改进了 CIoU 的权重系数的取值：

$\begin{align} L_{\text{Enhanced-CIoU}} = 1 - \text{IoU} + \frac{\rho^2(P, G)}{d_C^2} + \beta' v \\ \end{align}$

$\frac{4}{\pi^2}(\arctan \frac{w_G}{h_G} - \arctan \frac{w_P}{h_P})^2$ 用来度量长宽比的相似性。
$\beta' = \begin{cases} 0 & \text{ if } \text{IoU} < 0.5 \\ \frac{v}{1 - \text{IoU} + v} & \text{ if } \text{IoU} \ge 0.5 \end{cases}$

该公式表明：

在 IoU<0.5 时，CIoU 退变为 DIoU，只考虑预测框和真值框之间的中心点距离。
在 IoU>0.5 时，模型才同时考虑预测框和真值框之间的中心点距离，以及预测框的长宽比和真值框的长宽比的相似程度。随着 IoU 的变大，预测框和真值框越相近，权重变大，长宽比的重要程度也变大，模型更加注重长宽比的细节优化。

Neurocomputing 2022 | EIoU: Efficient IoU Loss

论文：Focal and Efficient IOU Loss for Accurate Bounding Box Regression

$\begin{align} \text{EIoU} = \text{DIoU} - \frac{\rho^2(w_P, w_G)}{w_C^2} - \frac{\rho^2(h_P, h_G)}{h_C^2} \end{align}$

$w_C$ 和 $h_C$ 是覆盖预测框与真实框的最小闭合框 $C$ 的宽和高。
这里的 $\rho^2$ 表示的计算两个数值之间差值的平方。

$\begin{align} L_{\text{EIoU}} & = L_{\text{IoU}} + L_{dis} + L_{asp} \\ & = 1 - \text{IoU} + \frac{\rho^2(P, G)}{c^2} + \frac{\rho^2(w_P, w_G)}{w_C^2} + \frac{\rho^2(h_P, h_G)}{h_C^2} \\ & = 1 - \text{IoU} + \frac{\rho^2(P, G)}{w_C^2 + h_C^2} + \frac{\rho^2(w_P, w_G)}{w_C^2} + \frac{\rho^2(h_P, h_G)}{h_C^2} \end{align}$

EIoU 在 CIoU 的基础上将长宽比拆开，明确地衡量了三个几何因素的差异，即重叠区域、中心点和边长，同时引入 Fcoal loss 解决了难易样本不平衡的问题。认为简单的任务框回归不需要用过大的权重来学习，而复杂的任务框回归需要大权重来学习，进而将 EIOU loss 进行改进提出 Focal EIOU loss 公式见下：

$\begin{align} L_{\text{Focal-EIoU}} = \text{IoU}^\gamma L_{\text{EIoU}} \end{align}$

一般 $\gamma$ 设置为 0.5 即可。
当任务简单的时候，IOU 接近为 1，整体退化为 EIoU loss。
当任务困难的时候，IOU 值很小，而 EIoU 的值会变大。由于 IOU 的值小于 1，说明变换小于 EIoU Loss 变换。总体遇到难的任务时 loss 会增大，增加对难的回归样本的学习。

NeurlPS 2021 | $\alpha$ -IoU

论文：Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression

$\alpha$ -IoU 将现有的基于 IoU 的损失进行了一个推广。

$\begin{align} L_{\text{IoU}} = 1 - \text{IoU} & \Rightarrow L_{\alpha-\text{IoU}} = 1 - \text{IoU}^\alpha \\ L_{\text{GIoU}} = 1 - \text{IoU} + \frac{|C - P \cup G|}{|C|} & \Rightarrow L_{\alpha-\text{GIoU}} = 1 - \text{IoU}^\alpha + (\frac{|C - P \cup G|}{|C|})^{\alpha} \\ L_{\text{DIoU}} = 1 - \text{IoU} + \frac{\rho^2(P, G)}{d_C^2} & \Rightarrow L_{\alpha-\text{DIoU}} = 1 - \text{IoU}^\alpha + \frac{\rho^{2\alpha}(P, G)}{d_C^{2\alpha}} \\ L_{\text{CIoU}} = 1 - \text{IoU} + \frac{\rho(P, G)}{d_C^2} + \beta v & \Rightarrow L_{\alpha-\text{CIoU}} = 1 - \text{IoU}^\alpha + \frac{\rho^{2\alpha}(P, G)}{d_C^{2\alpha}} + (\beta v)^\alpha \\ \end{align}$

使得 $\alpha$ -IoU 可以显着超越现有的基于 IoU 的损失，通过调节 $\alpha$ ，使探测器更灵活地实现不同水平的 bbox 回归精度，并且 $\alpha$ -IoU 对小数据集和噪声的鲁棒性更强。

并且通过实验发现，在大多数情况下，取 $\alpha=3$ 的效果最好。

Arxiv 2022 | SIoU

论文：SIoU Loss: More Powerful Learning for Bounding Box Regression
公式参考代码（论文中关于 $L_{distance}$ 的描述有点问题，这里形式参考了第三方的实现）：https://aistudio.baidu.com/aistudio/projectdetail/4198420

$\begin{align} SIoU & = IoU - \frac{L_{distance} + L_{shape}}{2} \\ L_{distance} & = \sum_{t \in \{x,y\}}1 - e^{- \gamma \rho_t} \\ L_{shape} & = \sum_{t = \{w,h\}}(1 - e^{-\omega_t})^\theta, \theta = 4 \end{align}$

$\rho_x = (\frac{cx_{G} - cx_{P}}{w_{C}})^2$
$\rho_y = (\frac{cy_{G} - cy_{P}}{h_{C}})^2$
$\gamma = 2-\text{angle cost} = 2 - [1 - 2 * \sin^2(\arcsin(\sin(\alpha)) - \frac{\pi}{4})] = 2 - \sin(2\alpha), \sin(\alpha) = \frac{\max(cy_G, cy_P) - \min(cy_G, cy_P)}{\|c_G - c_P\|_2}$
$\omega_w=\frac{|G_w-P_w|}{\max(G_w,P_w)}$
$\omega_h = \frac{|G_h-P_h|}{\max(G_h,P_h)}$

SIoU 提出了一种新的 IoU 形式，重新定义了惩罚度量，考虑了期望回归之间的向量夹角。

$\begin{align} L_{SIoU} = 1 - \text{SIoU} \end{align}$

传统的目标检测损失函数依赖于边界框回归指标的聚合，例如预测框和真实框（即 GIoU、CIoU 等）的距离、重叠区域和纵横比。然而，迄今为止提出和使用的方法都没有考虑期望的真实框和预测框之间不匹配的方向。这种不足导致收敛速度较慢且效率较低，因为预测框在训练过程中可能会“四处游荡”，最终会产生一个更差的模型。

Arxiv 2307 | MPDIoU

$\begin{align} MPDIoU = IoU - \frac{d^2_{tl}(P, G)}{w^2 + h^2} - \frac{d^2_{br}(P, G)}{w^2 + h^2} \end{align}$

$d^2_{tl}(P, G)$ 表示预测框 $P$ 和真值框 $G$ 左上角点坐标的 x 和 y 的差值平方和。
$d^2_{br}(P, G)$ 表示预测框 $P$ 和真值框 $G$ 右下角点坐标的 x 和 y 的差值平方和。

$\begin{align} L_{MPDIoU} = 1 - MPDIoU \end{align}$

值得注意的是，现有的损失函数中所考虑的因素都可以通过左上角点和右下角点的坐标来表示，例如非重叠面积、中心点距离、宽度和高度的偏差，这意味着作者提出的形式不仅考虑全面，还简化了计算过程。
如果预测边界框和真实标注边界框具有相同的宽高比，那么预测边界框位于真实标注边界框内的 $L_{MPDIoU}$ 值低于预测边界框位于真实标注边界框外的情况。这一特性保证了边界框回归的准确性，倾向于提供具有较少冗余的预测边界框。
该损失始终有界， $\le L_{MPDIoU} < 3$
在 $I o U = 0$ 时，坐标之间的有限的差异仍然可以提供适当的损失。

Arxiv 2311 | Inner-IoU

$\begin{align} \text{Inner-IoU} & = \frac{\text{inner}}{\text{union}} \\ \text{inter}' & = (\min(cx_{G}+\frac{w_{G}*\theta}{2}, cx_{P}+\frac{w_{P}*\theta}{2}) -\max(cx_{G}-\frac{w_{G}*\theta}{2}, cx_{P}-\frac{w_{P}*\theta}{2})) \\ & * (\min(cy_{G}+\frac{h_{G}*\theta}{2}, cy_{P}+\frac{h_{P}*\theta}{2}) -\max(cy_{G}-\frac{h_{G}*\theta}{2}, cy_{P}-\frac{h_{P}*\theta}{2})) \\ \text{union}' & = \theta^{2}(w_{G}h_{G} + w_{P}h_{P})-\text{inter}' \end{align}$

$\theta$ ：尺度因子，典型范围为 $[0.5, 1.5]$ 。

Inner-IoU 损失继承了 IoU 损失的一些特性，同时具有自身的特性。和 IoU 损失一样 Inner-IoU 损失的取值范围为 [0,1]。与 IoU 损失相比，当 $\theta$ 小于 1，辅助边框尺寸小于实际边框，其回归的有效范围小于 IoU 损失，但其梯度绝对值大于 IoU 损失所得的梯度，能够加速高 IoU 样本的收敛。与之相反，当 $\theta$ 大于 1，较大尺度的预测框会扩大回归有效范围，对于低 Iou 的回归有所增益。所以可以更好的替换原始的 IoU。

$\begin{align} L_{\text{Inner-IoU}} & = 1 - \text{Inner-IoU} \\ L_{\text{Inner-GIoU}} & = L_{\text{GIoU}} + \text{IoU} - \text{Inner-IoU} \\ L_{\text{Inner-DIoU}} & = L_{\text{DIoU}} + \text{IoU} - \text{Inner-IoU} \\ L_{\text{Inner-CIoU}} & = L_{\text{CIoU}} + \text{IoU} - \text{Inner-IoU} \\ L_{\text{Inner-EIoU}} & = L_{\text{EIoU}} + \text{IoU} - \text{Inner-IoU} \\ L_{\text{Inner-SIoU}} & = L_{\text{SIoU}} + \text{IoU} - \text{Inner-IoU} \\ \end{align}$

Arxiv 2312 | Shape-IoU

论文：https://arxiv.org/abs/2312.17663
代码：https://github.com/malagoutou/Shape-IoU
解读：作者导读：Shape-IoU：考虑边框形状与尺度的度量

$\begin{align} \text{Shape-IoU} & = \text{IoU} - L'_{distance} - 0.5 \times L'_{shape} \\ L'_{distance} & = \beta_h \times \rho_x + \beta_w \times \rho_y \\ L'_{shape} & = \sum_{t = \{w,h\}}(1 - e^{-\omega_t})^\theta, \theta = 4 \\ \beta_w & = \frac{2 \times G_w^{scale}}{G_w^{scale} + G_h^{scale}} \\ \beta_h & = \frac{2 \times G_h^{scale}}{G_h^{scale} + G_h^{scale}} \end{align}$

$sc a l e$ 是一个与数据集相关的尺度因子，这里用作指数。
$\rho_x = (\frac{cx_{G} - cx_{P}}{w_{C}})^2$
$\rho_y = (\frac{cy_G - cy_P}{h_C})^2$
$\omega_w = \beta_w \times \frac{|w_G-w_P|}{\max(w_G,w_P)}$
$\omega_h = \beta_h \times \frac{|h_G-h_P|}{\max(h_G,h_P)}$

在 SIoU 的基础上强化了对于真值边界框形状（宽高比例）信息和目标尺度信息的关注。所以这里的 $\omega_w$ 和 $\omega_h$ 可以用于迁移到小目标检测（Tiny Object Detection）领域中的 Dot Distance 和 Normalized Wasserstein Distance（NWD）上，用于调整中心坐标距离。

$L_{shape-IoU} = 1 - \text{Shape-IoU}$

Arixv 2401 | Focaler-IoU

论文：https://arxiv.org/abs/2401.10525
代码：https://github.com/malagoutou/Focaler-IoU
解读：作者导读：Focaler-IoU：一种改进的IoU损失函数

$\begin{align} \text{Focaler-IoU} & = \begin{cases} 0 & \text{ if } \text{IoU} < d \\ \frac{\text{IoU} - d}{u - d} & \text{ if } d \ll \text{IoU} \ll u \\ 1 & \text{ if } \text{IoU} > u \end{cases} \end{align}$

$\in [0, 1]$ ：可以调整 $d$ 与 $u$ 的值从而促使 Focaler-IoU 聚焦不同的回归样本。

样本不均衡问题存在于各类目标检测任务中，根据目标被检测的难易可以被分为困难样本与简单样本。从目标的尺度来分析，一般的检测目标可以被看作是简单样本，极小目标由于难以精准定位可以看作困难样本。对于简单样本占主导的检测任务，在边框回归过程聚焦简单样本，将有助于提升检测效果。对于困难样本占比较高的检测任务来说与之相反，需要聚焦困难样本的边框回归。为了在能够在不同的检测任务中聚焦不同的回归样本，Focaler-IoU 使用线性区间映射的方法来重构 IoU 损失，使得边框回归效果得到提升。

$\begin{align} L_{\text{Focaler-IoU}} & = 1 - \text{Focaler-IoU} \\ L_{\text{Focaler-GIoU}} & = L_{\text{GIoU}} + IoU - \text{Focaler-IoU} \\ L_{\text{Focaler-DIoU}} & = L_{\text{DIoU}} + IoU - \text{Focaler-IoU} \\ L_{\text{Focaler-CIoU}} & = L_{\text{CIoU}} + IoU - \text{Focaler-IoU} \\ L_{\text{Focaler-EIoU}} & = L_{\text{EIoU}} + IoU - \text{Focaler-IoU} \\ L_{\text{Focaler-SIoU}} & = L_{\text{SIoU}} + IoU - \text{Focaler-IoU} \\ \end{align}$