多模态回归—不止L1与L2损失

最新推荐文章于 2024-10-09 02:39:10 发布

翻译最新推荐文章于 2024-10-09 02:39:10 发布 · 3.6k 阅读

12 ·

CC 4.0 BY-SA版权

原文链接：https://towardsdatascience.com/anchors-and-multi-bin-loss-for-multi-modal-target-regression-647ea1974617

文章标签：

#多模态损失 #Multi-Bin loss #L1损失 #L2损失 #Anchor Boxes

学习机器专栏收录该内容

1 篇文章

订阅专栏

本文探讨了在处理多模态回归目标时，L1和L2损失的局限性，并介绍了多bin损失方法，该方法通过将目标范围离散化为多个区间(bin)，结合分类与回归来更有效地解决问题。

部署运行你感兴趣的模型镜像

前言：本篇博文为译文，翻译自Patrick Langechuan Liu 发表在towards data science的博文 “Multimodal Regression — Beyond L1 and L2 Loss”

原博文链接：https://towardsdatascience.com/anchors-and-multi-bin-loss-for-multi-modal-target-regression-647ea1974617

原博文撰写时间：2019-09-30

深度学习最著名的应用是图像分类，其目标是训练神经网络从N个预定义的可能性中选择一个. 经过训练的神经网络可以从许多类别中分辨出一小块图像中的物体类型(例如猫). 这种情况下，常用的softmax损失函数即可表现很好. 然而，有时候网络的输出不是离散的类别，而是连续的值，这就是事情开始变得复杂的地方（This is where things start to get complicated）.

（笔者注解：这不就是分类与回归任务中需要的损失函数不同嚒）

当面对一个连续的回归目标时，很容易想到将L1或L2损失直接应用到原始目标上，看它效果如何. 如果回归目标是单峰的（unimodal）(或者在分布中只有一个明显的峰值，非常像高斯)，L2范数应该工作得很好. 然而，如果目标是超过单峰的，L2损失则不能得到很好的效果.

本文旨在讨论更有条理的（principled）方法来得到连续回归目标的损失，而且不止于高斯目标分布.

0. 为什么L2损失在某些情况下会失败？

从概率的观点来看，L2损失假定潜在的目标分布是高斯分布(因此是单峰的). 最小化L2损失，或均方误差(MSE)，均是最大化对数似然高斯（log-likelihood of a Gaussian）. L2损失鼓励网络将所有模态的损失最小化，这将导致对任何单一模态的估计都可能很差. 特别是在图像重建应用中，使用L2损失通常会导致图像模糊. 这是由于假设噪声是高斯分布失败造成的.

请注意，L1损失也不好. L2损失假设高斯先验，L1损失假设拉普拉斯先验（Laplacian prior），也是一种单峰分布. 直观地看，平滑L1损失（smooth L1 loss），或Huber损失，是L1和L2损失的组合，也假设了一个单峰的基本分布.

首先将回归目标的分布可视化，并考虑比L2更能反映和容纳目标数据分布的其他损失函数，才是更加合理的做法. 例如，如果目标分布是双峰的，一种直观的方法是查找目标属于哪个模式(或bin)，然后对距模态中心的偏移进行回归.

这正是所谓的多bin损失(或混合分类/回归损失，离散/连续损失)所做的. 在CVPR 2017年的论文《3D Bounding Box Estimation Using Deep Learning and Geometry》中，首次提出了这种损失用于角度回归. 最初的背景是在单眼3D车辆检测中返回一个范围在[-π, π)的连续方向角. 从那时起，它被广泛应用于三维物体检测中的汽车方向回归，包括仅使用单眼图像(如Multi-level fusion、MonoPSR和FQNet)和使用点云(如Frustum PointNet和AVOD).

1. 在多Bin（Multi-Bin）损失之前（预备知识）

由于回归目标的范围较大，以及周期性带来的角度不确定性，方向估计可能是回归中最困难的问题之一.

在论文Crafting a multi-task CNN for viewpoint estimation (BMVC 2016)和Render for CNN: Viewpoint Estimation in Images Using CNNs Trained with Rendered 3D Model Views (CVPR 2015)中，作者总结了几种用于方向预测的方法（它们有不同的形式），分别是:

预测cos(θ)和sin(θ)
预测cos(θ-π/3), cos(θ) and cos(θ+π/3)
基于softmax交叉熵损失，直接将其划分为n个bins
基于加权交叉熵损失，使用几何结构感知分类（geometrically structure aware classification, GSA cls）

3和4的主要区别在于，传统的交叉熵只考虑了一个bin(包含ground truth的bin)的预测，而几何感知交叉熵损失考虑了所有bin，并以ground truth到每个bin中心的距离进行加权. 3和4只将得分最高的bin作为最终预测.

2. 原始多Bin（Multi-Bin）损失（用于角度回归）

原始的Multi-Bin损失将目标范围离散化，并将其划分为n个重叠的bin. 对于每个bin，神经网络模型既估计输出目标位于第i个bin内的置信概率Ci，也估计ground truth到bin中心的距离以作为输出目标的加权值. 总的multi-bin损失基本上是分类损失项(通常是softmax)和位置回归项(通常是L2或L1或平滑L1损失)的加权平均值.

注意在训练和推理过程中存在差异. 在训练过程中，所有包含ground truth角的bin被强制用于估计正确的目标. 在推理过程中，选择具有最大置信度的bin，并将该bin的估计残差应用于计算最终输出.

这一思想可以推广到角回归（angle regression）以外的许多情况. 关于重叠bin（overlapping bins）的一个简短说明:这对于均匀分布更重要，但对于多模态分布（multimodal distribution）就不那么重要了，因为对于后者，在bin边界上的样本要少得多.

2.1 Bin 宽度选择

如果回归目标中没有明确的聚类模式，且目标范围较宽，建议使用标准差作为bin尺度，正如论文GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving (CVPR 2019)所推荐. 这比直接回归目标的效果好得多.

2.2 改进的 Multi-Bin Loss

在论文3D-RCNN: Instance-level 3D Object Reconstruction via Render-and-Compare (CVPR 2018)中，作者提出了不同的multi-bin损失. 它也将连续目标范围离散化为bins，但不是使用softmax挑选出唯一正确的bin，而是使用bin中心的加权平均(期望)作为最终预测，并使用L1进行正则化. 这样，就没有必要回归到bin中心的偏移量. 这与GSA的公式非常接近.