Active Learning for Deep Object Detection via Probabilistic Modeling
文章目录
简介
论文标题
- Active Learning for Deep Object Detection via Probabilistic Modeling
- 基于概率建模的主动学习在深度目标检测中的应用
- 2021 arXiv
贡献
- 提出了一种新的深度主动学习目标检测方法,该方法综合考虑了定位信息和分类信息,充分利用了任意不确定性和认知不确定性。我们的方法是高效的,并且在单个模型中使用单次前向传递。
- 我们提出了一种新的Lost算法来训练基于GMM的目标检测网络,从而提高了网络的整体性能
- 我们在两个不同的数据集上使用不同的模型证明了我们方法的有效性。
代码可在https://github.com/NVlabs/AL-MDN.上找到
公式挺长的,因为不是最终版,所以阅读起来比较费劲
摘要
主动学习的目的是通过只选择数据集上信息最丰富的样本来降低标记成本。已有的研究成果很少涉及主动学习的目标检测问题。这些方法大多是基于多模型的,或者是分类方法的直接扩展,因此只使用分类头来估计图像的信息量。本文提出了一种新的深度主动学习目标检测方法。我们的方法依赖于混合密度网络,该网络估计每个定位和分类头localization and classification head’s的输出的概率分布。我们显式地估计了在单一模型的单次前向传递中的任意性和认知性不确定性。我们的方法使用一个评分函数,将两个头部的这两种不确定性聚合在一起,以获得每幅图像的信息量分数。我们在Pascal VOC和MSCOCO数据集上展示了我们的方法的有效性。我们的方法比基于单模型的方法性能更好,并且在计算成本上与基于多模型的方法相当。
初步
机翻译 任意不确定性 aleatoric uncertainty (偶然性)
深度检测网络的性能取决于标记数据的大小[31,32]。受此启发,研究人员探索了聪明的策略,在数据集中选择信息最丰富的样本进行标记,这被称为主动学习[35]。通常,这是通过设计一个得分函数来实现的,该函数计算网络的不确定性,选择标记网络对其预测最不可信的样本[2,4,40]。
一般来说,预测不确定性被分解为**偶然性aleatoric和认识性的不确定性epistemic uncertainty **[15,20]。前者是指数据中的固有噪声,如传感器噪声,可以归因于遮挡或缺乏视觉特征[10,24]。后者指的是由于缺乏对模型的了解而引起的不确定性,并且与训练数据的密度成反比[38]。建模和区分这两种类型的不确定性在主动学习中非常重要,因为它允许深度学习模型了解它们的局限性[21,38] ,即,识别样本中的可疑预测(任意性不确定性) ,并识别与训练集不相似的样本(认知性不确定性)。为了计算这些类型的不确定性,研究人员使用基于多模型的方法,如集成[2]或蒙特卡罗(mc)辍学[13]。这些方法虽然取得了良好的效果,但也有一些局限性[11,16]。特别是,由于是多模型,它们需要更高的计算成本,在集成的情况下,它们还增加了网络参数的数量[2]。此外,它们仅仅依赖于分类的不确定性,完全忽略了本地(定位 localization )化的不确定性。
15 A bayesian approach for uncertainty estimation
in deep object detectors20 Aleatory and epistemic uncertainty in probability elicitation with an example from hazardous waste management
10 Towards safe autonomous driving: Capture uncertainty in the deep neural network for lidar 3d vehicle detection.
24 What uncertainties do we need in bayesian deep learning for computer vision?
本文提出了一种新的用于深层目标检测的主动学习方法。我们的方法使用单一模型和单次前向传递,与基于多个模型的方法相比,显著降低了计算成本。尽管如此,我们的方法仍然达到了很高的精度。为了管理这一点,我们的方法利用了定位和基于分类的任意和认知不确定性。如图1所示,我们的方法基于混合密度网络 mixture density networks[3],该网络为网络的每个输出(即定位和分类)学习高斯混合模型(GMM),以部化和分类,以计算任意不确定性和认知不确定性.为了有效地训练网络,我们提出了一个损失函数,作为不一致数据的正则化,从而产生更健壮的模型。我们的方法通过聚合包含在图像中的每个对象的所有基于定位和分类的不确定性来估计每个图像的信息量分数。

我们的经验表明,利用分类和本地化头部的这两种不确定性是提高准确率的关键因素。我们在PASCAL VOC[9]和MS-COCO[30]上演示了我们的方法在单级体系结构(如SSD[31])中的优势,并展示了我们的方法在两级体系结构(如FASH-RCNN[32])中的一般性能。我们的方法始终优于基于单模型的方法,并且与使用多模型的方法相比,我们的方法在显著降低计算成本的同时产生了类似的精度。
相关工作
深度主动学习在目标检测中的应用
深度主动学习在目标检测中的应用最近引起了人们的兴趣。[16]的工作训练神经网络的集合[2],然后选择具有由某个采集函数定义的最高分数的样本,即熵[36]或互信息[5]。同时工作[11]探索了类似的方向,但通过MC-Dropout近似不确定性[12,26]。文献[1]提出了一种计算像素分值并将其用于选择信息样本的方法。另一种方法[33]提出通过提交范例的查询来选择要查询的图像集。[34]的工作使用特征空间在数据集中选择具有代表性的样本,在目标检测方面达到了良好的性能[40]。文献[23]给出了一个不同的解决方案,其中作者定义了两个不同的分数:定位紧密度(区域建议和最终预测之间的重叠率)和定位稳定性(基于输入图像受到噪声干扰时预测目标位置的变化)。在所有情况下,都会选择得分最高的图像进行标记。[40]的最先进的(SOTA)方法提供了一个启发式但优雅的解决方案,同时优于其他单一的基于模型的方法。在训练过程中,该方法学习预测每个样本的目标损失。在主动学习阶段,它选择对预测损失最大的样本进行标记。
16 Scalable active learning for object detection
1 Active learning for deep detection neural networks
34 Active learning for convolutional neural networks: A core-set approach
40 Learning loss for active learning
23 Localization-aware active learning for object detection
上述方法[11,16,23]大多需要多个模型或多次前向传递来计算图像的信息度分数,导致计算成本较高。此外,尽管所有这些研究都集中在主动学习的目标检测上,但它们要么依赖启发式方法来估计定位不确定性[23,40],要么根本无法估计定位不确定性[1,11,16,33,34]。因此,虽然它们给出了有希望的方向,但在精度和计算成本方面并不令人满意。与这些方法相比,我们的方法估计和利用了定位和分类的不确定性以达到高精度,同时使用单个模型的单一正向传递,显著降低了计算成本。
一次传递就是预测一次,多次传递就是预测多次
混合密度网络
混合密度网络最近已被用于几个深度学习任务。文献[8]的方法侧重于转向角的回归任务。文献[18,39]的工作试图解决一个多峰回归问题。[41]的工作集中在密度估计上,而[7]的工作则试图探索带有损坏数据的监督学习问题。然而,以前的研究没有考虑分类任务,分类任务是目标检测的重要部分[8,18,39]。此外,所有这些研究都没有考虑到包围盒回归和分类任务带来的不确定性[7,8,18,39,41]。此外,这些研究中没有一项涉及主动学习用于目标检测的问题。相反,我们的方法在主动学习对象检测的背景下估计并利用了这两个任务的任意性和认知性不确定性。
主动学习在目标检测中的应用
我们方法的主要创新之处在于设计神经网络的输出层来预测概率分布,而不是为网络的每个输出预测单个值(参见图2A)。为此,我们建议使用混合密度网络,其中网络的输出由广义混合模型的参数组成:对于GMM的第k个成分,广义混合模型的均值µk、方差Σk和混合权重πk。给定这些参数,我们可以估计认识的和任意的不确定性[8]:
u a l = ∑ k = 1 K π k Σ k , u e p = ∑ k = 1 K π k ∥ μ k − ∑ i = 1 K π i μ i ∥ 2 u_{a l}=\sum_{k=1}^{K} \pi^{k} \Sigma^{k}, u_{e p}=\sum_{k=1}^{K} \pi^{k}\left\|\mu^{k}-\sum_{i=1}^{K} \pi^{i} \mu^{i}\right\|^{2} ual=k=1∑KπkΣk,uep=k=1∑Kπk∥∥∥∥∥μk−i=1∑Kπiμi∥∥∥∥∥2
8 Uncertainty-aware learning from demonstration using mixture density networks with sampling-free variance modeling
其中K是GMM中的组件数量。组件(机翻) component就是每个高斯分布
有点像VAE ,输出的是一个分布,那就要关注损失函数怎么构建的

图2:建议的目标检测网络概述。与传统对象检测器[31、32]的主要区别在于定位和分类头(分支)。A)我们的方法不是具有确定性的输出,而是为每个输出学习K分量GMM的参数:定位头中的边界框的坐标和分类(置信度)头中的类密度分布(见3.1节)。B)通过消除GMM分类头中的方差参数来提高效率的分类头(见第3.2节)。
基于概率建模的目标检测
为了介绍我们的方法,我们首先关注定位任务,然后将其扩展到分类任务。正如我们将在稍后的实验中展示的那样,我们的方法既适用于单级目标探测器,也适用于两级目标探测器。
**定位:**在目标检测中,由中心坐标(X y)、宽度(W)和高度(H)定义的边界框。在我们的工作中,我们的混合模型没有预测确定性的值,而是为每个边界框预测了3组参数:均值(ˆµx、ˆµy、ˆµw和ˆµh)、方差(ˆΣx、ˆΣy、ˆΣw和ˆΣh)和混合的权重(ˆπx、ˆπy、ˆπw和ˆπh)。
设 { π ^ b k , μ ^ b k , Σ ^ b k } k = 1 K , b ∈ { x , y , w , h } \left\{\hat{\pi}_{b}^{k}, \hat{\mu}_{b}^{k}, \hat{\Sigma}_{b}^{k}\right\}_{k=1}^{K}, b \in\{x, y, w, h\} {
π^bk,μ^bk,Σ^bk}k=1K,b∈{
x,y,w,h}是使用我们的网络获得的边界框输出。对于包围盒的每个坐标,具有K model的GMM的参数如下:
π b k = e π ^ b k ∑ j = 1 K e π ^ b j , μ b k = μ ^ b k , Σ b k = σ ( Σ ^ b k ) \pi_{b}^{k}=\frac{e^{\hat{\pi}_{b}^{k}}}{\sum_{j=1}^{K} e^{\hat{\pi}_{b}^{j}}}, \mu_{b}^{k}=\hat{\mu}_{b}^{k}, \Sigma_{b}^{k}=\sigma\left(\hat{\Sigma}_{b}^{k}\right) πbk=∑j=1Keπ^bjeπ^bk,μbk=μ^bk,Σ

本文提出一种新的深度主动学习目标检测方法,利用混合密度网络估计定位和分类的不确定性,显著提升了模型性能。方法在PascalVOC和MS-COCO数据集上验证,展现出了优秀的准确率和计算效率。
最低0.47元/天 解锁文章
1940

被折叠的 条评论
为什么被折叠?



