原文链接:https://www.techbeat.net/article-info?id=4342
作者:seven_
本文介绍一项来自香港大学和腾讯AI Lab的工作,该工作提出了一个新的DiffusionDet框架,它巧妙地将目标检测任务模拟为从一个噪声框到目标框的去噪扩散过程,使得DiffusionDet天然的符合扩散模型的建模过程。在模型的训练阶段,作者将真实的目标框不断扩散到随机噪声分布中,使得模型从中学习到这一噪声建模过程。而在推理阶段,模型以一种渐进式的过程将一组随机生成的目标框不断细化为最终的预测结果。
论文链接:
https://arxiv.org/abs/2211.09788
代码链接:
https://github.com/ShoufaChen/DiffusionDet
如果说去年这个时候视觉AI社区中最火热的话题是视觉Transformer的任务通吃现象,那今年的新兴选手必须是当下火热的扩散模型了。最近扩散模型在很多生成式任务中取得了巨大的成功,获得了广泛的关注。但目前在其他常规视觉任务上的探索工作还比较少。
本文介绍一项来自香港大学和腾讯AI Lab的工作,该工作提出了一个新的DiffusionDet框架,它巧妙地将目标检测任务模拟为从一个噪声框到目标框的去噪扩散过程,使得DiffusionDet天然的符合扩散模型的建模过程。在模型的训练阶段,作者将真实的目标框不断扩散到随机噪声分布中,使得模型从中学习到这一噪声建模过程。而在推理阶段,模型以一种渐进式的过程将一组随机生成的目标框不断细化为最终的预测结果。
经过大量的实验表明,DiffusionDet可以标准的实验基准例如MS-COCO和LVIS等数据集上得到良好的性能,甚至超过了一些非常成熟的目标检测器。DiffusionDet的提出在另一方面也对很多感知类任务的通用框架发起了挑战,如果在一些任务上消除之前手工设计的复杂组件,而以这种生成式的代理任务进行优化,是否也会获得更好的效果呢。
一、引言
在开始介绍DiffusionDet的架构设计之前,我们先来回顾目前目标检测领域的发展趋势。目标检测旨在为一幅图像中的目标对象预测一组边界框和相关类别标签。作为一项基本的视觉感知任务,它已成为许多相关识别场景的基石,例如实例分割、姿态估计、动作识别、对象跟踪和视觉关系检测等。现在较为流行的目标检测科研方向,大多是随着候选目标的学习优化方式而不断发展,即从经验性的目标框回归方式再到可学习的目标查询方式。具体来说,在卷积神经网络时代,研究者们往往通过在具有一定先验的候选框上执行回归和分类任务来完成检测。随后在Transformer时代,DETR提出了可学习的对象query,实现了端到端的目标检测,这一演进过程如下图所示。
但这种方法仍然依赖于一组固定的可学习query,本文作者在此基础上提出了一个新的疑问,“是否有一种更加简洁的方法来实现,无需给模型固定的输入向量?” 这种方式将不再需要启发式的对象框先验,也无需可学习的查询输入,将完全是一种新式的目标检测pipeline。
作者受启发于最近扩散模型的建模方式,将扩散模型中从噪声到图像的生成过程扩展到目标检测任务中的噪声到框(noise-to-box)的范式,如上图所示。DiffusionDet巧妙地将目标检测任务转换为对图像中边界框的位置(中心坐标)和尺寸(宽度和高度)的空间生成任务,通过这样的转换,我们可以以一种优雅的方式来用扩散模型处理目标检测任务。在模型训练阶段,通过预先控制的高斯噪声被添加到GT目标框中来获得噪声框,然后这些噪声框会在backbone编码器(例如ResNet、Swin Transformer等)的输出特征图上裁剪出RoI特征,最后这些RoI特征被发送到检测解码器中进行训练。训练目标是从该噪声框分布中预测出无噪真实目标框。在推理阶段,DiffusionDet通过反转噪声框扩散过程来生成精确的预测框。此外,DiffusionDet的noise-to-box范式还具有以下几个优势:
-
动态框设计,通过使用随机噪声框,使得DiffusionDet可以将训练和评估进行解耦。具体而言,DiffusionDet可以用 N train N_{\text {train }} Ntrain 噪声随机框进行训练,同时用 N eval N_{\text {eval }} Neval 随机框进行评估,其中 N eval , N train N_{\text {eval }}, N_{\text {train }} Neval ,Ntrain 都是随机生成的.
-
渐进细化机制,扩散模型的去噪过程是一个渐进式生成过程,这种迭代细化也可以提升DiffusionDet的可用性和检测性能。例如我们可以通过调整去噪采样的步长来达到检测精度或加快推理速度之间的平衡,这种灵活性使DiffusionDet能够适应对精度和速度有不同要求的检测场景。
二、 本文方法
2.1 整体框架
本文作者在开始介绍DiffusionDet的框架之前,首先回顾了一下diffusion model和目标检测的基础理论,随后根据这些理论引出了框架的设计想法。作者提到diffusion model可以看做是一类受非平衡热力学启发的基于likelihood的模型,其通过通过逐渐向样本数据添加噪声来定义前向扩散过程的马尔科夫链。前向过程被定义为:
q ( z t ∣ z 0 ) = N ( z t ∣ α ˉ t z 0 , ( 1 − α ˉ t ) I ) q\left(z_{t} \mid z_{0}\right)=\mathcal{N}\left(z_{t} \mid \sqrt{\bar{\alpha}_{t}} z_{0},\left(1-\bar{\alpha}_{t}\right) I\right) q(zt∣z0)=N(zt∣αˉt