一、引言
论文: DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
作者: IDEA
代码: DAB-DETR
注意: 该算法是对DETR的改进,在学习该算法前,建议掌握多头注意力、Sinusoidal位置编码、DETR等相关知识。
特点: 将Decoder中Query的角色解耦为图像内容和物体位置,明确了DETR收敛慢的原因在于Query的物体位置部分没有提供目标位置的先验;提出输入位置先验并逐层微调的策略提升模型收敛速度,提出注意力调制方案使注意力可以适应不同形状的目标,提出缩小Sinusoidal位置编码时的Temperature使注意力时Query更加关注局部区域。
二、动机
2.1 对DETR收敛速度慢的原因进行了分析,将问题定位在了Decoder的Query部分。
由上图可知,在DETR中,编码器的自注意力模块和解码器的交叉注意力模块的主要差别在于Query的不同。自注意力模块的Query与Key一致,均为图像特征和位置编码的和,交叉注意力模块的Query与Key不一致,Key为解码器输出的图像特征和位置编码的和,而Query是解码器嵌入(初始化为0)和可学习查询(由nn.Embedding初始化)的和。
2.2 将Decoder中Query的角色解耦为图像内容和物体位置,将问题进一步定位在了Query的物体位置部分。
解码器嵌入被初始化为0,后续每层Decoder的输出都会作为新的解码器嵌入喂入下一层Decoder。在经过第一层映射后,解码器嵌入已经处于图像特征所在的空间内了,所以解码器嵌入所表达的信息为图像内容。则可学习查询就应该与物体位置相对应。
对剩余几个Decoder层来说,解码器嵌入已经处于图像特征所在的空间,因此与编码器的自注意力模块相比,表达物体位置信息的可学习查询成了唯一的不同之处,也就成了导致DETR收敛慢的罪魁祸首。
2.3 给出表达目标位置信息的可学习查询拖慢DETR的两个可能的原因,并将问题确定为可学习查询没有表达物体位置信息。
作者给出的两个可能的原因为(1) 可学习查询的参数学习难度高、(2) 可学习查询没有表达物体位置信息。
作者通过实验排除了第一种可能。如果是可学习查询的参数本身难以被学习,那么可以不让它学,而是直接初始化为已经学好的参数并固定,然后让模型学习其它模块的参数。下图为初始化并固定前后的训练曲线:
可见,初始化并固定的操作只稍稍提升了前25个epoch的收敛速度,后面的收敛速度基本一致。所以原因(1)被排除。
之后作者转向分析原因(2)。作者认为作为对位置信息的表达,可学习查询的作用应该是使模型关注某些特定目标区域,从而过滤无关区域。因此,作者可视化了Decoder中Query部分的可学习查询与Decoder中Key部分的位置嵌入间的注意力权重:
从上图能够看出,DETR的可学习查询没有表现出很优秀的定位能力,主要有两个不好的表现:多模式(multiple modes)和注意力权重几乎一致(nearly uniform attention weights)。简单来说,多模式就是说同一个查询所产生的关注点不只一个,如上面两个子图所示;注意力权重几乎一致就是说希望被关注的或不希望被关注的区域面积过大,没有聚焦,如下面两个子图所示。因此,可以确定主要问题出在可学习查询没有表达物体位置信息上。
2.4 指出提供位置先验能够避免这两大问题,但现有方法忽略了目标的尺寸信息,并提出宽高可调的多头交叉注意力机制(Width & Height Modulated Multi-Head Cross-Attention)。
Conditional DETR提出使用能够明确表达位置信息的可学习查询(或称位置先验)来进行训练,于是产生下图(b)中这种类高斯的注意力权重图:
但是,图(b)的结果也有缺点,那就是每个查询所关注的区域虽然个数都是一个并且位置不同,但是其关注区域的大小基本是一致的。对于目标检测来说,同一个图上不同目标的尺寸应该是不同的,例如车是横着的,人是竖着的。
为了解决这个问题,作者在引入位置信息 ( x , y ) (x,y) (x,y)的基础上,又引入了宽高信息 ( w , h ) (w,h) (w,h),并提出可以对宽高进行调制的交叉注意力策略。效果上图(c)所示,每个查询所关注的区域位置、大小均有差异。
三、框架
DAB-DETR与DETR的主要差别集中在Decoder部分,DAB-DETR的Decoder的详细结构图如下:
DAB-DETR与DETR的差异简图如下:
可见,DAB-DETR与DETR的主要差别在于可学习查询的定义和是否逐层更新、自注意力中Query和Key用于表达目标位置信息的部分、交叉注意力的Query和Key以及是否尺寸调制。
3.1 可学习查询的定义和是否逐层更新
可学习查询作为对目标位置信息的表达,需要给出位置先验,DAB-DETR提供的是中心坐标 ( x , y ) (x,y) (x,y)。为了进行尺寸调制,DAB-DETR还引入了宽高 ( w , h ) (w,h) (w,h)。
DAB-DETR先用nn.Embedding初始化了300个可学习的 ( x , y , w , h ) (x,y,w,h) (x,y,w,h),Deformable DETR的查询个数也是300,而不是DETR中的100。为了避免测试时得到的 ( x , y ) (x,y) (x,y)集中出现在训练集的目标位置,或者说提升泛化能力,DAB-DETR用uniform(0, 1)将 ( x , y ) (x,y) (x,y)调整成了均匀分布,并消除了梯度(注意 ( w , h ) (w,h) (w,h)的梯度没有消除)。之后由Width & Height Modulated Multi-Head Cross-Attention的输出预测偏移量 ( Δ x , Δ y , Δ w , Δ h ) (\Delta x,\Delta y,\Delta w,\Delta h) (Δx,Δy,Δw,Δh),来逐层修正 ( x , y , w , h ) (x,y,w,h) (x,y,w,h)。
从详细结构图可以看出,Width & Height Modulated Multi-Head Cross-Attention的输出之后跟了一个MLP才得到偏移量 ( Δ x , Δ y , Δ w , Δ h ) (\Delta x,\Delta y,\Delta w,\Delta h) (Δx,Δy,Δw,Δh),加在输入的 ( x , y , w , h ) (x,y,w,h) (x,y,w,h)上,实现锚框中心坐标和宽高的更新。这个MLP是共享的,即每层输出后都跟同一个MLP,它的作用是将输出从D维降至4维,即MLP: R D → R 4 \mathbb{R}^{D}\rightarrow\mathbb{R}^4 RD→R4。
3.2 自注意力中Query和Key用于表达目标位置信息的部分
在DETR中,可学习查询与解码器嵌入的初始维度都是D维。在DAB-DETR中,输入变成了可学习锚框,即 ( x , y , w , h ) (x,y,w,h) (x,y,w,h),维度为4,没办法与D维的解码器嵌入相加。于是作者增加了两步操作,位置编码和MLP映射,定义如下:
其中, A q = ( x q , y q , w q , h q ) A_q=(x_q,y_q,w_q,h_q) Aq=(xq,y

最低0.47元/天 解锁文章
859

被折叠的 条评论
为什么被折叠?



