【TMM2017】Attentive Contexts for Object Detection

【TMM2017】Attentive Contexts for Object Detection

北京理工大学、北京交通大学、中山大学、新加坡国立大学

论文地址:https://arxiv.org/pdf/1603.07415.pdf

作者简介:Shuicheng Yan(颜水成),北京大学博士学位,微软亚洲研究院实习,香港中文大学汤晓鸥教授的多媒体实验室任博士后,美国伊利诺伊大学香槟分校师从黄煦涛(Tomas Huang),后加入新加坡国立大学创立机器学习与计算机视觉实验室,拥有终身教职。目前与昆仑万维创始人周亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长。

本文首次使用基于注意力机制的全局和局部上下文信息来进行目标检测,并通过LSTM递归地生成注意力图,最终融合全局和局部上下文信息提高检测性能!

文章贡献/创新点

  • 文章提出了最新的注意力到上下文CNN(AC-CNN)目标检测模型,能够有效地上下文化主流基于候选框的CNN检测器。
  • 基于注意力机制的全局上下文子网能够递归地生成注意力位置图来帮助利用最具判别性的特征以指导局部目标检测。
  • 每个候选框内外的局部上下文信息可由提出的局部上下文子网捕获,来增强特征表示。
  • 大量实验表明所提的AC-CNN能够有效增强主流的基于区域的CNN检测模型。

注意力到上下文卷积神经网络

网络的输入为图片和对应的物体候选框,图片首先通过一些卷积层和最大池化层来生成卷积特征图。然后基于注意力的全局上下文子网和多尺度局部上下文子网用于利用有用的全局和局部上下文信息来进行最终物体的分类和回归。
AC-CNN网络结构

基于注意力的全局上下文子网

全局上下文子网利用有用的全局上下文信息,首先将特征图池化为 K × K × D K\times K\times D K×K×D固定尺寸,实验中将其固定为 20 × 20 × 512 20\times 20\times 512 20×20×512。将特征矩阵中的特征切片表示为 X = [ x i , ⋯   , x K 2 ] X=[\boldsymbol x_i,\cdots,\boldsymbol x_{K^2}] X=[xi,,xK2],其中 x i ( i = 1 , ⋯   , K 2 ) \boldsymbol x_i(i=1,\cdots,K^2) xi(i=1,,K2) D D D维,再送入堆叠的三层LSTM单元中。

( i t f t o t g t ) = ( σ σ σ tanh ⁡ ) M ( h t − 1 x t ) c t = f t ⊙ c t − 1 + i t ⊙ g t h t = o t ⊙ t a n h ( c t ) \left(\begin{matrix} \boldsymbol i_t\\\boldsymbol f_t\\\boldsymbol o_t\\\boldsymbol g_t \end{matrix}\right)=\left(\begin{matrix} \sigma\\\sigma\\\sigma\\\tanh \end{matrix}\right)M\left(\begin{matrix} \boldsymbol h_{t-1}\\x_t \end{matrix}\right)\\ \boldsymbol c_t=\boldsymbol f_t\odot\boldsymbol c_{t-1}+\boldsymbol i_t\odot\boldsymbol g_t\\ \boldsymbol h_t=\boldsymbol o_t\odot \mathbf{tanh}(\boldsymbol c_t) itftotgt = σσσtanh M(ht1xt)ct=ftct1+itgtht=ottanh(ct)

其中 i t \boldsymbol i_t it f t \boldsymbol f_t ft c t \boldsymbol c_t ct o t \boldsymbol o_t ot h t \boldsymbol h_t ht分别表示输入门、输出门、单元状态、输出们和隐藏状态。每个时间步 t t t,注意力模型都会预测在 K × K K\times K K×K个位置的softmax,作为权重图 I t + 1 \boldsymbol I_{t+1} It+1,,代表是否对应区域的估计值从全局来看适合用于目标分类。位置softmax为:

l t , i = p ( L t = i ∣ h t − 1 ) = exp ⁡ ( W i ⊤ h t − 1 ) ∑ j = 1 K × K exp ⁡ ( W j ⊤ h t − 1 ) , i ∈ { 1 , ⋯   , K 2 } l_{t,i}=p(L_t=i|\boldsymbol h_{t-1})\\ =\frac{\exp(W_i^\top\boldsymbol h_{t-1})}{\sum_{j=1}^{K\times K}\exp(W_j^\top\boldsymbol h_{t-1})},i\in\{1,\cdots,K^2\} lt,i=p(Lt=iht1)=j=1K×Kexp(Wjht1)exp(Wiht1),i{1,,K2}

总结下来就是每个时间步 h t ∈ R d × 1 \boldsymbol h_t\in\mathbb R^{d\times 1} htRd×1 W ∈ R K 2 × d \mathbf W\in\mathbb R^{K^2\times d} WRK2×d,相乘之后为 R K 2 × 1 \mathbb R^{K^2\times 1} RK2×1,然后执行softmax作为权重图。

LSTM下一个时间步的输入特征为:

x t = ∑ i = 1 K 2 l t , i X t , i \boldsymbol x_t=\sum_{i=1}^{K^2}l_{t,i}X_{t,i} xt=i=1K2lt,iXt,i

其中 X t X_t Xt为特征矩阵, X t , i X_{t,i} Xt,i为第 i i i个切片。用图片表示为:

全局上下文子网络

初始化方式:

c 0 = f init,c ( 1 K 2 ∑ i = 1 K 2 X t , i ) h 0 = f init,h ( 1 K 2 ∑ i = 1 K 2 X t , i ) \boldsymbol c_0=f_\text{init,c}\left(\frac1{K^2}\sum_{i=1}^{K^2}X_{t,i}\right)\\ \boldsymbol h_0=f_\text{init,h}\left(\frac1{K^2}\sum_{i=1}^{K^2}X_{t,i}\right) c0=finit,c K21i=1K2Xt,i h0=finit,h K21i=1K2Xt,i

其中 f init,c f_\text{init,c} finit,c f init,h f_\text{init,h} finit,h是两层感知机,这些值被用来计算第一个位置的softmax l 1 l_1 l1,其决定了初始的输入 x 1 \boldsymbol x_1 x1。最后一步输出的 x t + 1 \boldsymbol x_{t+1} xt+1作为 D D D维的特征进行输出,表示为 F G \mathbf F_G FG

多尺度局部上下文网络

多尺度局部上下文网络用来探索物体候选框内外近邻部分的局部视野。将物体候选框表示为 p = ( p x , p y , p w , p h ) \boldsymbol p=(p_x,p_y,p_w,p_h) p=(px,py,pw,ph),其中中心位置为 p x , p y p_x,p_y px,py宽高为 p w , p h p_w,p_h pw,ph。文章采用三个尺度的RoI池化 λ 1 = 0.8 \lambda_1=0.8 λ1=0.8 λ 2 = 1.2 \lambda_2=1.2 λ2=1.2 λ 3 = 1.8 \lambda_3=1.8 λ3=1.8,在 log ⁡ \log log尺度中为线性比例。得到三个尺度的特征图 { v p i ∣ i = 1 , 2 , 3 } \{\boldsymbol v_p^i|i=1,2,3\} {vpii=1,2,3},然后拼接到一起后经过 1 × 1 1\times 1 1×1卷积降维,将维度从 7 × 7 × ( 3 × 512 ) 7\times 7\times (3\times 512) 7×7×(3×512)变换到 7 × 7 × 512 7\times 7\times 512 7×7×512,最后输入两层全连接,生成局部上下文信息的特征表示,表示为 F L \mathbf F_L FL

多任务损失函数

损失函数包含分类和回归两部分,其中回归部分仅对局部上下文子网进行反向传播,且不包括背景锚框。

J = J cls ( [ F L , F G ] ) + [ g ⩾ 1 ] J reg ( F L ) J=J_\text{cls}([\mathbf F_L,\mathbf F_G])+[g\geqslant 1]J_\text{reg}(\mathbf F_L) J=Jcls([FL,FG])+[g1]Jreg(FL)

仿真实验

这是早期做目标检测的论文,仿真实验采用的数据集主要还是PASCAL VOC而不是MS COCO,性能提升并不大。
对比试验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值