论文笔记A Twofold Siamese Network for Real-Time Object Tracking

介绍了一种用于实时目标跟踪的双Siamese网络,通过通道注意力机制和语义特征融合,解决了传统方法中目标判别能力弱、泛化能力差和实时性不佳的问题。在OTB和VOT数据集上的实验结果表明,该方法在提高跟踪精度和鲁棒性方面表现出色。

1. 标题及来源

A Twofold Siamese Network for Real-Time Object Tracking, CVPR 2018.

2. 阅读目的

了解注意力机制

3. 领域

object tracking

4. 拟解决的问题

  1. 判别能力(discrimination)弱。难以从复杂背景中区分待跟踪目标
  2. 泛化能力(generalization)弱。对于目标外观变化或者未知目标,追踪性能差
  3. 实时性差

5. 提出的方法

5.1 方法详情

  1. 使用通道注意力机制提升判别能力
  2. 融合语义特征和外貌特征提升泛化能力

在这里插入图片描述
网络结构如图所示。S-Net表示semantic network,A-Net表示appearance network,和SiamFC的网络结构一样
Target表示从第一帧中裁取的片段,Search region表示从待跟踪的帧中裁取的片段。

  1. 网络由semantic branch和appearance branch组成
  2. 将Target和Search region同时输入到两个分支中
    a) 对于appearance branch,首先将输入图片通过A-Net提取特征,然后通过全连接层,最后计算两个特征的相关性,输出响应图
    b) 对于semantic branch,首先将输入图片通过基于ImageNet训练的CNN提取特征,在训练时固定CNN的参数,即不训练CNN。让S-Net输出最后两层的特征。对于search region,直接对最后两层的特征使用11卷积保证维度一致,可以使其进行相关性计算;对于Target,对两个特征进行crop操作,将输出的特征输入到attention中,然后输出每个维度的权重,将输出的权重和进行crop操作之后的特征相乘,然后将输出的特征进行11卷积保证维度一致,可以使其进行相关性计算。最后计算从Target和seachr region中提取的特征的相关性,输出响应图
  3. 在测试时,将两个分支的响应图通过下面公式结合,最大值对应的位置就是待跟踪目标的位置。
    h ( z s , X ) = λ h z ( z , X ) + ( 1 − λ ) h z ( z s , X ) h(z^s, X) = \lambda h_z(z, X) + (1 - \lambda) h_z(z_s, X) h(zs,X)=λhz(z,X)+(1λ)hz(zs,X) λ \lambda λ是一个超参,用来控制两个分支所占的权重,原文中λ取0.3

5.2 注意力机制

在这里插入图片描述
注意力机制:

  1. 首先使用S-Net提取包含周围环境信息的Target的特征
  2. 将输出特征的每个通道作为注意力机制的输入,即channel i
  3. 将输入划分为9个单元格,中间单元格的尺寸是6*6,这个也是目标的中心区域
  4. 对每个单元格使用最大池化,得到池化后的特征图
  5. 通过MLP对这个通道生成一个系数(MLP:含有9个神经元的单层网络,使用ReLu激活)
  6. 将生成的系数通过sigmoid激活得到该通道的比例系数

6. 结果

6.1 OTB实验结果

在这里插入图片描述
在这里插入图片描述

6.2 VOT实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.3 消融实验

在这里插入图片描述
App.表示appearance model,Sem.表示semantic model,ML表示multilevel feature,Att.表示attention module。通过对比该表的实验结果,第三行表示SA-Siam结合了semantic feature和appearance feature之后的结果,从表中可以发现它的提升非常大。当引入ML和attention module之后,可以发现,它的提升更加明显。
在这里插入图片描述
从表中可以发现,单独使用appearance feature或semantic feature或结合appearance feature或结合semantic feature都没有结合appearace feature和semantic feature的效果好。
在这里插入图片描述
作者以david和bolt为例,选取了conv4和conv5的权重。

  1. conv4和conv5的权重分布完全不同,这意味着注意力机制对使用了多特征融合模块的影响更大
  2. conv4中david和bolt的权重分布完全不同,这意味着对于bolt,注意力机制会抑制更多的channel

7. 改进&存在的问题

在这里插入图片描述
通过观察论文中的这幅图像发现SA-Siam的鲁棒性确实优于其它算法,尤其是复杂场景的跟踪。即使人为跟踪,我们也可以发现难度非常大。但是这些图像都有一个共性,那就是物体的形变相对较小,没有非常大的形变。同时观察Matrix那个我们可以发现,在#0044那幅图片中,SA-Siam算法的定位框并没有充分定位物体。因此本算法可能会存在以下问题:

  1. 定位框的精确度
  2. 是否能很好地适应大尺度变化,例如第一篇论文中的那个车
    另外一个问题和第一篇论文中的问题二一样,Precision plots of OPE的值应该是阈值为20时对应的值

8. 可借鉴的点

  1. 注意力机制

9. 知识补充

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值