论文笔记《Learning Multi-Domain Convolutional Neural Networks for Visual Tracking》

提出一种基于CNN的视觉跟踪算法MDNet, 结合共享层与特定目标分支层, 实现高效实时跟踪。通过在线微调提升鲁棒性, 利用困难样本挖掘提高准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载于:http://backnode.github.io/pages/2015/11/02/CNN-for-tracking.html

版权归原作者所有


论文笔记《Learning Multi-Domain Convolutional Neural Networks for Visual Tracking》


0. 摘要


基于CNN的一个跟踪算法,达到了state-of-art水平,意味着深度学习又占领了一个山头。本文中使用的网络由共享层(shared layers)和许多特定目标分支层组成。每一个分支层对应一个二分类的任务:确定输入样本是不是该分支对应的跟踪目标。当在一个新的图像序列中跟踪一个目标时,用一个新的二分类层连接共享层,作为新的跟踪网络,并实时在线微调。这个网络取名MDNet,具体细节看下文。

1. Multi-Domain Network (MDNet)


1.1 网络结构

相比于AlexNet和VGG-Nets,作者使用了一个相对较小的网络来做跟踪,并解释了理由:

  1. 跟踪问题本质上只是个二分类的任务,对模型复杂度要求相对更低。

  2. 随着网络越来越深,空间信息越来越稀释,所以:对于图像中精准的目标定位,CNN并不是那么有效。

  3. 在跟踪任务中通常目标较小,所以输入大小(input size)也就小,网络结构自然也就更浅。

  4. 跟踪通常是一个实时任务,小网络显然更有效率。

下图即MDNet网络结构,由共享层和K个特定目标分支层组成,黄色和蓝色的bounding boxes分别对应每个特定分支层的正样本和负样本。

MDNet

1.2 Learning Algorithm

SGD迭代,每一次迭代中只涉及一个特定类别。在第i次迭代中,mini-batch中只包含来自第(i mod K)个序列的样本,特定目标分支网络中也只激活第(i mod K)个分支。

通过这个学习过程,类别无关的信息就被学习到并保存在共享层中,这些信息是非常有用的泛化特征表示。

2. Online Tracking using MDNet


完成上述训练过程之后,在测试阶段中用一个新的分支层代替训练阶段的K个分支层连接共享层。测试的时候实时微调共享层和分支层。

2.1 Tracking Control and Network Update

为了兼顾跟踪的鲁棒性和自适应性,采用两种策略更新模型参数:long-term和short-term。

long-term策略:定期微调,使用一段时间内收集到的正样本。

short-term策略:当检测到可能有跟踪失败的情况时执行,使用短期内收集到的正样本。

两种策略中都使用短期内检测到的新鲜负样本,因为旧的负样本对于当前帧通常是多余、不相关的。 为了确定每一帧中目标的状态,在上一帧目标的位置附近sample N个候选目标,用网络模型对这N个候选目标估计,取得分最高的为最佳目标。

2.2 Hard Minibatch Mining

在训练阶段的每一次迭代中,一个mini-batch包含n个正样本和p个困难负样本。如何选择困难负样本?用模型测试M(M >> p)个负样本,取top p个困难负样本。

2.3 Bounding Box Regression

根据给定的第一帧,训练一个线性回归模型(使用目标附近的样本的conv3特征)。在接下来的序列帧中,使用训练好的回归模型在估计好的可靠的候选目标中调整目标位置。

转载请注明出处:BackNode


### 计算机视觉领域经典论文概述 计算机视觉是一个快速发展的研究领域,涉及多个子方向和技术方法。以下是几个重要的经典论文以及最新的研究成果: #### 经典论文 1. **Learning Multi-Domain Convolutional Neural Networks for Visual Tracking** 发表于 ICCV 2015 的这篇论文提出了一个多域卷积神经网络框架,用于解决目标跟踪问题[^1]。该工作通过引入多域学习机制显著提高了模型在不同场景下的泛化能力。 2. **ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)** 这篇发表于 NIPS 2012 的论文首次展示了深度卷积神经网络的强大性能,在 ImageNet 数据集上的表现远超传统方法。这一突破奠定了现代 CNN 架构的基础[^4]。 3. **Very Deep Convolutional Networks for Large-Scale Image Recognition (VGGNet)** VGGNet 是另一个里程碑式的架构,其特点是使用非常深的网络结构和小型卷积核。尽管计算成本较高,但它证明了增加网络深度对于提升分类精度的重要性[^5]。 #### 最新研究进展 1. **Mobile-Former: Bridging MobileNet and Transformer** 提出于近期的一项创新性工作,作者设计了一个名为 Mobile-Former 的新型混合架构。此架构结合了 MobileNet 和 Transformer 的优势,既保留了轻量化的特性又增强了全局特征表示的能力[^3]。具体实现如下所示: ```python class MobileBlock(nn.Module): def __init__(self, in_channels, out_channels): super(MobileBlock, self).__init__() self.depthwise = nn.Conv2d(in_channels=in_channels, out_channels=in_channels, kernel_size=3, groups=in_channels) self.pointwise = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=1) def forward(self, x): x = self.depthwise(x) x = self.pointwise(x) return x ``` 2. **Vision Transformers (ViT)** ViT 将 transformer 成功应用于纯视觉任务中,打破了以往仅限于自然语言处理的传统观念。通过对图像分割成固定大小的小块并送入 transformer 编码器的方式,实现了与 CNN 可比拟甚至超越的效果[^6]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值