Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

提出了一种基于多领域学习框架的新型视觉跟踪算法MDNet,该算法利用大规模视频数据预训练卷积神经网络(CNN),以获取通用的目标表示。算法在共享层中学习通用特征,在特定领域层中学习分类目标和背景,适用于在线跟踪新目标。实验结果显示,MDNet在OTB和VOT2014两个基准测试中均表现出优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

        我们提出了一种新的基于判别训练卷积神经网络(CNN)表示的视觉跟踪算法。我们的算法使用跟踪基本事实的大量视频来预先训练CNN,以获得通用的目标表示。我们的网络由共享层和域特定层的多个分支组成,其中域对应于单独的训练序列,每个分支负责对每个域中的目标进行二进制分类。我们针对每个域迭代地训练网络,以获得共享层中的通用目标表示。在跟踪新序列中的目标时,我们通过将预先训练的CNN中的共享层与在线更新的新的二进制分类层相结合来构建新的网络。通过评估在先前目标状态周围随机采样的候选窗口来执行在线跟踪。在现有的跟踪基准测试中,与最新的方法相比,提出的算法表现出了优异的性能。

1.引言

        卷积神经网络(CNN)最近已被应用于各种计算机视觉任务,例如图像分类[27,5,34]、语义分割[30]、目标检测[13]和许多其他任务[37,36]。CNN之所以取得如此巨大的成功,很大程度上归功于它在表示视觉数据方面的出色表现。然而,视觉跟踪受到这些流行趋势的影响较小,因为很难收集用于视频处理应用的大量训练数据,并且还没有专门用于视觉跟踪的训练算法,而基于低级手工特征的方法在实践中仍然工作得很好[18,6,21,42]。最近的几种跟踪算法[20,39]已经通过在诸如ImageNet[33]的大规模分类数据集上传输预先训练的CNN来解决数据不足的问题。尽管这些方法可能足以获得通用的特征表示,由于分类和跟踪问题之间的根本不一致,即预测对象类别标签与定位任意类别的目标,其在追踪方面的有效性是有限的。

        为了充分利用CNN在视觉跟踪中的表征能力,需要在专门用于视觉跟踪的大规模数据上对其进行训练,这些数据涵盖了目标和背景组合中的各种变化。然而,学习基于具有完全不同特征的视频序列的统一表示确实是具有挑战性的。注意,单独的序列涉及不同类型的目标,其类别标签、运动模式和外观不同,并且跟踪算法遭受序列特定的挑战,包括遮挡、变形、光照条件变化、运动模糊等。训练CNN甚至更加困难,因为相同类型的对象可以被认为是序列中的目标,而被认为是另一序列中的背景对象。由于序列之间的这种差异和不一致,我们认为基于标准分类任务的普通学习方法是不合适的,应该结合另一种获取序列无关信息的方法来更好地表示跟踪。

        基于这一事实,我们提出了一种新的CNN结构,称为多域网络(MDNet),用于从多个标注视频序列中学习目标的共享表示用于跟踪,其中每个视频被视为一个单独的域。所提出的网络在网络末端具有用于二进制分类的领域特定层的单独分支,并共享从先前层中的所有序列捕获的公共信息以用于通用表示学习。MDNet中的每个域被分别迭代地训练,而共享层在每次迭代中被更新。通过使用该策略,我们将独立于领域的信息从特定领域信息中分离出来,并学习用于视觉跟踪的通用特征表示。我们架构的另一个有趣的方面是,与用于分类任务的网络(如AlexNet[27]和VGG Net[5,34])相比,我们设计的CNN具有较少的层。

        我们还提出了一个基于MDNet学习的表示法的有效在线跟踪框架。当给定一个测试序列,去除训练阶段使用的所有二类分类层的现有分支,并构造一个新的单分支来计算测试序列中的目标分数。然后,在跟踪期间在线微调新的分类层和共享层内的完全连接的层以适应新的域。在线更新是为了分别对目标的长期外观变化和短期外观变化进行建模,以实现鲁棒性和自适应性,并在学习过程中引入了有效和高效的硬否定挖掘技术。

        该算法由多域表示学习和在线视觉跟踪两部分组成。我们工作的主要贡献概括如下:

  • 提出了一种基于CNN的多领域学习框架,该框架将领域无关信息与领域特定信息分离,有效地获取共享表示。
  • 我们的框架被成功地应用于视觉跟踪,通过多域学习预先训练的CNN在新序列的背景下在线更新,以自适应地学习特定领域的信息。
  • 我们的大量实验证明了我们的跟踪算法在两个公共基准测试中的卓越性能:目标跟踪基准[40]和VOT2014[25]。

论文的其余部分组织如下。我们首先回顾了第二节中的相关工作,并在第三节中讨论了我们的多域视觉跟踪学习方法。第四节介绍了我们的在线学习和跟踪算法,第五节展示了在两个跟踪基准数据集中的实验结果。

2.相关工作

2.1 视觉跟踪算法

        视觉跟踪是计算机视觉中的基本问题之一,几十年来一直是人们研究的热点。大多数跟踪算法要么是生成性的,要么是区别性的。产生式方法使用产生式模型来描述目标的外观,并搜索最符合模型的目标区域。已经提出了各种生成性目标外观建模算法,包括稀疏表示[31,

### 计算机视觉领域经典论文概述 计算机视觉是一个快速发展的研究领域,涉及多个子方向和技术方法。以下是几个重要的经典论文以及最新的研究成果: #### 经典论文 1. **Learning Multi-Domain Convolutional Neural Networks for Visual Tracking** 发表于 ICCV 2015 的这篇论文提出了一个多域卷积神经网络框架,用于解决目标跟踪问题[^1]。该工作通过引入多域学习机制显著提高了模型在不同场景下的泛化能力。 2. **ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)** 这篇发表于 NIPS 2012 的论文首次展示了深度卷积神经网络的强大性能,在 ImageNet 数据集上的表现远超传统方法。这一突破奠定了现代 CNN 架构的基础[^4]。 3. **Very Deep Convolutional Networks for Large-Scale Image Recognition (VGGNet)** VGGNet 是另一个里程碑式的架构,其特点是使用非常深的网络结构和小型卷积核。尽管计算成本较高,但它证明了增加网络深度对于提升分类精度的重要性[^5]。 #### 最新研究进展 1. **Mobile-Former: Bridging MobileNet and Transformer** 提出于近期的一项创新性工作,作者设计了一个名为 Mobile-Former 的新型混合架构。此架构结合了 MobileNet 和 Transformer 的优势,既保留了轻量化的特性又增强了全局特征表示的能力[^3]。具体实现如下所示: ```python class MobileBlock(nn.Module): def __init__(self, in_channels, out_channels): super(MobileBlock, self).__init__() self.depthwise = nn.Conv2d(in_channels=in_channels, out_channels=in_channels, kernel_size=3, groups=in_channels) self.pointwise = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=1) def forward(self, x): x = self.depthwise(x) x = self.pointwise(x) return x ``` 2. **Vision Transformers (ViT)** ViT 将 transformer 成功应用于纯视觉任务中,打破了以往仅限于自然语言处理的传统观念。通过对图像分割成固定大小的小块并送入 transformer 编码器的方式,实现了与 CNN 可比拟甚至超越的效果[^6]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值