Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

最新推荐文章于 2025-04-22 20:29:41 发布

MJ5513

最新推荐文章于 2025-04-22 20:29:41 发布

阅读量564

点赞数

分类专栏：目标跟踪论文翻译文章标签：深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/MJ17709005513/article/details/126259651

版权

提出了一种基于多领域学习框架的新型视觉跟踪算法MDNet，该算法利用大规模视频数据预训练卷积神经网络(CNN)，以获取通用的目标表示。算法在共享层中学习通用特征，在特定领域层中学习分类目标和背景，适用于在线跟踪新目标。实验结果显示，MDNet在OTB和VOT2014两个基准测试中均表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

我们提出了一种新的基于判别训练卷积神经网络(CNN)表示的视觉跟踪算法。我们的算法使用跟踪基本事实的大量视频来预先训练CNN，以获得通用的目标表示。我们的网络由共享层和域特定层的多个分支组成，其中域对应于单独的训练序列，每个分支负责对每个域中的目标进行二进制分类。我们针对每个域迭代地训练网络，以获得共享层中的通用目标表示。在跟踪新序列中的目标时，我们通过将预先训练的CNN中的共享层与在线更新的新的二进制分类层相结合来构建新的网络。通过评估在先前目标状态周围随机采样的候选窗口来执行在线跟踪。在现有的跟踪基准测试中，与最新的方法相比，提出的算法表现出了优异的性能。

1.引言

卷积神经网络(CNN)最近已被应用于各种计算机视觉任务，例如图像分类[27，5，34]、语义分割[30]、目标检测[13]和许多其他任务[37，36]。CNN之所以取得如此巨大的成功，很大程度上归功于它在表示视觉数据方面的出色表现。然而，视觉跟踪受到这些流行趋势的影响较小，因为很难收集用于视频处理应用的大量训练数据，并且还没有专门用于视觉跟踪的训练算法，而基于低级手工特征的方法在实践中仍然工作得很好[18，6，21，42]。最近的几种跟踪算法[20，39]已经通过在诸如ImageNet[33]的大规模分类数据集上传输预先训练的CNN来解决数据不足的问题。尽管这些方法可能足以获得通用的特征表示，由于分类和跟踪问题之间的根本不一致，即预测对象类别标签与定位任意类别的目标，其在追踪方面的有效性是有限的。

为了充分利用CNN在视觉跟踪中的表征能力，需要在专门用于视觉跟踪的大规模数据上对其进行训练，这些数据涵盖了目标和背景组合中的各种变化。然而，学习基于具有完全不同特征的视频序列的统一表示确实是具有挑战性的。注意，单独的序列涉及不同类型的目标，其类别标签、运动模式和外观不同，并且跟踪算法遭受序列特定的挑战，包括遮挡、变形、光照条件变化、运动模糊等。训练CNN甚至更加困难，因为相同类型的对象可以被认为是序列中的目标，而被认为是另一序列中的背景对象。由于序列之间的这种差异和不一致，我们认为基于标准分类任务的普通学习方法是不合适的，应该结合另一种获取序列无关信息的方法来更好地表示跟踪。

基于这一事实，我们提出了一种新的CNN结构，称为多域网络(MDNet)，用于从多个标注视频序列中学习目标的共享表示用于跟踪，其中每个视频被视为一个单独的域。所提出的网络在网络末端具有用于二进制分类的领域特定层的单独分支，并共享从先前层中的所有序列捕获的公共信息以用于通用表示学习。MDNet中的每个域被分别迭代地训练，而共享层在每次迭代中被更新。通过使用该策略，我们将独立于领域的信息从特定领域信息中分离出来，并学习用于视觉跟踪的通用特征表示。我们架构的另一个有趣的方面是，与用于分类任务的网络(如AlexNet[27]和VGG Net[5，34])相比，我们设计的CNN具有较少的层。

我们还提出了一个基于MDNet学习的表示法的有效在线跟踪框架。当给定一个测试序列，去除训练阶段使用的所有二类分类层的现有分支，并构造一个新的单分支来计算测试序列中的目标分数。然后，在跟踪期间在线微调新的分类层和共享层内的完全连接的层以适应新的域。在线更新是为了分别对目标的长期外观变化和短期外观变化进行建模，以实现鲁棒性和自适应性，并在学习过程中引入了有效和高效的硬否定挖掘技术。

该算法由多域表示学习和在线视觉跟踪两部分组成。我们工作的主要贡献概括如下：