目标跟踪Martin Danelljan论文follow

原创

已于 2024-08-04 14:30:22 修改 · 604 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#目标跟踪 #人工智能 #计算机视觉

于 2024-07-27 12:12:36 首次发布

目标跟踪Martin Danelljan论文follow

2018
- Accurate Tracking by Overlap Maximization（简称ATOM）
2019
- Learning Discriminative Model Prediction for Tracking(简称DIMP)
2020
2022
- Transforming model prediction for tracking(简称TOMP)
2020
- PrDiMP Probabilistic Regression for Visual Tracking（简称PrDIMP）
- Visual object tracking with discriminative filters and siamese networks: a survey and outlook
2023
----------------------------------------------------------------------------
-------------------------------------------------------------------------------
超分辨率（视频超分辨率提升跟踪精度）
语义分割（通过分割地面来辅助跟踪）

2018

Accurate Tracking by Overlap Maximization（简称ATOM）

2019

Learning Discriminative Model Prediction for Tracking(简称DIMP)

这篇文章讲的非常好，可以点进去看一下

解决问题：
孪生学习框架仍存在严重的局限性。
1.首先，孪生跟踪器在推断模型时仅利用目标外观，这完全忽略了背景信息，而背景信息对于区分场景中相似的物体至关重要。
2.其次，学习到的相似性度量对于不包含在离线训练集中的物体来说不一定可靠，导致泛化能力差。
3.第三，孪生方法没有提供强有力的模型更新策略，最先进的方法只是简单地进行模板平均[45]。这些局限性导致了与其他最先进的跟踪方法相比，鲁棒性较差[20]。
具体：
在这里插入图片描述
分类分支：离线学习一个预测器，预测滤波器f，去和测试图像做卷积，得到响应图。（上面的图展示了完全的步骤），在跟踪的时候可以输入前面几帧作为训练集，在线更新预测模块D。
回归分支：采用ATOM的方法，同样也是离线训练

这里也可以看出dimp的主要工作在于位置预测，ATOM在位置预测这一块只是用了一个卷积网络进行粗糙的分类，进而得到目标位置。dimp则是设计了一个模块去预测滤波器w，然后和测试图像卷积得到位置。

ATOM的框架：

这里有一篇ATOM原理讲解的帖子，很不错
总的来说ATOM主要工作在于离线学习一个iou回归模块，用于准确预测跟踪框。而对于定位方面的工作很简单，就是通过第一帧提取特征在线学习一个卷积模块用于分类，进而定位目标。
但是这样一来会导致ATOM抵抗相似物体干扰的能力比较差，而DIMP相对就强一些

2020

摘要：
当前最先进的跟踪器仅依赖目标外观模型来定位每一帧中的对象。然而，这种方法在目标外观快速变化或存在干扰物体时容易失败，仅靠目标外观模型不足以实现稳健的跟踪。在这种情况下，了解周围场景中其他对象的存在和位置会非常有益。这些场景信息可以通过序列传播，并用于显式地避免干扰物体和排除目标候选区域。

在这项工作中，我们提出了一种新的跟踪架构，可以利用场景信息进行跟踪。我们的跟踪器将这种信息表示为密集的局部状态向量，这些向量可以编码，例如，局部区域是否是目标、背景或干扰物体。这些状态向量通过序列传播，并与外观模型输出相结合，以定位目标。我们的网络通过直接最大化视频片段上的跟踪性能来有效利用场景信息。所提出的方法在三个跟踪基准上设立了新的最先进水平，在最新的GOT-10k数据集上实现了63.6%的AO得分。

方法：
在这项工作中，我们的目标是超越传统的逐帧检测跟踪。我们提出了一种新的跟踪架构，可以通过序列传播有价值的场景信息。这些信息用于在每一帧中实现改进的场景感知目标预测。场景信息使用密集的局部状态向量集表示。这些向量编码了关于局部区域的有价值信息，例如该区域是否对应于目标、背景或干扰物体。随着区域在序列中移动，我们利用帧之间的密集对应图传播相应的状态向量。因此，我们的跟踪器“了解”场景中的每个对象，并可以使用这些信息来避免干扰物体。这种场景知识与目标外观模型一起用于预测每一帧中的目标状态。然后，使用循环神经网络模块更新状态表示所捕获的场景信息。

贡献：我们的主要贡献总结如下。(i) 我们提出了一种新的跟踪架构，利用丰富的场景信息，表示为密集的局部状态向量。(ii) 引入了一个传播模块，通过预测软对应关系将状态映射到后续帧。(iii) 我们开发了一个预测模块，有效地结合目标外观模型的输出与传播的场景信息，以确定目标位置。(iv) 通过整合循环神经网络模块，用新的信息更新状态。(v) 我们训练网络，以直接最大化完整视频片段上的跟踪性能。
具体：