长时间目标跟踪算法(5)-MDMB(Learning regression and veriﬁcation networks for long-term visual tracking)

深图智能

于 2025-03-05 10:22:43 发布

阅读量784

点赞数 24

分类专栏：目标跟踪文章标签：目标跟踪算法人工智能计算机视觉

本文链接：https://blog.youkuaiyun.com/evm_doc/article/details/146035889

版权

目标跟踪专栏收录该内容

14 篇文章

订阅专栏

在这里插入图片描述

1. 算法概述

长期视觉跟踪是计算机视觉领域的重要研究方向，其核心目标是在视频序列中持续跟踪目标对象，即使在目标暂时消失或发生剧烈形变时也能重新捕获。传统的短期跟踪算法通常假设目标始终存在于视野中，而长期跟踪需要解决目标消失与重现的挑战。论文提出的算法通过结合离线训练的回归网络（Regression Network）和在线更新的验证网络（Verification Network），构建了一个高效的长期跟踪框架。其核心创新点包括：

双网络协同机制：回归网络负责生成候选框并计算相似性得分，验证网络通过在线学习动态调整分类边界，提升对干扰物的判别能力。
动态搜索策略：基于置信度评分动态切换本地搜索与全局重检测模式，确保在目标消失时快速恢复跟踪。
特征融合与候选框生成：通过对象感知特征融合（Object-Aware Feature Fusion）和区域建议网络（RPN），提升候选框的生成质量。

2. 核心算法设计

2.1 回归网络（Regression Network）

回归网络是算法的离线训练部分，其核心任务是在每一帧中生成与目标相似的候选框，并计算它们的相似性得分。网络架构基于MobileNet作为特征提取器，采用双分支结构处理搜索区域和模板图像，具体流程如下：

2.1.1 输入与特征提取

搜索区域：以当前目标位置为中心，裁剪大小为300×300的图像块作为输入。
模板图像：使用首帧提供的目标真实框（Ground Truth）作为固定模板，尺寸为127×127。
特征提取：两个分支分别通过不同的卷积层提取特征。搜索区域分支输出两尺度特征图（19×19×512和10×10×512），模板分支输出单尺度特征向量（1×1×512）。

2.1.2 对象感知特征融合

在这里插入图片描述
特征融合模块通过乘法与拼接操作结合搜索区域和模板的特征，增强对目标相似区域的响应：

乘法操作：将模板特征图复制扩展至与搜索区域特征图相同尺寸后逐点相乘，突出相似区域。
拼接操作：将相乘后的特征图与原始模板特征图拼接，形成1024维的融合特征，输入至后续区域建议网络（RPN）。

2.1.3 候选框生成

每个尺度的特征图通过独立的RPN生成候选框，RPN包含两个分支：

相似性计算分支：输出每个锚点（Anchor）与模板的匹配得分（2k通道，k为锚点数量）。
回归分支：输出候选框的位置偏移量（4k通道）。
通过非极大值抑制（NMS，IoU阈值为0.6）筛选出高置信度的候选框，形成候选池。

2.2 验证网络（Verification Network）

验证网络是算法的在线更新部分，其任务是对回归网络生成的候选框进行二次筛选，避免因相似干扰物导致的跟踪漂移。网络基于VGG-M架构，输入为107×107的图像块，输出前景与背景的分类概率。

2.2.1 在线更新策略

样本选择：仅使用高置信度的候选框作为正样本（前景），背景样本从搜索区域的随机区域中采样。
网络微调：每次更新时，仅调整网络的最后三层卷积层参数，避免过拟合。
正则化机制：通过回归网络的相似性得分对验证网络的训练样本进行筛选，确保样本可靠性。

2.2.2 候选框验证流程

从候选池中选择相似性得分最高的候选框，输入验证网络进行分类。
若分类为前景，则将其作为当前帧的跟踪结果；否则，从候选池中选取分类得分最高的候选框。
若无候选框满足阈值条件，则触发全局重检测。

2.3 动态搜索策略

算法通过融合回归网络和验证网络的得分，计算最终置信度 $S_c$ ，并基于此动态调整搜索模式：

$S_c = \begin{cases} 1.0, & S_v > \theta_{v'} \text{ 或 } S_r > \theta_{r'}, S_v > 0 \\ 0, & S_r < \theta_{r}, S_v < 0 \\ S_r, & \text{其他情况} \end{cases}$

其中， $\theta_{v'}=20.0$ ， $\theta_{r'}=0.5$ ， $\theta_{r}=0.3$ 。

本地搜索模式 $S_c \geq 0.3$ ）：在目标周围4倍大小的区域内进行搜索。
全局重检测模式 $S_c < 0.3$ ）：在全图像范围内进行搜索，直至重新捕获目标。

2.4 图像级重检测机制

当目标被判定为“消失”时，算法启动全局搜索：

将图像划分为多个重叠的区域块，分别输入回归网络计算相似性得分。
选择得分最高的区域块，并通过验证网络确认是否为真实目标。
若确认成功，则切换回本地搜索模式；否则持续执行全局搜索。

3. 实现细节

3.1 网络训练

回归网络训练数据：使用ImageNet检测数据集和ILSVRC视频数据集，通过随机采样和增强（仿射变换、随机擦除）提升泛化能力。
损失函数：联合相似性损失（交叉熵）和定位损失（平滑L1），优化目标为端到端训练。
锚点设计：采用多尺度锚点（比例[0.33, 0.5, 1, 2, 3]），适应目标尺度变化。

3.2 在线跟踪优化

模板固定：回归网络的模板始终使用首帧的真实框，避免累积误差。
验证网络更新频率：每隔5帧更新一次，平衡实时性与鲁棒性。

4. 实验与性能分析

4.1 数据集与评价指标

VOT2018 LTB35：包含35个长序列，平均每序列4196帧，12%的帧标记为“目标消失”。
OxUvA：包含366个轨迹，平均时长2.4分钟，52%的帧标记为“目标消失”。
评价指标：F-score（VOT2018）、MaxGM（OxUvA）、TPR（真阳性率）、TNR（真阴性率）。

4.2 实验结果

VOT2018 LTB35：F-score达0.610，优于DaSiam_LT（0.607）和MMLT（0.546），重检测成功率100%。
OxUvA：MaxGM为0.544，显著高于SiamFC+R（0.454）和TLD（0.431）。

4.3 消融实验

去除验证网络：F-score下降至0.525，验证网络对性能提升贡献显著。
特征融合模块：仅使用乘法或拼接操作分别导致F-score下降至0.582和0.442，表明两者缺一不可。
Siamese架构：共享参数的双分支结构使F-score降至0.497，证明独立参数设计的必要性。

5. 创新点总结

双网络协同架构：通过离线回归网络与在线验证网络的互补，兼顾泛化能力与动态适应性。
对象感知特征融合：结合乘法与拼接操作，增强目标区域的响应，提升候选框质量。
动态置信度评分：融合多源得分，实现精准的目标状态判定与搜索模式切换。
高效重检测机制：全局搜索策略在目标消失时快速恢复跟踪，避免传统方法依赖局部区域的局限性。

6.小结

论文提出的长期视觉跟踪框架在回归与验证网络协同工作的基础上，通过动态策略与高效重检测机制，显著提升了复杂场景下的跟踪鲁棒性。实验表明，其在VOT2018和OxUvA数据集上均达到领先性能，为实际应用提供了可靠的技术基础。未来工作可进一步优化网络轻量化设计，提升实时性，并探索多模态信息融合以应对极端遮挡挑战。