1. 算法概述
长期视觉跟踪是计算机视觉领域的重要研究方向,其核心目标是在视频序列中持续跟踪目标对象,即使在目标暂时消失或发生剧烈形变时也能重新捕获。传统的短期跟踪算法通常假设目标始终存在于视野中,而长期跟踪需要解决目标消失与重现的挑战。论文提出的算法通过结合离线训练的回归网络(Regression Network)和在线更新的验证网络(Verification Network),构建了一个高效的长期跟踪框架。其核心创新点包括:
- 双网络协同机制:回归网络负责生成候选框并计算相似性得分,验证网络通过在线学习动态调整分类边界,提升对干扰物的判别能力。
- 动态搜索策略:基于置信度评分动态切换本地搜索与全局重检测模式,确保在目标消失时快速恢复跟踪。
- 特征融合与候选框生成:通过对象感知特征融合(Object-Aware Feature Fusion)和区域建议网络(RPN),提升候选框的生成质量。
2. 核心算法设计
2.1 回归网络(Regression Network)
回归网络是算法的离线训练部分,其核心任务是在每一帧中生成与目标相似的候选框,并计算它们的相似性得分。网络架构基于MobileNet作为特征提取器,采用双分支结构处理搜索区域和模板图像,具体流程如下:
2.1.1 输入与特征提取
- 搜索区域:以当前目标位置为中心,裁剪大小为300×300的图像块作为输入。
- 模板图像:使用首帧提供的目标真实框(Ground Truth)作为固定模板,尺寸为127×127。
- 特征提取:两个分支分别通过不同的卷积层提取特征。搜索区域分支输出两尺度特征图(19×19×512和10×10×512),模板分支输出单尺度特征向量(1×1×512)。
2.1.2 对象感知特征融合
特征融合模块通过乘法与拼接操作结合搜索区域和模板的特征,增强对目标相似区域的响应:
- 乘法操作:将模板特征图复制扩展至与搜索区域特征图相同尺寸后逐点相乘,突出相似区域。
- 拼接操作:将相乘后的特征图与原始模板特征图拼接,形成1024维的融合特征,输入至后续区域建议网络(RPN)。
2.1.3 候选框生成
每个尺度的特征图通过独立的RPN生成候选框,RPN包含两个分支:
- 相似性计算分支:输出每个锚点(Anchor)与模板的匹配得分(2k通道,k为锚点数量)。
- 回归分支:输出候选框的位置偏移量(4k通道)。
通过非极大值抑制(NMS,IoU阈值为0.6)筛选出高置信度的候选框,形成候选池。
2.2 验证网络(Verification Network)
验证网络是算法的在线更新部分,其任务是对回归网络生成的候选框进行二次筛选,避免因相似干扰物导致的跟踪漂移。网络基于VGG-M架构,输入为107×107的图像块,输出前景与背景的分类概率。
2.2.1 在线更新策略
- 样本选择:仅使用高置信度的候选框作为正样本(前景),背景样本从搜索区域的随机区域中采样。
- 网络微调:每次更新时,仅调整网络的最后三层卷积层参数,避免过拟合。
- 正则化机制:通过回归网络的相似性得分对验证网络的训练样本进行筛选,确保样本可靠性。
2.2.2 候选框验证流程
- 从候选池中选择相似性得分最高的候选框,输入验证网络进行分类。
- 若分类为前景,则将其作为当前帧的跟踪结果;否则,从候选池中选取分类得分最高的候选框。
- 若无候选框满足阈值条件,则触发全局重检测。
2.3 动态搜索策略
算法通过融合回归网络和验证网络的得分,计算最终置信度 S c S_c Sc,并基于此动态调整搜索模式:
S c = { 1.0 , S v > θ v ′ 或 S r > θ r ′ , S v > 0 0 , S r < θ r , S v < 0 S r , 其他情况 S_c = \begin{cases} 1.0, & S_v > \theta_{v'} \text{ 或 } S_r > \theta_{r'}, S_v > 0 \\ 0, & S_r < \theta_{r}, S_v < 0 \\ S_r, & \text{其他情况} \end{cases} Sc=⎩ ⎨ ⎧1.0,0,Sr,Sv>θv′ 或 Sr>θr′,Sv>0Sr<θr,Sv<0其他情况
其中, θ v ′ = 20.0 \theta_{v'}=20.0 θv′=20.0, θ r ′ = 0.5 \theta_{r'}=0.5 θr′=0.5, θ r = 0.3 \theta_{r}=0.3 θr=0.3。
- 本地搜索模式 ( S c ≥ 0.3 ( S_c \geq 0.3 (Sc≥0.3):在目标周围4倍大小的区域内进行搜索。
- 全局重检测模式 ( S c < 0.3 ( S_c < 0.3 (Sc<0.3):在全图像范围内进行搜索,直至重新捕获目标。
2.4 图像级重检测机制
当目标被判定为“消失”时,算法启动全局搜索:
- 将图像划分为多个重叠的区域块,分别输入回归网络计算相似性得分。
- 选择得分最高的区域块,并通过验证网络确认是否为真实目标。
- 若确认成功,则切换回本地搜索模式;否则持续执行全局搜索。
3. 实现细节
3.1 网络训练
- 回归网络训练数据:使用ImageNet检测数据集和ILSVRC视频数据集,通过随机采样和增强(仿射变换、随机擦除)提升泛化能力。
- 损失函数:联合相似性损失(交叉熵)和定位损失(平滑L1),优化目标为端到端训练。
- 锚点设计:采用多尺度锚点(比例[0.33, 0.5, 1, 2, 3]),适应目标尺度变化。
3.2 在线跟踪优化
- 模板固定:回归网络的模板始终使用首帧的真实框,避免累积误差。
- 验证网络更新频率:每隔5帧更新一次,平衡实时性与鲁棒性。
4. 实验与性能分析
4.1 数据集与评价指标
- VOT2018 LTB35:包含35个长序列,平均每序列4196帧,12%的帧标记为“目标消失”。
- OxUvA:包含366个轨迹,平均时长2.4分钟,52%的帧标记为“目标消失”。
- 评价指标:F-score(VOT2018)、MaxGM(OxUvA)、TPR(真阳性率)、TNR(真阴性率)。
4.2 实验结果
- VOT2018 LTB35:F-score达0.610,优于DaSiam_LT(0.607)和MMLT(0.546),重检测成功率100%。
- OxUvA:MaxGM为0.544,显著高于SiamFC+R(0.454)和TLD(0.431)。
4.3 消融实验
- 去除验证网络:F-score下降至0.525,验证网络对性能提升贡献显著。
- 特征融合模块:仅使用乘法或拼接操作分别导致F-score下降至0.582和0.442,表明两者缺一不可。
- Siamese架构:共享参数的双分支结构使F-score降至0.497,证明独立参数设计的必要性。
5. 创新点总结
- 双网络协同架构:通过离线回归网络与在线验证网络的互补,兼顾泛化能力与动态适应性。
- 对象感知特征融合:结合乘法与拼接操作,增强目标区域的响应,提升候选框质量。
- 动态置信度评分:融合多源得分,实现精准的目标状态判定与搜索模式切换。
- 高效重检测机制:全局搜索策略在目标消失时快速恢复跟踪,避免传统方法依赖局部区域的局限性。
6.小结
论文提出的长期视觉跟踪框架在回归与验证网络协同工作的基础上,通过动态策略与高效重检测机制,显著提升了复杂场景下的跟踪鲁棒性。实验表明,其在VOT2018和OxUvA数据集上均达到领先性能,为实际应用提供了可靠的技术基础。未来工作可进一步优化网络轻量化设计,提升实时性,并探索多模态信息融合以应对极端遮挡挑战。