【论文阅读】OSTrack：Joint Feature Learning and Relation Modeling for Tracking A One-Stream Framework

最新推荐文章于 2025-01-16 16:43:28 发布

Deepsdu

最新推荐文章于 2025-01-16 16:43:28 发布

阅读量914

点赞数

分类专栏： Paper DeepLearning PyTorch 文章标签：论文阅读计算机视觉深度学习目标跟踪 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42200352/article/details/128935193

版权

DeepLearning 同时被 3 个专栏收录

9 篇文章

订阅专栏

4 篇文章

订阅专栏

1 篇文章

订阅专栏

文章提出了一个结合特征提取和关系建模的一流程跟踪框架，通过早期候选消除模块提高推理速度，并在实验中展现出优秀的性能和收敛速度。该方法包括联合特征提取、候选区域消除及恢复、以及使用FCN层和分类回归损失的头部设计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

现有的双流网络，双阶段跟踪网络分别提取模板特征和搜索区域的特征，因此提取的特征缺乏对目标的关注，目标背景判别力有限

创新点

通过结合特征提取和关系建模，提出一个简单高效的一流程，一阶段跟踪框架；
候选区域消除模块，用来提高模型的推理速度；
大量实验证明，SOTA，并且具有较高的推理速度和收敛速度。

方法

在这里插入图片描述

1 Joint Feature Extraction and Relation Modeling

输入的图像对为图像进行分裂并展平成的patches对，template image patch $Z (3 * H * W)$ ，搜索区域 $X$
经过一个参数可学习的线性映射层和参数可学习的position embeddings
然后concatHz和Hx，作为encoder的输入
对关系建模的解释：

中间层的可视化

2 Early Candidate Elimination

针对相似度得分比较低的候选X，进行删除，相似度得分为：

where qi, Kz, Kx and V denote the query vector of token hz, the key matrix corresponding to the template, the key matrix corresponding to the search region and the value matrix.
M：multi head的头数

Candidate Restoration

作用：做的padding，用于恢复原图片。
在这里插入图片描述

Head and Loss

Head：堆叠了4个FCN层
Loss：采用的是分类和回归损失
在这里插入图片描述

Experiments

在这里插入图片描述

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。