
目标跟踪
文章平均质量分 90
Eavan努力努力再努力
永远热情,永远真诚,永远热爱
展开
-
目标跟踪论文整理(不全,以单目标为主)
近几年目标跟踪论文整理原创 2022-06-05 13:39:40 · 3346 阅读 · 0 评论 -
目标检测DiffusionDet: Diffusion Model for Object Detection
本文提出了一个新的框架。原创 2022-11-22 21:30:22 · 7148 阅读 · 4 评论 -
[VOT16](2021CVPR)SwinTrack: A Simple and Strong Baseline for Transformer Tracking
跟踪背景:Transformer近期在提升视觉跟踪算法中展示了明显的潜力。然而,现存的基于transformer的跟踪器大部分来说使用Transformer来混合并增强由CNN生成特征。本文做法:相反地,本文提出了一个基于全注意力的Transformer跟踪算法SwinTrack)。SwinTrack用Transformer既做了特征提取也做了特征混合,让目标和搜索区域间充分地交互。为了进一步提升性能,我们综合地观察了特征混合、位置编码、训练损失等不同策略的影响。本文优势。原创 2022-11-21 17:30:33 · 2637 阅读 · 0 评论 -
[RGBT-VOT3](2020ECCV)CAT:Challenge-Aware RGBT Tracking
RGB和红外源数据再RGBT跟踪中有着相同的挑战——如何探索利用这些数据来表达目标外观。本文提出了一个。原创 2022-10-17 17:21:07 · 1078 阅读 · 0 评论 -
[RGBT-VOT2](2020CVPR)CMPP: Cross-Modal Pattern-Propagation for RGB-T Tracking
我们观察在RGB-T数据中观察到:模式相关经常出现在跨模态间和连续帧之间,因此,本文提出了一个cross-modal pattern-propagation (CMPP) 跟踪框架在空间域和时间域中扩散实例模式(原文是diffuse instance patterns)。为了连接RGB-T模态,在模态内配对模式的跨模态相关性来揭露不同模态间的潜在联系 (原文是通过这些关系,有用的模态可以在不同RGB-T之间相互传播以填补模态内的模式传播。原创 2022-10-15 16:18:55 · 1505 阅读 · 0 评论 -
[RGBT-VOT1](2022TCSVT)SiamCDA: Complementarity- and Distractor-Aware RGB-T Tracking
近期,一些研究者试图应用多模态数据来跟踪,如RGB-D和RGB-T。原创 2022-10-14 15:01:33 · 1356 阅读 · 0 评论 -
单目标跟踪数据集sampler
4. 分别从[base_frame_id - max_gap, base_frame_id]和(base_frame_id, base_frame_id + max_gap]中采样一系列train frames和test frames, 需要注意的是只有visible的帧才会被采样;# 3. 在该视频序列中确定template_frame_ids和search_frame_ids(要求,visible且间距不超过max_gap)# 1. 任选一个数据集,如Lasot;原创 2022-09-09 11:22:14 · 403 阅读 · 0 评论 -
目标跟踪常见训练数据集格式
-annotations-train2017-train -GOT-10_Train_000001 ... -GOT-10_Train_009335-test -GOT-10_Test_000001 ... -GOT-10_Test_000180-val -GOT-10_val_000001 ... -GOT-10_val_000180-airplane -airpla原创 2022-07-05 08:37:52 · 1575 阅读 · 0 评论 -
[VOT15](2021CVPR)Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation
先贴一张整体流程图:(Alpha-Refine即插即用,无需再训练)提出问题:许多跟踪器采用多阶段策略来提升边界框估计,其先粗略地估计目标位置然后在接下来的阶段精调初始的预测结果。但这些方法精度有效,且多阶段耦合限制了该方法的迁移性。本文方法:提出Alpha-Refine(AR),显著提升基追踪器的性能。通过一系列实验,本文发现提升精调性能的关键时尽可能地提取和维持细节空间信息。据此,AR采用了一个逐像素相关操作+一个corner预测头+一个辅助掩码头。实验结果:在TrackingNet, LaSot, G原创 2022-06-09 16:54:50 · 1036 阅读 · 0 评论 -
[VOT12](2017CVPR) CSR-DCF: Discriminative Correlation Filter Tracker with Channel and Spatial
总体流程图:Abstract背景:短期跟踪是一个开放且具有挑战性的问题,其中判别相关滤波器(discriminative correlation filters, DCF) 展示了卓越的性能。本文:我们为DCF跟踪引入了通道和空间可靠性的概念并为其在过滤器更新和跟踪过程中的高效无缝集成提供一种学习算法。空间可靠性图将滤波器调整到适合跟踪的对象部分,这既可以扩大搜索区域,又可以改善对非矩形对象的跟踪。可靠性分数反映了学习的滤波器的通道质量,并做为定位中的特征加权系数。实验:在只有2个简单的标准特.原创 2022-06-09 14:59:47 · 1210 阅读 · 0 评论 -
[VOT16](2021CVPR)LightTrack: Finding Lightweight Neural Networks for Object Tracking
先贴一个整体流程图:发现问题:SOTA的跟踪器变得越来越“重”和“昂贵”,限制了其在资源有限的应用上的部署。本文做法:本文提出LightTrack,使用NAS(神经架构搜索)以设计更轻量级和有效的目标跟踪器。实验结果:相比手工设计的跟踪器,性能更高且Flops和参数量更少。此外,当部署在资源有效的移动芯片组,如高通骁龙845时,LightTrack运行更快。其填补了目标跟踪领域在学术模型和工业部署间的空缺。跟踪背景:目标跟踪是计算机视觉领域中仍然最具挑战性的问题之一。在过去几年中,得益于深度学习的星期,目标原创 2022-06-09 14:56:55 · 844 阅读 · 1 评论 -
[VOT14](2022CVPR)CSWinTT: Transformer Tracking with Cyclic Shifting Window Attention
先贴一个算法整体框架图: 问题背景:Transformer架构得益于其有效的注意力机制已经在目标跟踪领域展示了巨大的优势。提出问题:现有的Transformer追踪器都采用了在拉展的图像特征上进行的逐像素注意力策略,不可避免地忽略了目标的完整性。本文做法:提出一个带有多尺度循环移位窗口注意力的Transformer架构 CSWinTT,将注意力机制从像素级别提升至窗口级别。本文优势:交叉窗口多尺度注意力(cross-window multi-scale attention)有助于集成不同尺度的注意力并为跟踪原创 2022-06-08 11:32:14 · 2364 阅读 · 2 评论 -
[VOT13](2021CVPR)TrDiMP+TrSiam: Transformer Meets Tracker: Exploiting Temporal Context
Abstract发现问题:视频目标跟踪任务中,在连续帧之间存在着丰富的时域上下文关系,其在现存的跟踪器中常常被忽略。本文工作:本文通过transformer结构探索视频帧之间的时间上下文关系,以实现鲁棒的跟踪。不同于NLP领域中经典的transformer使用,本文将编解码器分为2个平行的分支并在Siamese pipeline中仔细地设计编解码器的具体结构。本文具体做法:编码器通过基于注意力的特征强化提升目标模板,有利于生成高质量的跟踪模型。解码器将跟踪的相关线索从先前的模板传播到当前帧,有助于目标原创 2022-05-22 13:09:16 · 2378 阅读 · 0 评论 -
[VOT11](2022CVPR)VTUAV数据集+HMFT baseline: Visible-Thermal UAV Tracking
先贴个baseline的流程图:Abstract背景:随着多模态传感器的普及,可见光-热成像(RGB-T)目标跟踪将在温度信息的指导下实现稳健的性能和更广泛的应用场景。科学问题:然而,缺乏成对的训练数据是当前RGB-T追踪的主要瓶颈。因为收集高质量的RGB-T序列是非常耗时费力的,最近的benchmarks仅提供了测试序列。本文:构建了一个可见光-热成像UAV跟踪大规模数据集(VTUAV),包含500 个序列具有 170 万个高分辨率(1920*1080 像素)帧对。VTUAV数据集考虑.原创 2022-05-08 16:44:30 · 4729 阅读 · 3 评论 -
[VOT9](2022CVPR)SBT:Correlation-Aware Deep Tracking
先贴一张核心流程图:本文认为需要对同一目标生成连贯的特征,以及和干扰物的对比特征。Abstract背景:鲁棒和鉴别能力是模板跟踪的两大基本要求。由孪生网络类算法提取的特征不能完全鉴别模板和干扰物,现在大部分算法都在集中于设计鲁棒的相关操作。本文:受到自/相关注意力的启发,提出a target-dependent feature network,将跨图像特征相关性深度嵌入到特征网络的多个层中,可以压制非目标的特征,拥有实例变化的特征提取能力。搜索区域的输出特征可以直接被用于预测模板位置,而不用额外.原创 2022-05-06 09:24:00 · 3126 阅读 · 0 评论 -
[VOT8](2022CVPR)TPAMI:Effective Local and Global Search for Fast Long-term Tracking
先放一张算法流程图:代码至2022.05.05暂未released.Abstract【注】:本文是由会议论文扩展而来。B. Yan, H. Zhao, D. Wang, H. Lu, and X. Yang, “‘Skimming-perusal’ tracking: A framework for real-time and robust long-term tracking,” in Proceedings of the IEEE International Conference on Co.原创 2022-05-05 17:33:46 · 2000 阅读 · 0 评论 -
[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers
Abstract背景:长期跟踪的难点在于目标离开视线或被遮挡引起的不连续运动。现存方法:现存的长期跟踪方法有2种策略:1)使用局部跟踪器执行平滑的跟踪并在目标丢失时使用其他的重检测器检测目标,这样的方法可以探索类似目标历史外观和定位的时域上下文信息,但其局部跟踪器可能被相近的干扰物误导,使得在目标丢失时没有激活重检测器;2)在整张图像中追踪目标而不是基于先前帧的追踪结果执行局部追踪,但这些样的全局追踪无法有效利用时域上下文。本文做法:联合了以上2种策略的优势,在全局中追踪目标并探索时域上下文。具体地,原创 2022-05-05 11:45:07 · 4820 阅读 · 0 评论 -
[VOT10](2022CVPR)TCTrack: Temporal Contexts for Aerial Tracking
Abstract现存问题:现有的跟踪框架还远远没有利用好连续帧间的时域上下文关系。本文做法:提出TCTrack框架来充分探索空中跟踪的时域上下文。其中,时域上下文关系分为2个阶段融入跟踪器中:特征提取阶段和相似图的细化阶段。具体地,1)特征提取阶段:提出了一个在线时序自适应卷积用时序信息来增强空间特征,这一过程根据之前帧来动态校准卷积权重实现。2)相似图的细化阶段:提出一个自适应时序Transformer,它先以高效记忆的方式有效编码时域知识,然后这个时域知识被解码用于精准地调整相似图。效果:在4个空原创 2022-05-03 17:50:09 · 2163 阅读 · 1 评论 -
[VOT6](2022CVPR)ToMP:Transforming Model Prediction for Tracking(未完+质量差)
Abstract背景:基于优化的跟踪方法通过集成目标模型预测模块获得了广泛的成功,其通过最小化目标函数提供有效的全局推理。虽然这种归纳偏差整合了宝贵的领域知识,但它也限制了跟踪网络的表达能力。本文工作:提出一个基于Transformer模型预测模块的追踪架构。Transformers 以很少的归纳偏差捕获全局关系,使其能够学习更强大的目标模型的预测。进一步,本文扩展这个模型预测器来估计第二组权重,并将这些权重用于准确的边界框回归。实验结果:在三个数据集上达到SOTA,在LaSOT上实现了68.5%的A原创 2022-05-02 20:27:37 · 6129 阅读 · 0 评论 -
STARK论文记录(2021CVPR):Learning Spatio-Temporal Transformer for Visual Tracking
Abstract本文创新:提出了一个以编解码Transformer为关键元素的新的追踪架构。编码器建模目标和追踪区域之间的全局时空特征依赖,解码器学习一个查询嵌入(query embedding)来预测目标对象的空间位置。将目标追踪看作一个直接的边界框预测问题,不需要任何proposal或者predefined anchors。本文贡献:利用编解码Transformer,目标预测过程仅用了一个简单的全卷积网络,直接估计目标的角点。整个模型是端到端的,不需要任何后处理步骤如cosine windo原创 2022-04-27 17:47:46 · 5782 阅读 · 3 评论 -
[VOT4](2021CVPR)TransT:Transformer Tracking
Abstract背景介绍:相关操作在跟踪领域,尤其是基于孪生网络架构的追踪算法中扮演了一个十分重要的角色,它简单混合了模板特征图和搜索特征图,以检验其相似性。提出问题:相关操作是一个局部线性匹配过程,会丢失语义信息并易陷入局部最优,因为相关操作可能是高性能追踪算法的设计瓶颈。那么,是否有比相关操作更好的特征混合方法呢?本文做法:提出了基于注意力机制的特征混合网络,可以只使用注意力有效混合模板特征图和搜索特征图。具体地,提出算法包括了一个基于自注意力的自我上下文增强模块(an ego-context a原创 2022-04-20 16:30:05 · 5917 阅读 · 5 评论 -
[VOT3](2020CVPR)SiamCAR:Siamese Fully Convolutional Classification and Regression
论文地址:https://arxiv.org/abs/1911.07241作者源码地址:Abstract做法:本文将视觉跟踪任务分解为两个问题:像素级别的分类问题+在该像素上目标框的回归问题,提出了一个新颖的全卷积孪生网络SiamCAR以端到端的方式在像素级别解决目标跟踪问题。具体做法:SiamCAR包括2个简单的子网络:一个用于特征提取的孪生子网+一个用于目标框预测的分类回归子网,以ResNet50为backbone。不同于SiamRPN, SiamRPN++, SPM这些基于region p.原创 2022-04-05 19:24:10 · 3472 阅读 · 0 评论 -
[VOT2](2020CVPR)SiamBAN: Siamese Box Adaptive Network for Visual Tracking
Abstract动机: 已有的大部分追踪器要么依赖于多尺度搜索要么依赖于预设的anchor boxes,以精确估计目标的尺度和比例。但是,他们经常需要繁杂和启发式的配置。做法:本文提出一个简单但有效的追踪框架SaimBAN,探索全卷积网络(FCN)的表达能力。SaimBAN将视觉追踪问题看作是分类和回归的并行问题,直接以一种统一的FCN方式分类前景和背景并回归目标框。这种无先验框的设计避免了与候选框相关的超参数,使得SiamBAN 更加灵活和通用。实验:VOT2018, VOT2019, OTB100原创 2022-04-02 17:40:52 · 9784 阅读 · 12 评论 -
STARK代码详细学习笔记
STARK代码学习笔记前言一、环境安装二、设置项目路径三、训练STARK四、测试STARK1. 下载预训练模型2. 准备测试数据集五、STARK代码细节前言本文记录了STARK代码学习阶段的步骤,核心内容从原作者的github中搬运,对于部分内容(如不同数据集的测试语句)仅以一个为例进行展示,详细请查看原github页面。code链接:https://github.com/researchmm/Starkpaper链接:https://arxiv.org/abs/2103.17154STARK原创 2021-10-20 15:54:32 · 5577 阅读 · 24 评论 -
目标跟踪论文整理(不全,以单目标为主)
目标跟踪论文整理2022 CVPR2021 ICCV2022 CVPRGlobal Tracking Transformerspaper: https://arxiv.org/abs/2203.13250code: https://github.com/xingyizhou/GTRTransforming Model Prediction for Trackingpaper: https://arxiv.org/abs/2203.11192code: https://github.com/vi原创 2022-03-28 20:19:16 · 4372 阅读 · 0 评论 -
[VOT1](2019CVPR)SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks文章下载Abstract动机:以往的Siamese tracking在精度上还有较大的提升空间,他们不能利用深度网络(如Resnet-50及更深的网络)的特征。本文:验证了其核心原因在于缺乏严格的translation invariance。做法:1)提出spatial aware sampling strategy (空间感知采样策略),成功将Resnet嵌原创 2022-03-28 11:51:37 · 3808 阅读 · 2 评论