- 博客(9)
- 收藏
- 关注
原创 Visual Prompt Multi-Modal Tracking阅读笔记
可见模态对象跟踪产生了一系列下游多模态跟踪支流。为了继承基础模型的强大表示,多模态跟踪的自然操作方法是对基于 RGB 的参数进行全面微调。尽管有效,但由于下游数据稀缺和可迁移性差等原因,这种方式并不是最优的。在本文中,受最近语言模型提示学习成功的启发,我们开发了视觉提示多模态跟踪(ViPT), 它学习模态相关的提示,使冻结的预训练基础模型适应各种下游多模态跟踪任务。ViPT 找到了一种更好的方法来激发大规模预训练的基于 RGB 的模型的知识,同时只引入一些可训练的参数(不到模型参数的 1%)。
2023-05-02 21:07:05
1630
8
原创 E.T.Track: Efficient Visual Tracking with Exemplar Transformers论文译解
更复杂和强大的神经网络模型的设计显着推进了视觉目标跟踪的最新技术水平。这些进步可归因于更深层次的网络,或引入新的构建块,例如Transformer。然而,在追求提高跟踪性能的过程中,运行时间常常受到阻碍。此外,高效的跟踪架构很少受到关注。在本文中,我们介绍了 Exemplar Transformer,这是一种利用单个实例级注意层进行实时视觉对象跟踪的转换器模块。我们的视觉跟踪器 E.T.Track 包含 Exemplar Transformer 模块,在 CPU 上以 47 FPS 的速度运行。
2023-03-12 12:36:30
1638
原创 Transformer原理解析
decoder会接收encoder输出的信息,在得到START指令之后,开始对input进行decode处理,然后将第一个输出作为输入并结合input得到第二个输出,如此循环往复。masked self-attention:在decoder中,当前位置的输出只考虑当前位置及以前的输入,而后面的输入不用考虑。在数据量比较少的时候,CNN会更有优势,但是数据量比较充足的时候,self-attention会占优势。而self-attention的感受野是其自行学到的。作用:输入一个seq,输出一个seq。
2023-03-08 21:42:30
442
原创 FCOS: Fully Convolutional One-Stage Object Detection论文译解+代码调试记录
FPN被用于解决多目标重叠问题。
2023-03-06 15:30:29
175
原创 DeFCN:End-to-End Object Detection with Fully Convolutional Network论文译解
poto,Defcn,3dmax
2023-02-28 23:05:16
556
原创 python之gather()函数详解
我们只需要关注input、dim和index三个参数即可(input即被index索引的原始tensor,dim即index中的元素在input的下标中占那个位置,例如有索引a[i][j],当dim=0时,index中的元素占第一个位置,即i的位置。index当然就是input的索引啰。上图中橙色箭头指向的即是索引与输入的对应关系,剩余的请自己摸索。然后贴我自己摸索的代码,能看懂的请直接划走!
2023-02-20 10:15:38
3538
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人