目标检测
文章平均质量分 87
liuyang-neu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
目标检测 LW-DETR(2024)详细解读
原始的ViT包含一个分块层和Transformer编码层。(知乎观点)LW-DETR之所以这么用ViT,灵感是来源于kaiming团队的ViTDet,但是,ViT的结构显然是同质的,每一层之间的特征的关联性是很大的,即浅层的特征在深层特征中能够得到很好的保留,那么多层特征拼接的做法除了符合某种“思维惯性”,看不出来什么必要性。另外,考虑到检测任务的图像尺寸一般是大于分类的,此时ViT中的全局自注意力操作便会是显著的计算瓶颈,为了解决这一问题,作者团队便采用了窗口注意力机制,同时,为了保证窗口之间的交互,原创 2025-05-21 09:42:30 · 667 阅读 · 0 评论 -
目标检测 RT-DETR(2023)详细解读
在使用了这个技巧后,显然训练过程中,类别的标签不再是此前的0和1离散值,而是0~1的连续值。关于 Query Selection(查询向量选择),大家应该并不陌生,这个方法可谓在DETR领域大杀四方,如DAB-DETR对查询向量进行重构理解,将其解释为Anchor,DN-DETR通过查询降噪来应对匈牙利匹配的二义性所导致的训练时间长的问题,DINO提出从Encoder中选择Top-k特征进行学习等一系列方法,这都无疑向我们证明,查询向量很重要,选择好的Query能够让我们事半功倍。在RT-DETR中,原创 2025-05-21 09:01:44 · 4724 阅读 · 0 评论 -
目标检测 Lite-DETR(2023)详细解读
因此,高效编码器会在一系列高级特征融合之后,以较低的频率更新这些低级特征。对低层级的特征图的token来说,将会耗费太多的计算量,模型的性能提升也比较少,但是也不能去掉这些低层级的特征,因为很多检测需要低层级的特征提供信息。如上图所示,去掉低层级的特征图,Encoder的计算量会得到大幅度的降低,相应小目标的检测精度也会下降,大目标的检测精度没有太大影响。如下图所示, S1 ∼ S3 作为高级特征 ,(a) 是 3.4 节中讨论的建议的高级特征更新,(b) 是 3.5 节中讨论的低级特征跨尺度融合。原创 2025-05-21 08:54:53 · 820 阅读 · 0 评论 -
目标检测 Focus DETR(2023)详细解读
这种双注意力编码器的设计,既考虑了计算效率,只对少量细粒度tokens进行额外的自注意力计算,也提升了前景特征表示的discrimination,有效地增强了前景语义信息。这篇论文是对Encoder进行改进,因为Encoder阶段输入了大量的token,会占用大量的计算量,因此对Encoder进行改进来减少Encoder的计算量、提高模型的运算效率。为了减少Encoder中的token数量,采用了一个评分的方法,会选取评分高的、更像是前景(有目标)的token,还有就是改进了一个双重注意力网络。原创 2025-05-21 08:53:29 · 799 阅读 · 0 评论 -
目标检测 Sparse DETR(2022)详细解读
原创 2025-05-21 08:50:54 · 548 阅读 · 0 评论 -
目标检测DINO-DETR(2023)详细解读
与此相反,我们的混合查询选择方法只用前 K 个选定特征来增强位置查询,并保持内容查询的可学习性。在实现上,DINO-DETR拥有两个超参数 λ1,λ2(λ1<λ2) 用于控制正负噪声样本的生成,而DN-DETR只有一个超参数 λ ,DN-DETR控制生成的噪声不超过 λ 并期望网络可以用在gts附近的轻微噪声querys去重构出gts。第三,为了利用后期层的refined box信息来帮助优化相邻早期层的参数,提出了一种新的look forward twice方案,用后面的层的梯度来修正更新后的参数。原创 2025-05-20 16:29:30 · 2053 阅读 · 0 评论 -
目标检测DN-DETR(2022)详细解读
接着我们取3个batch中最大的target的数量,在这里为9,由于group=5,所有5X9=45,构造噪声query的结构为【3,45,256】,这里注意256的最后一维为indicator标识,值为1,代表噪声。在DAB-Detr的基础上,进一步分析了Detr收敛速度慢的原因:二分图匹配的不稳定性(也就是说它的目标在频繁地切换,特别是在训练的早期),导致早期训练阶段的优化目标不一致(一个query通常在不同的时间段与不同的对象匹配,这使得优化变得模糊和不稳定)原创 2025-05-20 13:29:16 · 1327 阅读 · 0 评论 -
目标检测 DAB-DETR(2022)详细解读
本文认为原始的Detr系列论文中:可学习的object queries仅仅是给model预测box提供了锚点(中心点)信息,却没有提供box的宽和高信息。于是本文考虑引入可学习的动态锚框来使model能够适配不同尺寸的物体,深刻地揭示了 Decoder query 的具体意义,并加速网络的收敛。原创 2024-10-05 10:07:09 · 1717 阅读 · 0 评论 -
目标检测 Deformable DETR(2021)详细解读
为解决DETR attention的计算量大导致收敛速度慢、小目标检测效果差的问题:提出了,其注意力模块只关注一个query周围的少量关键采样点集,采样点的位置并非固定,而是可学习的(如左图所示,DETR的query要和其他所有的key计算相似度计算量为token的平方, 而Deformable DETR只关注周围少量的key,大大减少了计算量,提高了收敛速度),并采用了多尺度策略提高了小物体的检测性能。原创 2024-10-03 11:33:26 · 5159 阅读 · 1 评论 -
目标检测 DETR(2020)详细解读
DETR全称是Detection Transformer,是首个基于Transformer的端到端目标检测网络,最大的特点就是不需要预定义的先验anchor,也不需要NMS的后处理策略(少了这两部分可以少很多的超参数和计算),用集合的思想回归出100个query之后再用匈牙利算法二分图匹配的方式得到最终的正样本和负样本,第一个实现了端到端的目标检测。原创 2024-09-29 13:11:58 · 2942 阅读 · 0 评论
分享