目标检测 LW-DETR（2024）详细解读

最新推荐文章于 2025-11-10 10:50:06 发布

原创

最新推荐文章于 2025-11-10 10:50:06 发布 · 667 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#目标检测 #人工智能 #计算机视觉

文章目录

- 整体架构

LW-DETR全称Light-Weight DETR，是百度团队提出的第二代面向实时检测算法，比yolo v8的速度和精度更好

整体架构

LW-DETR 由一个ViT编码器（Vision Transformer Encoder）、一个投影器（Projector）和一个DETR解码器（DETR Decoder）组成。

（知乎观点）LW-DETR之所以这么用ViT，灵感是来源于kaiming团队的ViTDet，但是，ViT的结构显然是同质的，每一层之间的特征的关联性是很大的，即浅层的特征在深层特征中能够得到很好的保留，那么多层特征拼接的做法除了符合某种“思维惯性”，看不出来什么必要性。

另外，考虑到检测任务的图像尺寸一般是大于分类的，此时ViT中的全局自注意力操作便会是显著的计算瓶颈，为了解决这一问题，作者团队便采用了窗口注意力机制，同时，为了保证窗口之间的交互，窗口注意力之后又添加了其他可进去全局关联的模块，这一设计也是借鉴了ViTDet。

编码器

Encoder 采用ViT 作为检测编码器。原始的ViT包含一个分块层和Transformer编码层。Transformer编码层在最初的ViT中包含一个对所有token（patch）的全局自注意力层和一个FFN层。全局自注意力计算成本较高，其时间复杂度与token（patch）数量的平方成正比。通过在Transformer编码层使用窗口自注意力来降低计算复杂度。作者提出将多级特征图、编码器中间层和最终特征图进行聚合，形成更强的编码特征图。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。