自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 目标检测降低input分辨率后怎么避免精度损失

论文想要通过蒸馏大的input或者multi-scale的input来解决input缩小带来的精度损失,这其实是一个很通用的思路,我之前尝试过,但是没做出好的效果,不了了之。这样来看,方法就有局限性,比如当Input缩小2x或者4x可以用,一些其他倍数就不好用了,比如我的模型。主要是简单看看这篇论文的思想,看看是否对我有用,论文比较旧了,cvpr2021的。背景不说了,input小了,flops就少了,同等算力下模型推理速度更快了。主要是3个点,空间对齐特征图,对齐的多尺度训练,和交叉特征融合。

2025-02-05 20:42:58 139

原创 理解DETR的sparse supervision 本质

因为每个target只对应一个正样本,这种稀疏的正样本数量限制了模型从训练中获取足够的有用信号。尤其是在小目标检测中,正样本稀缺会导致模型难以学习到关键特征,学习过程慢,学习效果差。之前一直没有理解DETR的这里有什么问题,现在来看看这里是什么意思。首先,yolo系列一直都是o2m的匹配策略,每个target box都有多个anchor, 提供了dense的监督信息,可以加速模型收敛,提升模型精度。DETR本身具有训练速度慢的缺点,但这个缺点一般是从其中transformer的自注意力计算负责度高来解释。

2025-02-05 17:28:57 303

原创 D-FINE源码学习

D-FINE-N的yaml文件给出了网络config, 包括backbone用HgNetv2,backbone用‘B0’架构的参数,encoder用HybridEncoder, decoder用D-FINE自己的transformer,以及optimizer, train, val的设置。重点是理解backbone, encoder和decoder的网络结构,里面涉及很多模块。主要是结合源码理解各个模块原理,why这些模块, 以及how to costdown这些模块。第一部分:HGNetv2。

2024-11-20 21:12:08 1419 2

原创 D-FINE论文理解

decoder layer1负责预测初始的bbox (这个要经过bbox回归head,mlp)及 bbox的概率分布(这个要经过D-FINE head, mlp), 每1个bbox对应4个概率分布,即4条边的概率分布。decoder layer 1预测的bbox作为参考bbox, 后续的decoder layers 以残差的形式 迭代优化bbox的边的概率分布,从而迭代优化decoder layer1 预测的bbox。这样有一个连锁效应,就是浅层学的更好了,深层预测更简单了,模型收敛更快了。

2024-11-19 21:13:23 1390 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除