- 博客(4)
- 收藏
- 关注
原创 目标检测降低input分辨率后怎么避免精度损失
论文想要通过蒸馏大的input或者multi-scale的input来解决input缩小带来的精度损失,这其实是一个很通用的思路,我之前尝试过,但是没做出好的效果,不了了之。这样来看,方法就有局限性,比如当Input缩小2x或者4x可以用,一些其他倍数就不好用了,比如我的模型。主要是简单看看这篇论文的思想,看看是否对我有用,论文比较旧了,cvpr2021的。背景不说了,input小了,flops就少了,同等算力下模型推理速度更快了。主要是3个点,空间对齐特征图,对齐的多尺度训练,和交叉特征融合。
2025-02-05 20:42:58
139
原创 理解DETR的sparse supervision 本质
因为每个target只对应一个正样本,这种稀疏的正样本数量限制了模型从训练中获取足够的有用信号。尤其是在小目标检测中,正样本稀缺会导致模型难以学习到关键特征,学习过程慢,学习效果差。之前一直没有理解DETR的这里有什么问题,现在来看看这里是什么意思。首先,yolo系列一直都是o2m的匹配策略,每个target box都有多个anchor, 提供了dense的监督信息,可以加速模型收敛,提升模型精度。DETR本身具有训练速度慢的缺点,但这个缺点一般是从其中transformer的自注意力计算负责度高来解释。
2025-02-05 17:28:57
303
原创 D-FINE源码学习
D-FINE-N的yaml文件给出了网络config, 包括backbone用HgNetv2,backbone用‘B0’架构的参数,encoder用HybridEncoder, decoder用D-FINE自己的transformer,以及optimizer, train, val的设置。重点是理解backbone, encoder和decoder的网络结构,里面涉及很多模块。主要是结合源码理解各个模块原理,why这些模块, 以及how to costdown这些模块。第一部分:HGNetv2。
2024-11-20 21:12:08
1419
2
原创 D-FINE论文理解
decoder layer1负责预测初始的bbox (这个要经过bbox回归head,mlp)及 bbox的概率分布(这个要经过D-FINE head, mlp), 每1个bbox对应4个概率分布,即4条边的概率分布。decoder layer 1预测的bbox作为参考bbox, 后续的decoder layers 以残差的形式 迭代优化bbox的边的概率分布,从而迭代优化decoder layer1 预测的bbox。这样有一个连锁效应,就是浅层学的更好了,深层预测更简单了,模型收敛更快了。
2024-11-19 21:13:23
1390
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人