喵喵Tansy-优快云博客

原创目标检测降低input分辨率后怎么避免精度损失

论文想要通过蒸馏大的input或者multi-scale的input来解决input缩小带来的精度损失，这其实是一个很通用的思路，我之前尝试过，但是没做出好的效果，不了了之。这样来看，方法就有局限性，比如当Input缩小2x或者4x可以用，一些其他倍数就不好用了，比如我的模型。主要是简单看看这篇论文的思想，看看是否对我有用，论文比较旧了，cvpr2021的。背景不说了，input小了，flops就少了，同等算力下模型推理速度更快了。主要是3个点，空间对齐特征图，对齐的多尺度训练，和交叉特征融合。

2025-02-05 20:42:58 139

原创理解DETR的sparse supervision 本质

因为每个target只对应一个正样本，这种稀疏的正样本数量限制了模型从训练中获取足够的有用信号。尤其是在小目标检测中，正样本稀缺会导致模型难以学习到关键特征，学习过程慢，学习效果差。之前一直没有理解DETR的这里有什么问题，现在来看看这里是什么意思。首先，yolo系列一直都是o2m的匹配策略，每个target box都有多个anchor, 提供了dense的监督信息，可以加速模型收敛，提升模型精度。DETR本身具有训练速度慢的缺点，但这个缺点一般是从其中transformer的自注意力计算负责度高来解释。

2025-02-05 17:28:57 303

原创 D-FINE源码学习

D-FINE-N的yaml文件给出了网络config, 包括backbone用HgNetv2，backbone用‘B0’架构的参数，encoder用HybridEncoder, decoder用D-FINE自己的transformer，以及optimizer, train, val的设置。重点是理解backbone， encoder和decoder的网络结构，里面涉及很多模块。主要是结合源码理解各个模块原理，why这些模块，以及how to costdown这些模块。第一部分:HGNetv2。

2024-11-20 21:12:08 1419 2

原创 D-FINE论文理解

decoder layer1负责预测初始的bbox （这个要经过bbox回归head，mlp）及 bbox的概率分布(这个要经过D-FINE head, mlp)，每1个bbox对应4个概率分布，即4条边的概率分布。decoder layer 1预测的bbox作为参考bbox，后续的decoder layers 以残差的形式迭代优化bbox的边的概率分布，从而迭代优化decoder layer1 预测的bbox。这样有一个连锁效应，就是浅层学的更好了，深层预测更简单了，模型收敛更快了。

2024-11-19 21:13:23 1390 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 目标检测降低input分辨率后怎么避免精度损失

原创 理解DETR的sparse supervision 本质

原创 D-FINE源码学习

原创 D-FINE论文理解

空空如也

空空如也

原创目标检测降低input分辨率后怎么避免精度损失

原创理解DETR的sparse supervision 本质