NanoDet代码逐行精读与修改（零）Architecture

原创

已于 2022-03-05 20:48:01 修改 · 6.1k 阅读

65 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #神经网络 #目标检测 #知识蒸馏

于 2022-03-05 19:13:00 首次发布

NanoDet-Plus是一个基于FCOS的轻量级目标检测模型，引入动态标签分配策略和辅助训练模块（AGM）。AGM在训练初期指导标签分配，帮助网络快速收敛，后期分离以提升推理效率。模型采用GhostPAN neck，使用GFL和DFL损失函数。此外，还提供详细代码注释和训练流程图，适合研究和实践。

--neozng1@hnu.edu.cn

NanoDet是一个单阶段的anchor-free模型，其设计基于FCOS模型,并加入了动态标签分配策略/GFL loss和辅助训练模块。由于其轻量化的设计和非常小的参数量，在边缘设备和CPU设备上拥有可观的推理速度。其代码可读性强扩展性高，是目标检测实践进阶到深入的不二选择。作者在知乎上有一篇介绍的文章，指路：超简单辅助模块加速训练收敛，精度大幅提升！移动端实时的NanoDet升级版NanoDet-Plus来了！

笔者已经为nanodet增加了非常详细的注释，代码请戳此仓库：nanodet_detail_notes: detail every detail about nanodet 。

此仓库会跟着文章推送的节奏持续更新！

话不多说，从结构上我们直接分backbone、neck、head、assist module、dynamic label assigner五个模块进行超級详细的介绍。

0. Architecture

surprise！首先当然要介绍一下整体的架构了。先看看整个模型的架构图：

NanoDet-Plus架构图，图源作者知乎

直观来看，最大的不同就是新增的Assign Guidance Module模块。检测框架还是FCOS式的一阶段网络，neck改为了GhostPAN，同时摒弃了FCOS的标签分配策略转向动态软标签分配并加入辅助训练模块也就是前述的AGM，它将作为教师模型帮助head获得更好的训练。头部的回归和标签预测仍然继承之前的Generalized Focal Loss。

以NanoDet-m (320x320)为例让我们先看一下config/下的配置文件中和网络架构有关的选项：

	name: NanoDetPlus
    detach_epoch: 10
    backbone:
      name: ShuffleNetV2    # 默认使用shuffleNetV2
      model_size: 1.0x      # 模型缩放系数，更大的模型就是相应扩大各层feature map的大小
      out_stages:

最低0.47元/天解锁文章

20 条评论

lovn650 2025.03.31
请问您仓库中的代码就是添加了注释嘛，有没有其他改动

泡面o 2023.04.08
请问test的时候，我的图像很大5120*51120的，最后出的结果被截取了左上角一小块，请问这个怎么办呢？
- HNU跃鹿战队回复泡面o 2023.04.10
  哈哈，如果前处理没有选择固定大小的输入，anchor-free模型确实是可以处理全图的。
- 泡面o回复HNU跃鹿战队 2023.04.10
  谢谢，我昨天发现问题所在了，图片太大导致显示不完全，添加一个保存指令在文件夹打开就是完整图像了！
- HNU跃鹿战队回复泡面o 2023.04.09
  是的，最好是裁切。如果图像中有很多小目标，resize之后基本就看不到了。
- 泡面o回复HNU跃鹿战队 2023.04.09
  谢谢，那我train的时候也需要先把图片尺寸resize成要求的尺寸吗？感谢解答！
- HNU跃鹿战队回复泡面o 2023.04.08
  高分辨率图像建议下采样或切割成小图像进行推理。

m佩琪 2023.03.17
你好，你有在VS上部署过nanodet 模型嘛？
- HNU跃鹿战队回复m佩琪 2023.03.17
  描述不够清晰，VS是一款IDE，为什么会用IDE部署模型呢？你是想说使用的工具链是MSVC吗？常见的部署框架包括openvino，ncnn，libtorch等。

weixin_45846488 2023.02.28
请问nanodet能出混淆矩阵吗呜呜

皆晴语 2022.12.28
《了解RM》那片长教程写得太好了，最后的总结我都快看哭了

Xr.C 2022.03.22
请问Nanodet的输出格式是怎么样的，输入为[1，3，416，416]，输出[1, 9072, 35]是怎样的格式呢？
- Xr.C回复HNU跃鹿战队 2022.03.23
  期待您后面讲推理和部署，我现在正把nanodet部署在linux开发板上，但对目标检测模型输出与后处理不熟悉。
- Xr.C回复HNU跃鹿战队 2022.03.23
  你好，搞清楚了。我所用的模型3分类，因此输出为[1,所有特征图叠加长度,3分类置信度+4x8]，其中4x8与后处理矩阵8x1相乘得到4x1，为每个像素与边框的距离。
- HNU跃鹿战队回复Xr.C 2022.03.23
  不知道您是否自行修改了网络架构?可以先转成onnx然后用netron看一下输出的格式.第一个维度一般是batch,第二维是[class,(reg_max+1)*4]=112 (在没有修改检测类别数和reg_max参数的情况下),第三维是所有的priors。https://blog.youkuaiyun.com/NeoZng/article/details/123339827?spm=1001.2014.3001.5502这里介绍了320x320在coco数据集下的标准情况的输入和输出。

Xr.C 2022.03.15
你好，nanodet是动态输入的，转换为onnx也是动态输入，请问如何在训练或者转onnx时就固定输入呢?
- Xr.C回复HNU跃鹿战队 2022.03.15
  你好，你是对的，输入尺寸没有错误。我导出onnx并转rknn报错“Loading dynamic inputs model is not support, please fix it first”，原因在于export onnx.py文件中keep_initializers_as_inputs=True,导致onnx有多个“input”。改为False即可解决。不过“keep_initializers_as_inputs”参数具体作用什么还未搞清楚
- HNU跃鹿战队回复Xr.C 2022.03.15
  我没有用onnx runtime部署过网络，不太清楚去。但是用neutron打开onnx文件，输入确实是1x3x320x320。至于pipeline里面的参数，是数据增强中使用到的，scale控制的是缩放比例。
- Xr.C回复HNU跃鹿战队 2022.03.15
  批处理或图像尺寸，例如我在yml配置文件中设置图像size[416，416]，导出onnx后发现模型的输入并非固定为[1，3，416，416]，而是有236种动态输入。我没发现训练或者转换onnx时指定输入的参数。请问是否能解读下yml文件中pipeline下各参数的含义吗，scale[0.8，1.6]参数是否是动态范围?
- HNU跃鹿战队回复Xr.C 2022.03.15
  不太明白您说的固定输入是什么意思，是说批处理吗？还是输入图像的大小？