我的AI之路(45)--使用自己的数据集训练CenterNet

最新推荐文章于 2022-11-12 18:57:53 发布

原创

最新推荐文章于 2022-11-12 18:57:53 发布 · 3.8k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #CenterNet #pytorch0.4.1

本文详细介绍如何在Pytorch环境下配置并训练CenterNet模型，包括环境搭建、模型编译、数据集准备、训练过程及常见错误解决方法。

更新说明：

作者的源码: https://github.com/xingyizhou/CenterNet是基于pytorch0.4.1的(CUDA最高版本只能使用到CUDA9)，如果想使用pytorch1.0以上版本以支持使用CUDA10.0或以上版本，可以在下载作者的源码后，其他步骤照做，只是把DCNv2的源码用https://github.com/CharlesShang/DCNv2这里的源码替换掉就可以了，已在Pytorch1.2+RTX2080TI+CUDA10.0环境里训练了多个模型没任何问题：

cd CenterNet/src/lib/models/networks
rm -r DCNv2
git clone https://github.com/CharlesShang/DCNv2.git
cd DCNv2
python setup.py build develop

[原文]

CenterNet是anchor-free类型网络，具有识别精度高且速度快的特点，根据作者的论文中列出的数据来看，指标综合考虑来看比较牛了：

最后那个CenterNet-HG，也就是backbone使用的Hourglass-104网络的AP值只比FSAF低一点了(但是FSAF目前貌似还没有源码放出来),比YOLO序列和RCNN序列都强很多，虽然FPS自有7.8，但是对一般实时性要求不是很高的视频检测也够用了，所以拿来试试。

首先下载作者的源码: git clone https://github.com/xingyizhou/CenterNet.git，根据安装说明:https://github.com/xingyizhou/CenterNet/blob/master/readme/INSTALL.md，环境和工具软件是:

Ubuntu 16.04, with Anaconda Python 3.6 and PyTorch v0.4.1

他这个源码是使用的pytorch0.41版写的，由于pytorch0.41支持的CUDA最高版本是CUDA9，不支持我们的服务器上目前安装的CUDA10.0或CUDA10.1,我先是试了一下使用conda创建隔离环境后安装支持CUDA10的pytorch1.3或pytorch1.0.0，然后跑了一下，结果报错，说是CenterNet中有API是不支持的了(后面再说)，但在公共服务器上又不好随便乱装CUDA(安装过CUDA的应该知道它的厉害，很能折腾人，装得不对服务器登录进不去、黑屏之类的问题让人三思)，于是想到还是使用docker最好，首先到hub.docker.com上拉取个pytorch0.4.1+CUDA9.0的devel版镜像:

docker pull pytorch/pytorch:0.4.1-cuda9-cudnn7-devel

然后运行创建实例(进入容器内部后默认的初始路径是/workspace，所以把下载了CenterNet源码的目录work_pytorch映射到/workspace，并预留端口12000的映射，以备后面有需要时对模型做server端封装调用，并带上ipc=host参数，以防止做多GPU分布式训练的过程中出现共享内存不足的错误):

nvidia-docker run --ipc=host -d -it --name pytorch0.41 -v /home/fychen/AI/work_pytorch:/workspace -p 12000:12000 pytorch/pytorch:0.4.1-cuda9-cudnn7-devel bash

进入容器后，执行下面的修改(容器内的pytorch安装在/opt/conda路径下)把torch.nn.functional.py里1254行的torch.backends.cuddn.enabled改为False：

sed -i "1254s/torch\.backends\.cudnn\.enabled/False/g" /opt/conda/lib/python3.6/site-packages/torch/nn/functional.py

然后，依次执行下面的命令安装pycocotools:

git clone https://github.com/cocodataset/cocoapi.git
cd cocoapi/PythonAPI
pip install cython
make
python setup.py install --user

再依次执行下面的命令完成CenterNet下面的部分代码的编译:

cd /workspace/CenterNet
pip install -r requirements.txt

cd src/lib/models/networks/DCNv2
./make.sh

cd /workspace/CenterNet/src/lib/external
make

再安装一些跑CenterNet需要的支持包(不安装这些包会报错)：

apt-get install libglib2.0-dev libsm6 libxrender1 libxext6

然后下载对应的预训练模型，我要使用的backbone是hour-glass，模型训练后用来做物体检测，根据https://github.com/xingyizhou/CenterNet/blob/master/readme/MODEL_ZOO.md :

下载第一行的ctdet_coco_hg模型即可，点击右边的model链接下载模型文件ctdet_coco_hg.pth，这里是从dr

最低0.47元/天解锁文章

20 条评论

无。 2021.12.10
博主您好，请问error in modulated_deformable_im2col_cuda: no kernel image is available for execution on the device这个问题怎么解决呢？我用的pytorch1.7+cuda11.0,DCNv2已经更换编译没问题，运行demo.py的时候就报错
- Arnold-FY-Chen回复无。 2021.12.10
  使用torch.cuda.is_availale()测试结果如何
- Arnold-FY-Chen回复无。 2021.12.10
  这种原因一般是你环境没安装好，首先你安装的pytorch1.7是配套cuda11.0的版本吗？另外你安装的cuda11.0,你的GPU是什么类型的呢？驱动安装好了么？用 torch.cuda.is_available()测试结果如何？

kunawr 2021.08.27
可以加个微信嘛请教一下 2449647073 谢谢

kunawr 2021.08.27
您好，我也提示 Traceback (most recent call last): File "main.py", line 12, in <module> from models.model import create_model, load_model, save_model File "/home/fychen/AI/CenterNet/src/lib/models/model.py", line 12, in <module> from .networks.pose_dla_dcn import get_pose_net as get_dla_dcn File "/home/fychen/AI/CenterNet/src/lib/models/networks/pose_dla_dcn.py", line 16, in <module> from .DCNv2.dcn_v2 import DCN 这些错误，请问cuda版本不对只能卸载重装吗？
- Arnold-FY-Chen回复kunawr 2021.08.27
  后面还有更具体的错误原因吗？如果是CUDA版本不对引起的，要想不受作者的原始代码只能使用CUDA9的限制，参照我开头说的那段 :作者的源码: https://github.com/xingyizhou/CenterNet是基于pytorch0.4.1的(CUDA最高版本只能使用到CUDA9)，如果想使用pytorch1.0以上版本以支持使用CUDA10.0或以上版本，可以在下载作者的源码后，其他步骤照做，只是把DCNv2的源码用https://github.com/CharlesShang/DCNv2这里的源码替换掉就可以了... 如果这么替换代码并且编译了还是报CUDA方面的错误，那就需要CUDA版本对上，一般来说CharlesShang/DCNv2支持pytorch 1.x，你选择安装pytorch1.x的某个版本应该是没问题的，前提是注意你选择安装的pytorch版本是对应哪种版本的CUDA的，这个也得对上

dunti 2021.04.21
您好，请问测试的时候，遇到这种问题怎么解决啊！File"/hone/cv-group/.local/lib/python3.6/stte.packages/pycocotools-2.0-py3.6-linux-x86_64.egg/pycocotools/coco.py"，line 325, in loadRes 'Results do not correspond to current coco set' AssertionError:Results do not correspond to current coco set
- dunti回复Arnold-FY-Chen 2021.04.23
  好的，我试一试，感谢！我用的VisDrone数据集。
- Arnold-FY-Chen回复dunti 2021.04.21
  你是使用的自己的数据集吧？你的图片文件的名字都不是coco数据集里那样的数字形式吧？把文件名统一改名称coco数据集里的数字形式即可

咪咕班克斯 2021.04.07
能否分享一下cocominival2014的图片数据集链接和split文件？谢谢
- Arnold-FY-Chen回复咪咕班克斯 2021.04.07
  https://cocodataset.org/这个网站的dataset的download里去找，这个网站很难打开，最好有VPN
- Arnold-FY-Chen回复咪咕班克斯 2021.04.07
  https://cocodataset.org/ 的dataset的download里去找，这个网页很难打开，最好翻墙

Mr.Seven7 2020.07.29
博主，您好，我提取coco2014的行人类进行训练，因为显卡不太好，所以batch=8，训练50个epoch，学习率调过几次，每次损失都收敛在5附近，请问博主知道大概什么原因吗？
- Arnold-FY-Chen回复Mr.Seven7 2020.07.30
  [reply]qq_44874672[/reply]首先可能是训练epoch不够，如果你没有修改过lr方面的任何参数的话，默认lr的自动调整是参数lr_step控制的，默认值是90,120，也就是训练到epoch=90和epoch=120时才会调整一下lr，到了一定阶段lr不调整，可能会停在一个极值点附近振荡，并不是训练所需真正的逼近的最小值，所以，首先你将epoch加大到至少150，试试看

Numen_isnot_delay 2020.07.21
模型下载不下来了，你可以吗？
- Arnold-FY-Chen回复少年酱普JUMP 2020.10.08
  我也只下载到了ctdet_coco.hg，上传到了这里(ctdet_coco.hg.path文件受上传限制分成四部分:part1,part2，part3,part4)
- 少年酱普JUMP回复Arnold-FY-Chen 2020.10.08
  亲，求hg的预训练模型
- Arnold-FY-Chen回复Numen_isnot_delay 2020.07.21
  [reply]ICANITHINK[/reply]那些模型都是放在谷歌的drive网站上，国内没法下载，你需要科学上网，我当时只想法下载了一个我需要的模型文件,上传到了这个网上，如果需要，注意文内这个地方点击链接下载即可：已上传到了这里(ctdet_coco.hg.path文件受上传限制分成四部分:part1,part2，part3,part4)

禅非蝉 2020.06.29
您好，请问我训练时，wh_loss和off_loss都为0，请问您知道大概什么原因么
- Arnold-FY-Chen回复禅非蝉 2020.06.29
  [reply]Hassan66[/reply]如果你没修改过代码的话，一般出现这种情况应该是你的数据有问题，数据读取可能有问题，可以自己跟踪一下