我的AI之路(47)--使用自己的数据集训练EfficientDet

最新推荐文章于 2025-11-15 18:03:46 发布

原创

最新推荐文章于 2025-11-15 18:03:46 发布 · 3.2k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#EfficientDet #目标检测 #docker #EfficientNet

训练用的服务器的芯片一般都是X86架构的，所以可以直接从hub.docker.com上拉个安装了pytorch的镜像下来作为训练用的环境，省去了很多安装步骤，例如拉取pytorch/pytorch:1.2-cuda10.0-cudnn7-devel(注意一般不要使用runtime镜像，runtime镜像里面只安装了最小的支持环境，很多工具都没安装，devel镜像一般是比较全面的):

docker pull pytorch/pytorch:1.2-cuda10.0-cudnn7-devel

然后创建容器:
nvidia-docker run -it --ipc=host --name pytorch1.2-efficientdet -v /home/xsrt/AI/work_pytorch:/workspace -p 8190:8190 pytorch/pytorch:1.2-cuda10.0-cudnn7-devel bash

设置对中文字符集的支持:

vi ~/.bashrc
export LANG="C.UTF-8"

重启容器并再次连到容器，然后在容器内安装工具和支持包:

apt-get update
apt-get install vim

apt-get install libglib2.0-dev libsm6 libxrender1 libxext6

pip install cython matplotlib opencv-python

安装cocoapi：

git clone https://github.com/cocodataset/cocoapi.git
cd cocoapi/PythonAPI
make
python setup.py install --user

在容器里下载源码(github上有多个EfficientDet的实习代码，最初试用了star最多的https://github.com/toandaominh1997/EfficientDet.Pytorch，但是发现训练时很多时候不能收敛，loss值稀奇古怪的震荡甚至爆炸(非常大的值，大到超10亿以上，夸张吧)，感觉代码实现有问题，看了下里面的comments，有人遇到了同样的问题，有人推荐使用signatrix这个稳定的版本，于是改用下面的代码，果然很好，使用d0/d1级别模型训练过程中，loss值稳定下降，没有出现toandaominh1997那个版本的奇怪的震荡和爆炸):

git clone https://github.com/signatrix/efficientdet.git

但是使用这个版本后发现它只支持d0/d1级(对应的backbone网络EfficientNet是b0/b1)的模型，对2-7级别不支持，此外对更强悍的adv-efficientnet也不支持，改成其他级别训练时会报错(错误在后面贴出来)，而且它每次装载预训练模型总是远程从国外网上加载，会很慢，train.py里的某些参数也不全，使用起来不灵活，例如模型训练中途中断后没有可以resume的机制，为了解决这些比较严重的问题，我花了几天时间琢磨并修改了它的源码，把这些问题逐一解决了，并且使用修改后代码进行了训练，现在非常稳定好用，可以使用b0-b7或adv b0-b8任一级别的backbone模型进行训练，我的代码提交在