mask rcnn源码模型踩坑(__reduce_cython__)指南(MxNet)

本文档提供了基于MxNet框架的Mask R-CNN模型训练详细步骤及常见问题解决方案,包括环境配置、数据集准备、模型训练脚本调整等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

mask rcnn模型踩坑指南(MxNet框架):
1. 环境:anaconda3+tensorflow-gpu+python2.7.14
pip freeze: certifi==2017.11.5 / Cython==0.27.3 / easydict==1.7 / frcnn-cython==0.0.0 / numpy==1.13.3 / olefile==0.44 / opencv-python==3.3.0.10 / Pillow==4.3.0 / pycocotools==0.0.0
2. 步骤 :
a. 原始数据集+原始代码。模型运行源码网址:https://github.com/TuSimple/mx-maskrcnn,数据集网址:https://www.cityscapes-dataset.com/ . 先下载数据集gtFine_trainvaltest.zip, leftImg8bit_trainvaltest.zip(需先注册,有些麻烦)和代码git clone https://github.com/TuSimple/mx-maskrcnn.git. 数据集解压到 ./data/cityscape/目录下
b. ***@ubuntu: mx-maskrcnn-master $ bash scripts/download_res50.sh  #Download Resnet-50 pretrained model 
c. 安装mxnet, tutorial: https://mxnet.incubator.apache.org/get_started/build_from_source.html
(tensorflow-gpu-python2) ***@ubuntu:mx-maskrcnn-master$ git clone --recursive https://github.com/apache/incubator-mxnet.git [mxnet]    # mxnet官网GitHub下载地址,download incubator-mxnet,即mxnet模块, --recursive必不可少,否则可能make失败,导致后面缺少libmxnet.so库。
d. (tensorflow-gpu-python2) ***@ubuntu: mx-maskrcnn-master $ cp rcnn/CXX_OP/* incubator-mxnet/src/operator/  # Build MXNet with ROIAlign operator.
cd incubator-mxnet
make -j8 USE_BLAS=openblas USE_CUDA=1 USE_CUDA_PATH=/usr/local/cuda USE_CUDNN=1 USE_CPP_PACKAGE=1 # c++编译选项USE_CPP_PACKAGE=1
# mxnet官网GitHub下载地址。 作者采用mxnet源码方式安装
e. cd ./rcnn/pycocotools/,  python setup.py build_ext install/--inplace #此处install或--inplace自己尝试的
cd ./rcnn/cython/,  python setup.py build_ext install/--inplace
# (必须进入目录运行,运行这句话之后,同一文件夹下的文件 _mask.pyx方能成为模块被其他文件import _mask)  if ./rcnn/pycocotools/mask.py", line 3, import _mask, no model named ‘_mask’
f. (tensorflow-gpu-python2) ***@ubuntu: mx-maskrcnn-master $ make #build related cython code , maybe need install cython package, 
g. (tensorflow-gpu-python2) ***@ubuntu: mx-maskrcnn-master $ bash scripts/train_alternate.sh  #Kick off training, 需修改train_alternate.sh最后一行为单GPU


模型正常训练结果:先加载图像,再迭代
========================1285 ============================
data/cityscape/gtFine/train/bochum/bochum_000000_006746_gtFine_instanceIds.png
(2048, 1024)
========================1286 ============================
data/cityscape/gtFine/train/weimar/weimar_000022_000019_gtFine_instanceIds.png
(2048, 1024)
 
模型训练2h显示:
 
模型训练20h显示:
 


3. 踩的2个大坑:
a.
(1) 报如下错误:

运行最后一步bash scripts/train_alternate.sh报错,File "_mask.pyx", line 56, in init rcnn.pycocotools._mask AttributeError: type object 'rcnn.pycocotools._mask.RLEs' has no attribute '__reduce_cython__' 


(2) 解决方案:将anaconda中的python3.6更换为python2.7(python3.6中还会报其他格式错误)
(3) 可能原因:见https://groups.google.com/forum/#!topic/cython-users/tQlwfcpdf0k,可能是Cython 0.26与python3不兼容(谷歌搜__reduce_cython__)
b.
(1) 报如下错误:
src/storage/storage.cc:63: Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading CUDA: invalid device ordinal
 
(2) 解决方案:将./scripts/train_alternate.sh脚本最后一行作如下修改:
--gpu 0,1,2,3 |& tee -a ${TRAIN_DIR}/train.log  ->  --gpu 0 |& tee -a ${TRAIN_DIR}/train.log
(3) 可能原因:见http://blog.youkuaiyun.com/zpp13hao1/article/details/78581767?locationNum=7&fps=1中间部分“使用一个GPU,源代码是使用了4个GPU,需要在train_alternate.sh中的最后一句话改为”
4. 备注
训练模型时,如出现如下libmxnet.so文件缺失,说明mxnet安装不成功,需从步骤c开始重新安装mxnet。
打印如下:RuntimeError: Cannot find the files. List of candidates:./incubator-mxnet/python/mxnet/libmxnet.so
./incubator-mxnet/python/mxnet/../../lib/libmxnet.so
./incubator-mxnet/python/mxnet/../../build/libmxnet.so
### 解决 `ImportError: cannot import name '_C' from 'maskrcnn_benchmark'` 错误 当遇到此类错误时,通常是因为 C++ 扩展未正确编译或安装。以下是详细的解决方案: #### 1. 安装依赖项 确保已安装所有必要的依赖项,特别是那些用于构建 C++ 扩展的工具链。可以尝试运行以下命令来安装这些依赖项: ```bash pip install --upgrade pip setuptools wheel pip install cython ``` #### 2. 编译 C++ 扩展 有时 `_C` 模块是一个由 Python 绑定到 C/C++ 的扩展库,在安装过程中需要被编译。如果环境变量设置不正确或者缺少某些编译器,则可能导致此模块无法成功创建。 对于 `maskrcnn_benchmark` 库来说,建议按照官方文档中的说明重新编译 C++ 扩展部分[^1]。具体操作如下: ```bash cd path/to/maskrcnn-benchmark/ python setup.py build develop ``` #### 3. 验证 CUDA 和 PyTorch 版本兼容性 确认当前使用的 PyTorch 及其对应的 CUDA 版本与项目需求相匹配。版本不一致可能会引发类似的导入问题。可以通过下面的方式查看当前环境中PyTorch及其CUDA版本信息: ```python import torch print(torch.__version__) print(torch.version.cuda) ``` #### 4. 更新相关软件包 如果有其他第三方库也涉及到相同名称的空间冲突(如Apex),则可能会影响正常加载。因此更新至最新稳定版或许能解决问题之一[^5]: ```bash pip uninstall apex git clone https://github.com/NVIDIA/apex.git cd apex pip install -v --no-cache-dir ./ ``` 通过上述措施应该能够有效处理因缺失或损坏而导致的'_C' 导入失败的情况。若仍然存在困难,则考虑清理虚拟环境并重置整个开发环境以排除潜在干扰因素。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值