win10下原安装了py37+tf1.13+cuda10+cudnn7.6,用于tf1框架检测的运算,在C盘系统占空间太大,想移到其他盘,谁知怎么安装都出问题,GPU 不运行,而且训练的模型都保存在C盘昨时文件夹中,也不方便。
ubuntu系统安装了anaconda3,py3.8,cuda11.4,470驱动。anaconda可支持多个版本的python,故另建一个py37版本,用于tf1 目标检测模型的训练,tf1模型pb文件应用方便。
conda create -n py37 python=3.7
建立名为py37的环境。自动安装cuda10.0及cudnn7.6.5
启动激活conda activate py37
安装tensorflow-gpu==1.15.0,安装API

运行训练:python object_detection/model_main.py --pipeline_config_path=**/**.config --model_dir=** --alsologtostderr

该错误主要是gpu内存不足引起,修改model_main.py
import tensorflow.compat.v1 as tf
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
config = tf.ConfigProto()
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.7)
config.gpu_options.allow_growth = True
session = tf.Session(config=config)
后可进行训练。

退出:conda deactivate

博主分享了如何将原本在Windows系统中占用大量C盘空间的TensorFlow-GPU环境(Python 3.7,TensorFlow 1.13,CUDA 10,CUDNN 7.6)迁移到Ubuntu系统,并创建了一个conda环境(py37)以安装CUDA 11.4和470驱动。在Ubuntu环境下,使用Anaconda创建了Python 3.7的虚拟环境,并成功安装了TensorFlow 1.15。然而,训练过程中遇到GPU内存不足的问题,通过修改`model_main.py`文件中的GPU配置解决了该问题。最后,介绍了如何退出conda环境。
369

被折叠的 条评论
为什么被折叠?



