Ubuntu 训练深度学习模型的时候突然重启问题

使用Ubuntu 18.04和GTX 2080进行Pytorch深度学习训练时遇到电脑无预警重启的问题。尝试限制GPU功率并未彻底解决问题。在相关论坛中发现,禁用Turbo Boost和调整batch_size可能是有效解决方案。禁用Turbo Boost后,目前未出现重启现象。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Ubuntu 18.04, GTX 2080 显卡, Pytorch 训练深度学习模型, 会在运行一会儿(有时1分钟,有时10几分钟,不确定)后突然自动重启。 

没有任何提示,没有任何日志。 

nvidia-settings , psensor查看GPU, CPU温度都不是很高。

网上也没有找到很多相似的案例。 有的是玩游戏的时候重启,建议是换更大的电源。

这几个URL中的讨论时相关的。 

system auto reboot when tensorflow model is too large - Stack Overflow

https://github.com/tensorflow/tensorflow/issues/8858

不看可能会翻车,显卡瞬时功耗及电源重启之谜 – FCPOWERUP极电魔方

尝试了一下其中的一

Ubuntu系统上建立深度学习模型通常包括以下几个步骤: ### 1. 安装Ubuntu 首先,你需要在你的计算机上安装Ubuntu操作系统。你可以从Ubuntu官方网站下载最新的LTS版本,并按照安装向导进行安装。 ### 2. 更新系统 安装完成后,打开终端并更新系统软件包列表: ```bash sudo apt update sudo apt upgrade ``` ### 3. 安装必要的软件 安装一些必要的软件和工具,例如Git、curl等: ```bash sudo apt install git curl ``` ### 4. 安装Python和虚拟环境 深度学习通常使用Python编程语言。你可以使用`pyenv`来管理多个Python版本,并使用`venv`创建虚拟环境: ```bash sudo apt install build-essential libssl-dev zlib1g-dev libbz2-dev \ libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev \ xz-utils tk-dev libffi-dev liblzma-dev python-openssl git curl https://pyenv.run | bash ``` 在`~/.bashrc`文件中添加以下内容: ```bash export PATH="$HOME/.pyenv/bin:$PATH" eval "$(pyenv init -)" eval "$(pyenv virtualenv-init -)" ``` 然后,重新加载配置: ```bash source ~/.bashrc ``` 创建虚拟环境: ```bash pyenv install 3.8.10 pyenv global 3.8.10 python -m venv myenv source myenv/bin/activate ``` ### 5. 安装深度学习框架 根据你的需求安装深度学习框架,例如TensorFlow或PyTorch: ```bash pip install tensorflow ``` 或 ```bash pip install torch torchvision torchaudio ``` ### 6. 安装CUDA和cuDNN(如果需要GPU加速) 如果你的计算机有NVIDIA GPU,并且你希望利用GPU加速深度学习训练,你需要安装CUDA和cuDNN。 首先,添加NVIDIA的PPA并更新: ```bash sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ``` 安装NVIDIA驱动: ```bash sudo apt install nvidia-driver-460 ``` 重启计算机: ```bash sudo reboot ``` 安装CUDA和cuDNN: ```bash wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.1.243-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu1804_10.1.243-1_amd64.deb sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub sudo apt update sudo apt install cuda-toolkit-10-1 ``` 下载并安装cuDNN: ```bash wget https://developer.download.nvidia.com/compute/machine-learning/cudnn/secure/7.6.5.32/Production/10.1_20191031/cudnn-10.1-linux-x64-v7.6.5.32.tgz tar -xzvf cudnn-10.1-linux-x64-v7.6.5.32.tgz sudo cp cuda/include/cudnn.h /usr/local/cuda/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn* ``` ### 7. 验证安装 验证深度学习框架和CUDA的安装: ```bash python -c "import tensorflow as tf; print(tf.__version__)" ``` 或 ```bash python -c "import torch; print(torch.__version__)" ``` ### 8. 开始训练模型 现在,你可以在虚拟环境中编写和运行深度学习模型了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼车斯基

如果内容对你有用,赏杯咖啡吧!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值