深度学习框架搭建ubuntu16-04LTS+NVIDIA+cuda+cudnn+mxnet+tensorflow+anaconda和pyc

本文提供详细的CUDA9.1和CuDNN7.0.x安装指南,涵盖解决双显卡电脑启动黑屏问题、NVIDIA驱动安装、CUDA和CuDNN配置及环境变量设置,确保GPU支持的MXNet安装。
部署运行你感兴趣的模型镜像

参考http://blog.youkuaiyun.com/fdqw_sph/article/details/78745375
http://blog.youkuaiyun.com/wiinter_fdd/article/details/66523468
http://blog.youkuaiyun.com/liangyihuai/article/details/77842628
https://mxnet.incubator.apache.org/install/index.html
https://www.jianshu.com/p/9ba7b257c91c
卸载方法:
https://blog.youkuaiyun.com/l297969586/article/details/67632608
https://blog.youkuaiyun.com/FIELDOFFIER/article/details/54017297

使用软件版本:cuda9.0,cudnn7.0.x坚决不用7.1!
#系统安装
问题1:双显卡电脑启动会黑屏
解决方法:

  • 在引导界面,按e进入grub编辑界面,在quiet splash 后面添加 acpi_osi=linux nomodeset
  • 按F10接着引导启动
  • 进入登录界面,输入用户名密码,进入主界面,在命令行输入代码
sudo vim /etc/default/grub

找到 quiet splash 后面添加 acpi_osi=linux nomodeset
按:wq保存

sudo update-grub

重启即可

下载安装包

查看自己gpu显卡型号

lspci | grep -i nvidia

驱动管网上下载安装包NVIDIA-Linux-x86_64-390.25.run
网址http://www.nvidia.cn/page/home.html

下载cuda_9.1.85_387.26_linux.run
网址https://developer.nvidia.com/cuda-downloads
image.png
注意下载runfile文件

下载cudnn-9.1-linux-x64-v7.1.tgz 需要注册登录后才可以下载,cudnn版本一定要支持cuda版本
网址https://developer.nvidia.com/cudnn

nvidia 驱动安装

禁用nouveau

ubuntu自带的nouveau驱动会影响cuda安装,不当操作会导致黑屏和登陆循环。 终端运行:

安装中遇到的问题:安装驱动会无限循环登录界面

解决方法:在登录界面按住ctril+alt+F1 进入tty界面输入用户名和密码登录,卸载原有NVIDIA驱动

sudo apt-get remove --purge nvidia-*
sudo apt-get autoremove
安装一些依赖(网上借鉴,个人安装没有遇到)

我在安装过程中遇到下图中的问题

网上查找发现遇到的人不多,经查找,可能是因为缺少32位的库文件(我安装64位的,为啥需要这个。。。晕),需要安装依赖

sudo apt-get install lib32ncurses5
sudo apt-get install lib32z1
安装后可解决

然后开始安装驱动,继续在tty界面输入命令

sudo service lightdm stop

(*网上借鉴,个人没有遇到)此时可能关不了,即使现实该操作OK,但是一会再开启时会有问题,可以在此基础上增加操作,手动删除X图像界面,图像界面X在/tmp路径下,具体操作:

cd /tmp  
sudo rm -rf .X*

这样就可以把关于X的图像界面文件全部删除(每次重启都会再次生成,所以会在alt+ctrl+f1界面下操作)

安装nvidia driver

sudo chmod a+x NVIDIA-Linux-x86_64-390.25.run
sudo ./NVIDIA-Linux-x86_64-390.25.run -no-x-check -no-nouveau-check -no-opengl-files
  • –no-x-check 安装驱动时关闭X服务
  • –no-nouveau-check 安装驱动时禁用nouveau
  • –no-opengl-files 只安装驱动文件,不安装OpenGL文件

提示步骤
Accept->Continue installation->sign the kernel module(为内核模块签名)?选择是->使用已有的密钥给模块签名还是重新生成?选重新生成密钥->是否删除已生成的密钥文件?选择否->安装完成

问题:The target kernel has CONFIG_MODULE_SIG set,which means that it supports cryptographic signatures on kernel module. On some systems, the kernel may refuse to load modules without a valid signature from a trusted key.This system also UEFI Secure Boot enabled; many distributions enforce module signature verification on UEFI systems when Secure Boot is enabled. Would you like to sign the NVIDIA kernel module?

解决:禁用UEFI安全启动功能

启动电脑,然后按电脑的设置访问UEFI,本机器按[F2]键,不同的制造商可能有不同的设置,具体请参考主板说明书。

根据不同的UEFI版本,安全启动选项通常在一个选项卡下,这个选项卡可能被命名为“Boot”、“Security”或者“Authentication”,在类似的选项卡中查找,我们会发现一个“Secure Boot”选项,该选项默认设置为“Enabled”,选中它并回车,将其设置为“Disabled”,按[Apply]键存储设置,重新启动电脑即可安装我们需要的操作系统。

sudo reboot

进入主界面输入

nvidia-smi

显示上图则说明成功

安装cuda9.1

找到下载文件的路径

chmod a+x cuda_9.1.85_387.26_linux.run
sudo ./cuda_9.1.85_387.26_linux.run

单击回车,一路往下运行,直到提示“是否为NVIDIA安装驱动nvidia-384?”,选择否,因为已经安装好驱动程序了,其他的全都是默认,不过要记住安装位置,默认是安装在/usr/local/cuda文件夹下。

配置环境变量,运行如下命令打开profile文件

sudo gedit  /etc/profile

打开文件后在文件末尾添加路径,也就是安装目录,命令如下:

export  PATH=/usr/local/cuda-9.1/bin:$PATH
export  LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64$LD_LIBRARY_PATH

保存,然后重启电脑

sudo reboot

测试CUDA的例子

cd  /usr/local/cuda-9.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery

如果显示的是关于GPU的信息,则说明安装成功了。

最后你会看到cuda驱动、sample、tookit已经安装成功,但是缺少一些库。

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

环境变量配置

安装完毕后,再声明一下环境变量,并将其写入到 ~/.bashrc 的尾部:

export PATH=/usr/local/cuda-9.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

然后设置环境变量和动态链接库,在命令行输入:

sudo gedit /etc/profile

在打开的文件末尾加入:

export PATH=/usr/local/cuda/bin:$PATH

保存之后,创建链接文件:

sudo gedit /etc/ld.so.conf.d/cuda.conf

在打开的文件中添加如下语句:

/usr/local/cuda/lib64

然后执行

sudo ldconfig

使链接立即生效。

安装cudnn

继续Ctrl+alt+F1进入的字符界面
进入解压后的cudnn-9.1-linux-x64-v7.1.tgz文件cuda,在终端执行下面的指令安装:

tar -zxvf cudnn-9.1-linux-x64-v7.1.tgz
cd cuda    
sudo cp lib64/lib* /usr/local/cuda/lib64/    
sudo cp include/cudnn.h /usr/local/cuda/include/ 

然后更新网络连接:

cd /usr/local/cuda/lib64/  
sudo chmod +r libcudnn.so.7.0.3  # 自己查看.so的版本  
sudo ln -sf libcudnn.so.7.0.3. libcudnn.so.7  
sudo ln -sf libcudnn.so.7 libcudnn.so  
sudo ldconfig  

重新启动图形化界面

sudo service lightdm start

再Ctrl+alt+F7退出Text Mode。

使用anaconda创建虚拟化环境

conda create -n mxnet python=3.6

激活虚拟化环境

conda activate mxnet

在虚拟化环境中使用pip安装gpu mxnet
Install MXNet with GPU support using CUDA 9.1

pip install mxnet-cu91

install graphviz(Optional, needed for graph visualization using mxnet.viz package).

sudo apt-get install graphviz
pip install graphviz

Validate the installation by running simple MXNet code described here.

Experimental Choice If You would like to install mxnet with Intel MKL, try the experimental pip package with MKL:

pip install mxnet-cu91mkl

Validate MXNet Installation

python
>>> import mxnet as mx
>>> a = mx.nd.ones((2, 3), mx.gpu())
>>> b = a * 2 + 1
>>> b.asnumpy()
array([[ 3.,  3.,  3.],
       [ 3.,  3.,  3.]], dtype=float32)

运行成功则安装成功

pycharm 使用虚拟环境

File->setting->Project:XXXX->Project Interperter
image.png

选择anaconda3/envs/mxnet/bin/python3.6,选择后系统会load相关的配置,这样就可以愉快的在PyCharm中使用Anaconda的虚拟环境了。

遇到的坑(没遇到)

练习的时候需要使用Graphviz这样一个包,这是一个把数据图形化的包。但是不管是通过brew brew install graphviz还是Anaconda conda install -c anaconda graphviz安装,在代码中始终无法导入。
最后通过查看这里解决。大概的意思是graphviz的conda包并不是一个python包,通过conda install -c anaconda graphviz只是把相关的文件下载下来,还需要通过pip install graphviz 安装。这样就能在代码里顺利导入相关的包了。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

在WIN11系统搭配GTX 3050显卡的环境下,以下是各软件相对合适的版本搭配: ### Ubuntu 建议选择Ubuntu 20.04 LTS。该版本具有长期支持(LTS),意味着在较长时间内可获得安全更新维护,并且与众多软件的兼容性良好,能为后续安装其他软件提供稳定的基础环境。 ### Cuda GTX 3050显卡推荐安装Cuda 11.4及以上版本。因为GTX 30系列显卡对较新的Cuda版本有更好的支持,Cuda 11.4能充分发挥显卡的性能优势,同时也与许多深度学习框架兼容。例如在Ubuntu 20.04中可以使用如下命令安装: ```bash wget -c https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run sudo sh cuda_11.4.0_470.42.01_linux.run ``` 安装完成后,需要配置环境变量,如在`~/.bashrc`文件中添加: ```bash export PATH=/usr/local/cuda-11.4/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} ``` ### cuDNN 对应Cuda 11.4,cuDNN建议选择8.x版本。cuDNN 8.x系列为深度学习任务提供了优化的性能功能,并且与Cuda 11.4兼容性佳。安装时,下载对应的cuDNN文件,解压后将相关文件复制到Cuda安装目录: ```bash tar -zxvf cudnn-11.4-linux-x64-v8.x.tgz sudo cp cuda/include/cudnn.h /usr/local/cuda-11.4/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.4/lib64 sudo chmod a+r /usr/local/cuda-11.4/include/cudnn.h /usr/local/cuda-11.4/lib64/libcudnn* ``` ### ROS 对于Ubuntu 20.04,ROS 2 Foxy Fitzroy是合适的选择。ROS 2在架构功能上进行了改进,具有更好的分布式系统支持实时性能。安装方法可参考ROS官方文档,通常需要添加ROS软件源,然后使用`apt`命令进行安装。 ### Opencv Opencv 4.x版本是一个不错的选择。Opencv 4.x对CUDA有良好的支持,能够利用GPU加速计算机视觉任务,并且提供了丰富的功能优化的算法。可以通过源码编译或者使用包管理器进行安装。 ### Caffe Caffe在较新的环境中使用可能会遇到一些兼容性问题,但对于GTX 3050上述版本的UbuntuCuda,尽量选择支持Cuda 11.x的Caffe版本。可以从Caffe的官方仓库获取合适的版本进行编译安装。 ### Tensorflow Tensorflow 2.x版本是主流选择,并且与Cuda 11.4cuDNN 8.x兼容。可以使用`pip`进行安装: ```bash pip install tensorflow-gpu ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值