踩过太多次坑了,每次不记录结果每次再装又会出问题,记录如下:
自己又重新来了一次,没有什么问题。
1、首先安装Ubuntu系统
在第一步就出了问题,因为1080ti卡算是版本(水平?性能?,相对于一般的卡)比较高的卡,ubuntu系统是没有可以直接给大卡用的驱动的,所以在进入U盘引导界面的时候就会出现提示驱动问题的错误。
解决方法:从别的电脑上拆下一个低端一点儿的显卡,把1080ti换下来,再重新引导,就可以正常安装系统了。
安装过程中,我分区如下,大概50g:
swap: 16g(我的内存大小是16g)
/boot:1g
/:15g
/home: 20g(很多文件都直接放到home下了,其实我感觉可以大一些)
2、接下来是1080ti驱动安装问题
(最简单的方法:下载run文件安装,命令:sudo sh NVIDIA-driver.run -no-opengl-files -no-x-check -no-nouveau-check)
2.1 ubuntu系统,下载最新的nvidia官网驱动(NVIDIA-Linux-x86_64.run)
2.2 配置kernel以text模式启动(需要用sudo vim等,如果没有vim:sudo apt install vim):
修改/etc/default/grub文件:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
修改为:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset"
2.3 sudo reboot重启电脑(好像是得重启一下,我有一次没重启,导致显卡驱动安装失败,好像是说目前的低版本驱动正在使用无法安装)
修改完,执行: sudo update-grub 使其生效
2.4 按Ctrl+Alt+F1进入命令行模式
添加root用户: sudo passwd root (这里开始好像是建立root密码,一般人都是安装的中文版ubuntu,显示有乱码)
输入密码(这里输入两次是确认密码应该是,进入root应该是输入 $ su root)
2.5 关闭图形系统
$sudo service lightdm stop
2.6 添加显卡驱动权限
chmod +x Nvidia.....(全名)
2.7 终端中执行安装文件
./NVIDIA-Linux-x86_64-352.21.run(路径自行修改)
2.8 安装完成后,启动图形系统
$sudo service lightdm start
然后你就可以关机换大卡了,如果你有核弹,赶紧上!
重启后输入nvidia-smi 应该就可以看到相应的显卡信息了,输入nvidia-settings 应该可以弹出控制界面。
卧槽庆祝一下,刚刚tensorflow-gpu运行居然成功了...
3、驱动装完之后就可以安装CUDA了
网上很多建议安装.run版本的,我试了一次,没成功,最后还是用的.deb版本,我这里用的是8.0版本。
https://developer.nvidia.com/cuda-toolkit-archive 这个连接可以下载各个版本的cuda。
按照官方的安装步骤就很好用,如下:
- `sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb`
- `sudo apt-get update` #在这一步遇到点儿问题,进度条卡在0%不往前走,因为他链接的是ipv6地址,要不你连接ipv6(一般校园网),或者去改配置只能用ipv4什么的,我没细查,具体大家自己去查吧。
- `sudo apt-get install cuda`
过程中我没遇到问题,而且我也直接在terminal中运行的,没有关闭图形界面之类的。这里cuda就安装完成了,然后是配置路径。
CUDA相关的环境变量可以放在~/.bashrc中,
vim ~/.bash_profile
ps:vim使用大概介绍:进入界面后,输入”i“,就可以开始编辑,按”esc“,退出编辑,按”:“,输入”wq“ 保存退回terminal。
在其中,增加如下两行,
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda- 8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"
export CUDA_HOME=/usr/local/cuda-8.0
4、 接下来安装cudnn
我直接下的cuda 8.0对应的6.0版本cudnn”cuDNN v6.0 Library for Linux“,按说应该下下来是.tgz格式的,结果我今天下下来是个奇奇怪怪的格式,linux认不出来,我就直接右键重名民给改成.tgz,用的很好。
解压之后移动文件如下:
sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
sudo cp -d cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*
自己改路径去吧,前边是解压出来的文件路径,后边儿是cuda的文件路径。
5、闲谈:
有人说需要gcc降版本的,安装bazel的我都没有弄,没啥问题最后。gcc说是因为cuda8.0不支持,但是现在基本都会用到9.0了,估计gcc降级越来越不是问题了。
6、安装Anaconda3
去官网下载。
bash 那个.sh文件。安装过程中让你选是不是默认加入到路径中,你记得选是就可以了,没选的话自己加,官网有说明。
我有的时候也忘记加了...官网说明如下:/home/<user>/.bashrc 添加 export PATH="/<path toanaconda>/bin:$PATH"就可以了
安装完之后,运行 source ~/.bashrc ,你就可以去terminal输入python试一试了
7、重头儿,最简单的验证你前面对不对的就是直接看这一步结果对不对了。
我是比较懒,也没去学直接编译源码什么的,我就直接pip install tensorflow-gpu 安装的,不过后来总是报错,大概如下:
ImportError:libcublas.so.9.0:cannot open shared object file, no such file or directory.
(github下有这个问题的讨论:https://github.com/tensorflow/tensorflow/issues/15604, 里面有一个兄弟一语道破原因,说:
第一句:tensorflow-gpu-1.5版本需要cuda 9.0(我安装的是cuda8.0 tf-1.6),我应该卸了现在的重新安装1.4版本的tf才可以,”pip install --upgrade tensorflow-gpu==1.4“
第二句:我们还是应该多看官方文档啊,里面都有啊,比如tf的运行环境啊什么的(python,gcc,cuda,cudnn and so on)
重新装了tf-gpu 1.4之后就没问题了,写了一个简单的回归问题,100步毫秒算完。我要贴图了
然后最后是,我的系统崩了,我是在recovery系统里试的,回头我还得再装一遍......不过有了经验也快了,希望能帮到大家,装了两三次了,这回终于装好了。
最终: cuda8.0; cudnn6.0; tensorflow-gpu-1.4
新添加:
安装teamviewer:就正常安装,会遇到依赖问题,输入 sudo apt-get -f install 会自动解决依赖问题,再安装就没问题了。
安装opencv:pip install opencv-python
安装chrome浏览器:就按照百度经验走就ok
安装shutter截图工具:http://blog.youkuaiyun.com/hanshileiai/article/details/46843713
安装pytorch(py3.5/cuda8.0):
pip3 install http://download.pytorch.org/whl/cu80/torch-0.3.1-cp35-cp35m-linux_x86_64.whl
pip3 install torchvision
更新一下windows安装的坑:
可以参考:https://blog.youkuaiyun.com/xiangxianghehe/article/details/78736482 这篇博客,里面有下载链接,不过他的好像是支持cuda版本的,但是我上一个cpu也安装成功了,DLL问题被我莫名的解决了,然后在也解决不了了......
然后评论有一个哥们的方法比较直接:
conda install -c peterjc123 pytorch-cpu 可以直接安装cpu版本
--------------------------------------------------------------添加清华源-------------------------------------------------------------------------------
然后是linux的坑:
直接下载会很慢,可以加入清华源下载,速度飞起:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
然后conda install pytorch torchvision就ok了
ps: 目前清华源中的torch 0.3.0cuda有点慢,conda install pytorch torchvision cuda80 -c soumith 用这个cuda慢的问题没有了
----------------------------------------------------------------查看CUDA版本信息------------------------------------------------------------------
cat /usr/local/cuda/version.txt
补充部分:conda 离线配置pytorch
conda下载很慢的另一种解决办法(离线):
参考:https://www.cnblogs.com/darkknightzh/p/12000809.html
1. 去conda官网https://anaconda.org/pytorch/pytorch/files下载pytorch:
2. 去conda官网下载torchvision:https://anaconda.org/pytorch/torchvision/files
3. 去conda官网下载cudatoolkit:https://anaconda.org/anaconda/cudatoolkit/files
4. 离线安装pytorch、torchvision、cudatoolkit等(后缀bz2要保留。若使用迅雷下载,可能会添加.tar的后缀,如xxx.tar.bz2.tar,此时需要删除.tar,只保留到bz2):
conda install --offline pytorch-1.3.1-py3.7_cuda10.1.243_cudnn7.6.3_0.tar.bz2
conda install --offline torchvision-0.4.2-py37_cu101.tar.bz2
conda install --offline cudatoolkit-10.1.243-h6bb024c_0.tar.bz2
5. 参考网址中指出,离线安装好之后,还要重新使用conda在线安装一次,对相关的包进行在线匹配,但是要删掉最后的-c pytorch,,因为它代表直接从官网去下载,不会与本地的匹配,还会重新下载,命令如下:
conda install pytorch torchvision cudatoolkit=10.1