这篇文章的目标是为了讲解使用GPU做深度学习的模型训练所需要做哪些工作。
未来怎么把实验室里面的四块GPU 联合分布训练。
1、更新驱动
本人GPU 是比较老款。GeForce mx150
在英伟达官网上找到这款n卡的驱动,进行安装。
我找了一款不是最新的驱动,他支持cuda11.1 (计算平台,助力训练数据)
2、安装cuda
依然在N卡的官网上下载 cuda的安装包,以及对应的cudnn。将俩者的文件夹对应做组合。
3、安装pytorch
使用anaconda 安装python环境 以及开发环境的所需的其他库
在anaconda ,创建了一个pytorch环境,安装pytorch 1.x 版本。
在pytorch官网上,有对应cuda的pytorch 版本
安装pytorch方式有pip安装,conda安装
本人遇到的坑:
1、cuda的安装,要自定义,不能用推荐方式的精简版
如果不注意安装了精简版,要卸载(找其他的教程,删除一些东西),再重新安装,(也要避免安装重复的包)
2、在装pytorch 1.8.1 时候,我用官网上的conda命令,去下载安装。但最后pycharm里面显示的版本号是 pytorch1.6。而且没有找到cuda。
这个问题目前还未解决,但我要准备开始先用pytorch 1.6 来做学习,未来遇到bug再处理。
<