apex centos下安装踩坑
apex
1.0 pytorch版本、cuda版本的对应问题
安装apex需要机器上的pytorch版本和cuda是对应的版本,否则报错。
cuda版本查看 cat /usr/local/cuda/version.txt
https://pytorch.org/get-started/previous-versions/
2.0 gcc版本问题
centos默认gcc4.8.5,不满足apex需要的gcc版本大于5.0。可以使用yum安装并指定gcc版本
笔者参考 https://www.cnblogs.com/jixiaohua/p/11732225.html
若scl enable devtoolset-8 bash 命令失败,gcc 版本没变,那么直接去/opt/rh/devtoolset-8 下面enable 即可
2.1 yum更新gcc过程中遇到nvidia-docker的GPG验证问题
yum install centos-release-scl
命令报错:
repomd.xml signature could not be verified for nvidia-docker
参考
https://blog.youkuaiyun.com/u012560213/article/details/101430549
关闭GPG key的验证机制解决
3.0 apex安装后,发现EncdecMultiheadAttn module找不到的问题
quickstart上的安装命令不得行,需要uninstall,然后具体指定,使用连接上的命令
https://github.com/NVIDIA/apex/tree/
解决Apex安装与配置问题

在CentOS系统中安装Apex时遇到了一系列问题,包括pytorch与cuda版本对应问题,需要确保两者匹配。接着是gcc版本升级,由于默认版本为4.8.5,需通过yum安装指定版本的gcc。在升级gcc过程中,遭遇了nvidia-docker的GPG验证错误,通过关闭GPG验证机制解决。最后,apex安装成功后,在使用时发现EncdecMultiheadAttn模块找不到,通过修改安装命令并指定具体路径解决了该问题。
最低0.47元/天 解锁文章
8119

被折叠的 条评论
为什么被折叠?



