Apex安装踩坑

解决Apex安装与配置问题

最新推荐文章于 2024-09-28 23:47:07 发布

原创

最新推荐文章于 2024-09-28 23:47:07 发布 · 2.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #centos #yum

在CentOS系统中安装Apex时遇到了一系列问题，包括pytorch与cuda版本对应问题，需要确保两者匹配。接着是gcc版本升级，由于默认版本为4.8.5，需通过yum安装指定版本的gcc。在升级gcc过程中，遭遇了nvidia-docker的GPG验证错误，通过关闭GPG验证机制解决。最后，apex安装成功后，在使用时发现EncdecMultiheadAttn模块找不到，通过修改安装命令并指定具体路径解决了该问题。

apex centos下安装踩坑

apex

apex

1.0 pytorch版本、cuda版本的对应问题

安装apex需要机器上的pytorch版本和cuda是对应的版本，否则报错。
cuda版本查看 cat /usr/local/cuda/version.txt
https://pytorch.org/get-started/previous-versions/

2.0 gcc版本问题

centos默认gcc4.8.5，不满足apex需要的gcc版本大于5.0。可以使用yum安装并指定gcc版本
笔者参考 https://www.cnblogs.com/jixiaohua/p/11732225.html
若scl enable devtoolset-8 bash 命令失败，gcc 版本没变，那么直接去/opt/rh/devtoolset-8 下面enable 即可

2.1 yum更新gcc过程中遇到nvidia-docker的GPG验证问题

yum install centos-release-scl
命令报错：
repomd.xml signature could not be verified for nvidia-docker
参考
https://blog.youkuaiyun.com/u012560213/article/details/101430549
关闭GPG key的验证机制解决