【已解决,含泪总结】非root权限在服务器Ubuntu18.04上配置python和torch环境,代码最终成功训练(二)

配置torch环境

pip升级

因为一些包安装不成功可能和pip版本有关,所以先升级pip
吸取之前python有多个版本的经验,所以我指定了Python版本的pip进行升级
就是python3.8版本:
/home/某某/Python3.8/bin/python3.8
(要换成你实际的python位置)

/home/某某/Python3.8/bin/python3.8 -m pip install --upgrade pip

torch的基本环境配置

这个地方一定要注意!!!别问我是怎么注意到的!!!问就是踩过坑!!!!
安装之前一定要查一下你服务器(实验室的服务器)上的cuda版本,一般在/usr/local/下面有管理员已经装好的cuda,直接链接用就行,在bashrc文件设置CUDA$HOME就行。
环境配置放文章最后。
找到cuda版本之后看下面pytorch版本链接里找到你对应的版本,对于版本千万别掉以轻心,相信我,不兼容的版本会让你崩溃。。
Pytorch版本链接

/home/某某/Python3.8/bin/python3.8 -m pip install torch==1.10.1+cu102 torchvision==0.11.2+cu102 torchaudio==0.10.1 -f https://download.pytorch.org/whl/cu102/torch_stable.html

安装完之后,验证一下输入python
然后在终端输入这一堆

import torch
print(torch.cuda.is_available())
print(torch.backends.cudnn.is_available())
print(torch.cuda_version)
print(torch.backends.cudnn.version())

不过注意一点:

>>> print(torch.cuda_version)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: module 'torch' has no attribute 'cuda_version'

虽然显示没有cuda_version但我确实可以用cuda,应该是这个语句的问题,换个语句就可以(等我找到就补充。。。)

torch_sparse

查看版本链接

wget https://pytorch-geometric.com/whl/torch-1.10.1+cu102.html/torch_sparse-0.6.2+cu102-cp38-cp38-linux_x86_64.whl

下载不了就在上面的链接里下载whl到本地,然后传到服务器上的文件夹再接着执行下面的安装就好,一定要找对版本!!!(cp后面的是python版本,cu后面是cuda版本,根据上面的torch版本,一定要兼容,我服务器是ubuntu18.04)
在这里插入图片描述

/home/某某/Python3.8/bin/python3.8 -m pip install torch_sparse-0.6.2-cp38-cp38-linux_x86_64.whl

torch_scatter

查看版本链接

跟上面torch_sparse一样操作,我是下载whl到服务器上,然后直接安装的

/home/某某/Python3.8/bin/python3.8 -m pip install torch_scatter-2.0.9-cp38-cp38-linux_x86_64.whl

没有_ctypes

原因是缺libffi
后来是没有libffi.so.7
服务器上只有libffi.so.6
我于是在自己的文件夹/home/某某/local下安装

wget ftp://sourceware.org/pub/libffi/libffi-3.3.tar.gz
tar -xzf libffi-3.3.tar.gz
cd libffi-3.3
./configure --prefix=/home/某某/local
make
make install

bashrc环境变量

export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.2
export LD_LIBRARY_PATH=/home/某某/local/lib:/home/某某/Python3.8/lib:$LD_LIBRARY_PATH
export PATH=$CUDA_HOME/bin:/home/某某/Python3.8/bin:$PATH
export C_INCLUDE_PATH=/home/某某/local/include:$C_INCLUDE_PATH
export CPLUS_INCLUDE_PATH=/home/某某/local/include:$CPLUS_INCLUDE_PATH
export LD_PRELOAD=/home/某某/local/lib/libffi.so.7.1.0
alias python='/home/某某/Python3.8/bin/python3.8'

总结下来出现这些问题的原因:
1、版本不兼容
2、环境变量没配置
3、配置文件没有链接上

其实想想也是,之前操作系统和编译原理学的也就是这些东西,其实原理早就告诉过,这些bug改起来也没有想象中这么难,计算机总是会告诉你它问题出现在哪儿的,找下去就是了!

记录一下,之前每次遇见就是不记录,每次重来都犯同样的错。

2025.5.14 补充:关于 pytorch_lightning 的安装

安装 pytorch_lightning 时,需要确保其方式与 torch 的安装方式一致:若使用 pip 安装,则全程采用 pip ;若使用 conda 安装,则全程采用 conda

此外,应根据自己的 PyTorch 版本选择匹配的 pytorch_lightning 版本,以确保兼容性。版本匹配至关重要。

(https://lightning.ai/docs/pytorch/latest/versioning.html#pytorch-support)
参考链接:
参考博主链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

如果树上有叶子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值