Ubuntu多卡服务器、普通用户安装paddlepaddle环境

该文详细介绍了在Ubuntu多卡服务器上,作为普通用户如何创建conda虚拟环境,无权限修改系统依赖的情况下安装paddlepaddle-gpu,包括选择合适的cuda版本,解决cuda和NCCL的依赖问题,以及设置环境变量以避免每次都手动配置。
部署运行你感兴趣的模型镜像

之前在本地的Ubuntu机器上安装paddle环境还挺顺利的,但是在多卡服务器上安装确遇到了很多问题,主要是服务器上已经安装了cuda等环境,普通用户也没有权限修改系统的依赖,多卡环境与单卡也有些区别。
主要参考资料就是paddle官方文档paddle安装说明

1. 建立conda虚拟环境

  1. 新建虚拟环境
conda create -n paddle_env python=3.9
  1. 进入虚拟环境
conda activate paddle_env

2. 安装paddlepaddle gpu版本

这里强调一下,一定要用conda安装,conda安装可以直接在当前环境下安装独立的cuda等依赖,这样就不会与系统预装的依赖环境冲突,pip安装就比较麻烦。

2.1 选择cuda版本

建议在终端输入nvidia-smi 查看系统的CUDA Version,选择比系统版本小的cuda版本,例如我当前机器的CUDA Version是11.5,所以我选择安装cuda 11.2
在这里插入图片描述

2.2 安装paddle

conda install paddlepaddle-gpu==2.4.2 cudatoolkit=11.2 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -c conda-forge 

3. 验证及排错

3.1 验证方法

安装完成后您可以使用 python3 进入 python 解释器,输入import paddle ,再输入 paddle.utils.run_check()

如果出现PaddlePaddle is installed successfully!,说明您已成功安装。

3.2 第一次报错:cuda问题

W0505 03:08:12.283917 3969672 dynamic_loader.cc:307] The third-party dynamic library (libcudnn.so) that Paddle depends on is not configured correctly. (error code is /usr/local/cuda/lib64/libcudnn.so: cannot open shared object file: No such file or directory)
  Suggestions:
  1. Check if the third-party dynamic library (e.g. CUDA, CUDNN) is installed correctly and its version is matched with paddlepaddle you installed.
  2. Configure third-party dynamic library environment variables as follows:
  - Linux: set LD_LIBRARY_PATH by `export LD_LIBRARY_PATH=...`
  - Windows: set PATH by `set PATH=XXX;

在这里插入图片描述

  • 解决方法
    查看环境安装的路径下,其实已经有了cuda相关的依赖:
    在这里插入图片描述
    但是目前还是寻找的系统目录,所以指定到环境目录就可以,在终端输入命令:
export LD_LIBRARY_PATH=[安装路径]/miniconda3/envs/paddle_env/lib

再次验证,可以看到刚才的错误已经不在了。

3.3 第二次报错:NCCL问题(多卡)

W0505 03:22:18.677640 3977430 dynamic_loader.cc:278] You may need to install 'nccl2' from NVIDIA official website: https://developer.nvidia.com/nccl/nccl-downloadbefore install PaddlePaddle.
[2023-05-05 03:22:18,678] [ WARNING] install_check.py:281 - PaddlePaddle meets some problem with 4 GPUs. This may be caused by:
 1. There is not enough GPUs visible on your system
 2. Some GPUs are occupied by other process now
 3. NVIDIA-NCCL2 is not installed correctly on your system. Please follow instruction on https://github.com/NVIDIA/nccl-tests 
 to test your NCCL, or reinstall it following https://docs.nvidia.com/deeplearning/sdk/nccl-install-guide/index.html
[2023-05-05 03:22:18,679] [ WARNING] install_check.py:289 - 
 Original Error is: (PreconditionNotMet) The third-party dynamic library (libnccl.so) that Paddle depends on is not configured correctly. (error code is libnccl.so: cannot open shared object file: No such file or directory)
  Suggestions:
  1. Check if the third-party dynamic library (e.g. CUDA, CUDNN) is installed correctly and its version is matched with paddlepaddle you installed.
  2. Configure third-party dynamic library environment variables as follows:
  - Linux: set LD_LIBRARY_PATH by `export LD_LIBRARY_PATH=...`
  - Windows: set PATH by `set PATH=XXX; (at /paddle/paddle/phi/backends/dynload/dynamic_loader.cc:305)

PaddlePaddle is installed successfully ONLY for single GPU! Let's start deep learning with PaddlePaddle now.

  • 解决方法
    下载安装NCCL,这个需要去NVIDIA 官网下载,下载地址
    在这里插入图片描述
    下载完解压
tar xvf nccl_2.17.1-1+cuda11.0_x86_64.txz

解压后可以直接把库拷贝到环境安装目录下
在这里插入图片描述
这时再次验证即可通过!

4. 设置环境变量,可以不用每次设置依赖目录

  • 如果要进入paddle环境,需要设置环境变量
export LD_LIBRARY_PATH=[安装路径]/miniconda3/envs/paddle_env/lib
  • 可以设置为每次打开终端,自动设置环境变量
vim ~/.bashrc

再最下边输入

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:[环境目录]/miniconda3/envs/paddle_env/lib

保存退出后,重新打开终端即生效。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

### 安装 VLLM 和配置 GPU 的方法 #### 准备工作 在开始之前,需确认服务器安装必要的依赖项以及支持 CUDA 的显驱动程序。如果尚未完成此操作,则可以按照以下命令来设置环境: 通过 `wget` 下载 NVIDIA 驱动文件并赋予其可执行权限[^1]: ```bash wget https://us.download.nvidia.com/XFree86/Linux-x86_64/550.144.03/NVIDIA-Linux-x86_64-550.144.03.run chmod +x NVIDIA-Linux-x86_64-550.144.03.run sudo ./NVIDIA-Linux-x86_64-550.144.03.run ``` 此外,还需验证系统是否能够识别个 GPU 设备。可以通过运行以下命令检查设备状态: ```bash nvidia-smi ``` #### 安装 Python 及相关库 为了成功部署 VLLM,在 Ubuntu 上需要先创建虚拟环境安装所需的软件包。 初始化一个新的虚拟环境,并激活它: ```bash python3 -m venv vllm_env source vllm_env/bin/activate ``` 随后更新 pip 工具至最新版本以便顺利管理后续依赖关系: ```bash pip install --upgrade pip setuptools wheel ``` 接着利用 pip 命令安装 VLLM 库及其所需组件: ```bash pip install vllm torch transformers accelerate ``` #### GPU 支持的配置 对于 GPU 场景下的模型推理加速,VLLM 提供了内置的支持机制。具体来说,可通过调整启动脚本中的参数实现负载均衡分配到各个可用硬件资源之上。 下面展示了一个简单的例子用于加载预训练好的大型语言模型并在分布式模式下处理请求输入数据流: ```python from vllm import LLM, SamplingParams # 初始化大模型实例对象时指定使用全部可见 GPUs model = LLM(model="meta-llama/Llama-2-7b-hf", tensor_parallel_size=len(os.environ["CUDA_VISIBLE_DEVICES"].split(','))) sampling_params = SamplingParams(temperature=0.8, top_p=0.95) output = model.generate(["Once upon a time"], sampling_params=sampling_params) print(output) ``` 上述代码片段中设置了温度系数与截断概率两个超参控制生成质量的同时也指定了张量划分大小等于当前环境中定义的有效图形处理器数量[^2]。 --- ####
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值