Google Cloud Platform(GCP)实例中使用显卡信息报错问题

虽然大家工作中经常会用到GPU,但是不同平台的初始化还是不尽相同。这里分享一下我近期因为一些原因需要把训练任务迁移到GCP遇到的问题。
我申请了带有H100的实例,但是在查询命令时一直报错

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 

遇到NVIDIA-SMI has failed错误,通常是因为 NVIDIA 驱动程序未正确安装或未加载。以下是针对 GCP Debian 实例的完整解决方案:

解决方案步骤:

  1. 安装必要的依赖项

    sudo apt update
    sudo apt install -y linux-headers-$(uname -r) build-essential dkms
    
  2. 禁用 Nouveau 驱动(Debian 默认开源驱动):

    echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nvidia-nouveau.conf
    echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nvidia-nouveau.conf
    sudo update-initramfs -u
    
  3. 安装 GCP 官方推荐的 NVIDIA 驱动

    curl -O https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py
    sudo python3 install_gpu_driver.py
    
  4. 重启实例

    sudo reboot
    
  5. 验证安装

    nvidia-smi  # 应显示 H100 显卡信息
    lsmod | grep nvidia  # 检查驱动模块是否加载
    

    在这里插入图片描述
    在这里插入图片描述

常见问题排查:

  1. 检查 GPU 是否被识别

    lspci | grep -i nvidia
    
    • 正常情况会输出类似如下信息
      04:00.0 3D controller: NVIDIA Corporation GH100[H100 SXM5 80GB] (rev a1)
      
    • 如果无输出,说明 GCP 实例未正确附加 GPU。检查:
      • 实例配置中是否选择了 H100 GPU
      • 实例是否在支持 H100 的区域(如 europe-west4-a
      • 实例状态为 RUNNING
  2. 安装日志分析
    查看安装日志确认错误:

    cat /var/log/install_gpu_driver.log
    
  3. 手动安装驱动(如果官方脚本失败):

    # 添加非免费源
    sudo sed -i 's/main/main contrib non-free/g' /etc/apt/sources.list
    sudo apt update
    
    # 安装驱动(使用最新版本)
    sudo apt install -y nvidia-driver firmware-misc-nonfree
    sudo reboot
    
  4. 检查 CUDA 兼容性(H100 需要 CUDA 11.8+):

    sudo apt install nvidia-cuda-toolkit
    nvcc --version
    

注意事项:

  • GCP 特殊要求:H100 需要 n2/a3 实例类型(如 a3-highgpu-8g
  • 驱动版本:H100 需要 R515 或更高版本的驱动
  • 操作系统:确认 Debian 版本支持(推荐 Debian 11+)

如果问题仍存在,尝试:

# 强制重新加载驱动
sudo rmmod nvidia_uvm nvidia_drm nvidia_modeset nvidia
sudo modprobe nvidia

重要提示:GCP 可能要求申请GPU配额 Quotas。首次使用 H100 需在控制台申请配额。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值