从Docker到Containerd：NVIDIA GPU容器运行时迁移全攻略-优快云博客

从Docker到Containerd：NVIDIA GPU容器运行时迁移全攻略

【免费下载链接】nvidia-docker Build and run Docker containers leveraging NVIDIA GPUs 项目地址: https://gitcode.com/gh_mirrors/nv/nvidia-docker

引言：GPU容器技术的范式转变

你是否正面临Docker引擎在Kubernetes环境中的性能瓶颈？是否因nvidia-docker的 deprecated 状态而寻找替代方案？本文将系统讲解如何从Docker迁移到Containerd，实现GPU容器的高效管理，解决兼容性问题并提升集群性能。读完本文，你将掌握：

Docker与Containerd在GPU支持上的核心差异
NVIDIA Container Toolkit的安装与配置全流程
多发行版环境下的迁移步骤与验证方法
常见问题的诊断与解决方案
生产环境迁移的最佳实践与注意事项

一、GPU容器运行时迁移的技术背景

1.1 从nvidia-docker到NVIDIA Container Toolkit

mermaid

nvidia-docker项目已被NVIDIA Container Toolkit取代，原有工具链停止维护。新方案通过统一的运行时接口，支持Docker、Containerd、CRI-O等多种容器引擎，提供更灵活的GPU资源管理能力。

1.2 Docker与Containerd的架构差异

特性	Docker引擎	Containerd
架构复杂度	单体架构，包含构建、分发等功能	微服务架构，专注运行时管理
资源开销	较高	降低40%~60%
Kubernetes兼容性	需要额外适配	CRI原生支持
GPU支持方式	通过nvidia-docker wrapper	直接集成nvidia-container-runtime
启动速度	较慢	提升约30%

二、迁移前的环境准备与兼容性检查

2.1 系统要求与依赖项

组件	最低版本	推荐版本
Linux内核	4.15	5.4+
NVIDIA驱动	450.80.02	535.xx+
Containerd	1.4	1.7+
Kubernetes	1.20	1.26+

2.2 环境检查清单

# 验证GPU驱动安装
nvidia-smi

# 检查现有容器运行时
docker info | grep Runtime
containerd --version

# 确认内核模块状态
lsmod | grep nvidia

三、NVIDIA Container Toolkit安装指南

3.1 Ubuntu/Debian系统

# 配置GPG密钥
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

# 添加软件源
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# 安装工具包
sudo apt-get update
export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.17.8-1
sudo apt-get install -y \
  nvidia-container-toolkit=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
  nvidia-container-toolkit-base=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
  libnvidia-container-tools=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
  libnvidia-container1=${NVIDIA_CONTAINER_TOOLKIT_VERSION}

3.2 RHEL/CentOS系统

# 配置软件源
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
  sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

# 启用实验性仓库(可选)
sudo dnf-config-manager --enable nvidia-container-toolkit-experimental

# 安装工具包
export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.17.8-1
sudo dnf install -y \
  nvidia-container-toolkit-${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
  nvidia-container-toolkit-base-${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
  libnvidia-container-tools-${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
  libnvidia-container1-${NVIDIA_CONTAINER_TOOLKIT_VERSION}

四、Containerd配置与GPU支持

4.1 基础配置

# 配置Containerd使用NVIDIA运行时
sudo nvidia-ctk runtime configure --runtime=containerd

# 重启Containerd服务
sudo systemctl restart containerd

4.2 配置文件详解(/etc/containerd/config.toml)

version = 2
[plugins]
  [plugins."io.containerd.grpc.v1.cri"]
    [plugins."io.containerd.grpc.v1.cri".containerd]
      default_runtime_name = "nvidia"
      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]
        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
          runtime_type = "io.containerd.runc.v2"
          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
            BinaryName = "nvidia-container-runtime"

4.3 验证配置

# 检查运行时配置
ctr plugins ls | grep nvidia

# 测试GPU容器
sudo ctr run --rm --runtime io.containerd.runc.v2 --env NVIDIA_VISIBLE_DEVICES=all \
  nvcr.io/nvidia/cuda:12.1.1-base-ubuntu22.04 cuda-test nvidia-smi

五、Kubernetes环境的迁移实施

5.1 节点运行时配置

# 停止kubelet服务
sudo systemctl stop kubelet

# 配置Containerd作为默认运行时
sudo sed -i 's/--container-runtime=docker/--container-runtime=remote/' /etc/systemd/system/kubelet.service.d/10-kubeadm.conf
sudo sed -i 's#--container-runtime-endpoint=unix:///var/run/dockershim.sock#--container-runtime-endpoint=unix:///run/containerd/containerd.sock#' /etc/systemd/system/kubelet.service.d/10-kubeadm.conf

# 重启服务
sudo systemctl daemon-reload
sudo systemctl start kubelet

5.2 GPU资源配置示例

apiVersion: v1
kind: Pod
metadata:
  name: gpu-test
spec:
  containers:
  - name: cuda-container
    image: nvcr.io/nvidia/cuda:12.1.1-base-ubuntu22.04
    command: ["nvidia-smi"]
    resources:
      limits:
        nvidia.com/gpu: 1

5.3 迁移验证步骤

# 检查节点状态
kubectl get nodes -o wide

# 运行测试Pod
kubectl apply -f gpu-test.yaml

# 查看GPU使用情况
kubectl exec -it gpu-test -- nvidia-smi

# 监控容器性能
nvidia-smi dmon -s u -i 0

六、常见问题诊断与解决方案

6.1 运行时配置错误

症状：容器启动失败，日志显示"nvidia-container-runtime not found"

解决方案：

# 验证运行时二进制文件
which nvidia-container-runtime

# 重新配置Containerd
sudo nvidia-ctk runtime configure --runtime=containerd --reset
sudo systemctl restart containerd

6.2 GPU设备不可见

症状：nvidia-smi在容器内执行失败，显示"No devices were found"

解决方案：

# 检查CDI规范文件
ls /etc/cdi/nvidia.yaml

# 验证设备权限
ls -l /dev/nvidia*

# 重启nvidia-container-runtime-hook服务
sudo systemctl restart nvidia-container-runtime-hook

6.3 Kubernetes调度问题

症状：Pod一直处于Pending状态，事件显示"Insufficient nvidia.com/gpu"

解决方案：

# 检查节点GPU资源
kubectl describe node <node-name> | grep nvidia.com/gpu

# 验证设备插件状态
kubectl get pods -n kube-system | grep nvidia-device-plugin

七、生产环境迁移最佳实践

7.1 迁移策略选择

mermaid

7.2 性能优化建议

运行时调优

# 启用GPU内存超额订阅
sudo nvidia-ctk config set nvidia-container-cli.memory-limit.enabled=false --in-place

资源分配策略
- 设置合理的GPU资源请求与限制比例
- 使用时间片共享技术提高GPU利用率
- 对推理工作负载启用MIG功能
监控配置
- 部署NVIDIA DCGM Exporter
- 配置Prometheus告警规则
- 建立GPU利用率基线指标

八、总结与未来展望

从Docker迁移到Containerd不仅是响应技术更新的必要步骤，更是提升GPU容器性能与可靠性的战略选择。通过NVIDIA Container Toolkit，我们获得了统一的GPU资源管理接口，为云原生环境下的AI应用部署提供了更坚实的基础。

随着CDI(Container Device Interface)规范的普及，未来GPU容器技术将朝着更标准化、更灵活的方向发展。建议关注以下技术趋势：

轻量级运行时：如Kata Containers与GPU的集成
细粒度资源控制：支持GPU核心与内存的精细化分配
安全增强：硬件级隔离与可信执行环境
多云适配：跨平台GPU容器管理解决方案

附录：迁移命令速查表

任务	命令
安装工具包	`sudo apt install nvidia-container-toolkit`
配置Containerd	`sudo nvidia-ctk runtime configure --runtime=containerd`
验证GPU支持	`ctr run --rm nvcr.io/nvidia/cuda:12.1.1-base-ubuntu22.04 test nvidia-smi`
查看运行时日志	`journalctl -u containerd -f`
检查CDI设备	`nvidia-ctk cdi list`

【免费下载链接】nvidia-docker Build and run Docker containers leveraging NVIDIA GPUs 项目地址: https://gitcode.com/gh_mirrors/nv/nvidia-docker

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考