【昇腾故障案例-安装部署】Ascend 310P 容器内算力切分挂起视频流编解码业务进程npu-smi故障

在Atlas800-3000设备上,使用Ascend310P推理卡进行1/2算力切分并运行12路视频解码时,若通过Ctrl+Z挂起进程,会导致npu-smiinfo查询失败。原因是内核态资源未处理完毕,信号量被占用。解决方案是避免使用Ctrl+Z,而是用Ctrl+C或kill命令终止进程,或使用fg和bg命令管理进程状态。
部署运行你感兴趣的模型镜像

问题现象描述

硬件配置:Atlas800-3000设备,Ascend 310P推理卡

问题现象:Ascend 310P推理卡在算力切分1/2分容器场景下,运行单进程12路视频解码业务,在容器内运行业务过程中Ctrl+Z挂起业务后,出现npu-smi info出现查询不到芯片的现象。

原因分析

关键过程:排查视频流业务下发和npu-smi的调用流程,业务进程挂起后内核态还在继续运行,排查内核态流程发现部分接口没有得到响应导致npu-smi info查询失败。

根本原因分析:容器内算力切分场景下使用ctrl + z命令挂起视频编解码流业务进程后,内核态的资源没有被处理完,可能导致同个芯片的信号量一直被占用,一直被阻塞。

解决措施

结论:当前容器内算力切分场景下,还无法直接使用挂起命令将业务临时挂起,如果需要杀死进程要使用ctrl + c命令。

解决方案:

  1. 可以使用fg或者bg命令将进程重启恢复到前台继续运行进行恢复;
  2. 如果希望杀掉业务流进程,使用ctrl + c命令或者kill命令杀死对应进程,不用ctrl + z命令进行挂起。

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

<think>好的,我现在需要帮助用户在openEuler系统上安装Ascend HDK 310P NPU。首先,用户的问题提到他们在寻找相关的指南或教程,而他们之前可能参考过引用[1]中的步骤,但可能存在一些问题。我需要先理解引用中的内容,然后结合openEuler系统的特点来调整步骤。 首先,引用[1]提到了安装CANN Toolkit、驱动和固件的步骤,包括运行.run文件、处理权限、解决用户创建错误和固件升级问题。但用户现在是在openEuler系统上,可能需要确认这些步骤是否适用,或者是否有特定于openEuler的注意事项。 接下来,我需要回忆openEuler的特点,比如它基于CentOS,使用dnf/yum包管理,可能对内核版本有要求。Ascend HDK 310P NPU驱动和固件可能对系统内核有依赖,需要确保openEuler的版本与驱动兼容。例如,检查驱动支持的OS版本是否包括用户使用的openEuler版本。 然后,安装步骤大致应该包括:1. 系统准备,如更新系统、安装依赖包;2. 下载驱动和工具包;3. 安装驱动和固件;4. 验证安装。但需要根据openEuler调整命令,比如使用dnf而不是apt-get安装依赖。 可能遇到的问题包括:依赖项缺失,权限问题,用户组配置,固件安装错误(如提示不是物理机),以及安装后的重启和服务启动。需要针对这些情况给出解决方案,比如创建用户组,检查硬件兼容性,使用npu-smi工具验证等。 另外,用户之前遇到的错误提示如“not a physical-machine”可能是在虚拟环境中尝试安装,而驱动需要物理机支持,这一点需要明确提醒用户。同时,安装后的配置,如设置环境变量,添加用户到HwHiAiUser组,也需要包含在步骤中。 最后,生成的相关问题需要考虑用户后续可能遇到的困难,比如环境变量配置、多卡支持、安装失败处理等,这有助于用户进一步解决问题。</think>以下是在openEuler系统上安装Ascend HDK 310P NPU的详细指南,结合华为官方文档和实际部署经验整理: ### 一、安装前准备 1. **系统要求** - openEuler 22.03 LTS或更高版本 - 内核版本需与驱动包中的kernel-devel版本匹配 - 预留至少10GB磁盘空间 2. **依赖安装** ```bash sudo dnf install -y gcc gcc-c++ make cmake kernel-devel-$(uname -r) python3 ``` 3. **禁用nouveau驱动** ```bash echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo dracut --force ``` ### 二、安装流程 1. **获取安装包** - 从华为企业支持网站下载: - Ascend-hdk-310p-npu-driver_[version]_linux-aarch64.run - Ascend-hdk-310p-npu-firmware_[version]_linux-aarch64.run - Ascend-cann-toolkit_[version]_linux-aarch64.run 2. **安装驱动(按顺序执行)** ```bash chmod +x Ascend-hdk-310p-npu-driver_*.run sudo ./Ascend-hdk-310p-npu-driver_*.run --full --install-for-all ``` 3. **安装固件 ```bash chmod +x Ascend-hdk-310p-npu-firmware_*.run sudo ./Ascend-hdk-310p-npu-firmware_*.run --full ``` 4. **安装CANN Toolkit** ```bash chmod +x Ascend-cann-toolkit_*.run sudo ./Ascend-cann-toolkit_*.run --install --install-for-all ``` ### 三、验证安装 1. **设备状态检查** ```bash npu-smi info ``` 应显示类似信息: ``` +----------------------------------------------------------------------------------------+ | npu-smi 21.0.4 Version: 21.0.4 | +-------------------+-----------------+--------------------------------------------------+ | NPU Name | Health | Power(W) Temp(C) HBM(MB) | | Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) | +===================+=================+==================================================+ | 0 310P3 | OK | 15.8 45 32768 | | 0 | 0000:88:00.0 | 0 785/32768 0/32768 | +===================+=================+==================================================+ ``` 2. **环境变量配置** ```bash echo 'source /usr/local/Ascend/ascend-toolkit/set_env.sh' >> ~/.bashrc source ~/.bashrc ``` ### 四、常见问题处理 1. **报错"not a physical-machine"** - 确认在物理服务器上安装(不支持虚拟机)[^1] - 执行硬件检测: ```bash lspci | grep -i npu ``` 2. **用户权限问题** ```bash sudo groupadd HwHiAiUser sudo usermod -aG HwHiAiUser $USER ``` 3. **驱动版本冲突** ```bash sudo /usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值