昇腾FAQ-A12-DeepSeek部署相关_2张atlas 300i duo可以跑70b 模型吗-优快云博客

昇腾高频问答FAQ-A12-DeepSeek部署相关-2507

备注：我们让大模型读了昇腾全年工单，整理了1000条经验包，贴出来供大家参考、少走弯路，但仍可能会有轻微幻觉，或由于产品版本更新、时效性等原因已不完全适用，建议按需搜索+交叉验证，有疑问之处欢迎来查询案例库或提单，咱们边唠嗑边修BUG。转载随意，如反馈修订请移步原文。

FAQ(001)：使用Atlas 300I Duo卡进行推理任务时出现性能瓶颈

原因分析：

Duo卡单台服务器仅支持8个NPU Block，导致计算资源受限。当并发请求量较高或者模型较大/输出较长时会出现排队等待的情况。

解决办法：

（1）降低MindIE Benchmark的–Concurrency参数值以减少并发数
（2）在脚本中设置更大的超时时间限制

FAQ(002)：使用Atlas 300I Duo卡部署DeepSeek模型需要多少显存？

原因分析：

Duo卡单个NPU Block大小为48MB，而每个请求的block数量由输入长度和输出长度决定。

解决办法：

（1）在训练服务器中将参数–npuBlockNum设为2560
（2）设置模型缓存块数时，应根据实际场景调整

FAQ(003)：如何确定不同型号昇腾服务器或边缘设备所使用的软件平台（CANN）版本？

原因分析：

用户不清楚不同Atlas产品对应的昇腾芯片和适用场景。

解决办法：

根据华为官方文档选择合适的产品，例如：310系列用于推理任务。

FAQ(004)：使用MindIE Server发送请求时出现超时且无返回的情况

原因分析：

并发请求数量超过服务所能处理的能力导致的超时。

解决办法：

（1）降低发送请求的并发数，即在工具中调整–Concurrency参数值。理论最大并发数计算公式为：npuBlockNum*cacheBlockSize/(平均输入长度+平均输出长度)。

FAQ(005)：DeepSeek R1 67B模型在多卡部署时如何分配资源？

原因分析：

用户对不同精度模式下所需的硬件配置缺乏了解。

解决办法：

（1）FP32需要4台服务器，W8A8量化则需至少2台Atlas 800I A2 (8*64G)。

FAQ(006)：如何确认模型部署到昇腾设备时的显存需求？

原因分析：

用户不清楚不同型号NPU卡和训练/推理服务器的具体硬件配置。

解决办法：

（1）查阅Atlas官网提供的具体产品页面，如https://www.hiascend.com/hardware/ai-server?tag=800A2来获取显存等信息。

FAQ(007)：使用昇腾服务器部署DeepSeek模型时显存占满如何优化？

原因分析：

两节点版本已达到最低配置限制，无法进一步减少硬件资源占用。需要通过软件层面调整负载管理策略以提升可用性。

解决办法：

（1）参考官方文档《mindie_service0105.html》中提供的模型推理性能调优方法
（2）根据业务需求降低并发数或输出长度等参数，释放显存空间

FAQ(008)：如何设置DeepSeek 7B/1.5B小模型在Atlas 300I DUO卡上的最大输出token数量？

原因分析：

默认配置未明确支持用户自定义max_tokens值。需要查阅特定版本的部署文档以获取参数调整方法。

解决办法：

（1）访问《mindie_service0285.html》查看显存分配与长文生成相关说明
（2）在模型推理服务启动时通过API接口传递--max_output_length自定义值

FAQ(009)：DeepSeek 7B/1.5B小模型运行出现乱码、重复打印等异常结果如何解决？

原因分析：

可能是NPU驱动固件版本不兼容导致推理引擎输出错误。需要升级nnal包到8.0.1以上版本。

解决办法：

（1）下载并安装最新版Ascend-cann-nnal_8.0.1_linux-aarch64.run
（2）执行命令：bash Ascend-cann-nnal_8.0.1_linux-aarch64.run --install --install-path=/usr/local/Ascend

FAQ(010)：Atlas 300I DUO推理卡部署DeepSeek-R1-Distill-Llama-70B模型时出现权重路径校验失败如何解决？

原因分析：

transformers库版本与预训练权重文件存在不匹配问题。需要统一config.json中的版本号。

解决办法：

（1）将model_path参数指向的目录中所有配置文件里的transfomers.version字段修改为4.46.3
（2）执行pip命令：pip install transformers==4.46.3

FAQ(011)：使用ollama框架部署DeepSeek模型时NPU利用率低且推理速度慢如何优化？

原因分析：

目前版本的ollama对昇腾架构适配度不足，导致硬件资源未被充分利用。

解决办法：

（1）优先采用MindIE官方推荐方式部署
（2）在多卡环境下通过SCEND_RT_VISIBLE_DEVICES=0,1 ollama serve指定可用NPU设备编号

FAQ(012)：如何验证昇腾910B(64G)显存是否满足DeepSeek-R1-Distill-Llama-70B微调需求？

原因分析：

需确认当前硬件配置与官方推荐方案的匹配度。建议先进行单卡推理测试。

解决办法：

（1）参考《mindie_service0285.html》验证显存分配策略
（2）通过torchrun --nproc_per_node 2 -m examples.run_pa命令启动分布式微调任务

FAQ(013)：DeepSeek模型在Atlas服务器上部署时出现"找不到GPU"的提示如何解决？

原因分析：

用户可能误将推理卡（如300V）当作训练用NPU使用，或未正确配置可见设备。

解决办法：

（1）确认硬件是否为800T A2等支持显存服务化的机型
（2）检查SCEND_RT_VISIBLE_DEVICES环境变量设置与实际插入的推理卡数量一致性

FAQ(014)：容器化部署DeepSeek模型时出现权限或版本不一致报错如何修复？

原因分析：

Docker镜像未正确挂载NPU设备文件，导致运行时报错。需要检查启动命令中--device参数是否包含所有必需的davinci0-3等虚拟化接口。

解决办法：

（1）在docker run命令后添加完整权限声明：

--name deepseek
--net=host --shm-size=500g
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3

（2）确保-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro等挂载路径正确

FAQ(015)：如何提高NPU AI Core利用率？

使用920模组2P配置，部署DeepSeek-R1-Distill-Qwen-32B模型进行性能测试时发现AI core利用率偏低，未达到预期的90%以上。

原因分析：

昇腾NPU在某些特定硬件配置下（如SMMU选项启用）可能导致计算资源调度效率降低，同时多卡并行部署可能受制于设备兼容性或环境变量设置不当。

解决办法：

检查BIOS中的SMMU选项是否被禁用。若未关闭，请在服务器的固件配置中将SMMU设为disabled。
确保使用的NPU型号符合多卡并行需求，参考官方性能文档选择匹配硬件：推荐产品配置

优化环境变量设置，例如：

export TASK_QUEUE_ENABLE=2
unset ASCEND_LAUNCH_BLOCKING

升级驱动固件至最新版本以提升硬件性能表现。

FAQ(016)：如何解决DeepSeek模型部署时NPU未被调用？

用户在Atlas推理服务器上使用PyTorch框架加载大模型后，发现推理过程仍由CPU执行而非NPU。

原因分析：

可能由于环境变量配置缺失或镜像版本与硬件不兼容导致GPU/NPU未被正确识别为可用计算设备。此外，在容器挂载路径错误（如Ascend驱动目录权限问题）、多进程竞争也可能影响模型调用效率。

解决办法：

确保使用mindie部署方案，而非原生PyTorch：
- 参考官方文档进行MindIE引擎适配。
检查容器启动参数是否包含正确的NPU设备挂载路径及权限设置（如/usr/local/Ascend/driver:/usr/local/Ascend/driver:ro）。
使用命令检查当前可用计算资源：
```
npu-smi info | grep "Device Count"
```
若使用Docker部署，确保镜像版本与NPU型号匹配。

FAQ(017)：如何解决dcmi模块初始化失败导致无法查看NPU状态？

在容器中执行npu-smi info时提示“DCMI module initialize failed. ret is -8005”。

原因分析：

容器未正确挂载宿主机的Ascend驱动目录。
其他正在运行的服务占用了NPU设备资源。

解决办法：

检查容器启动命令是否包含以下关键参数（以Atlas 300I Duo为例）:

--device=/dev/davinci0 \
--device=/dev/davinci1 \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro

确保未有其他容器或进程占用NPU设备，可使用pkill mindieservice_daemon清理相关服务。
检查驱动版本是否与当前硬件兼容，并更新至最新版。

FAQ(018)：部署多机训练时如何配置NPU绑定IP？

在Atlas训练服务器上进行DeepSeek模型的分布式训练，但无法正确识别并分配跨节点NPU资源（如显示所有卡为ip=0.0.0.0）。

原因分析：

多机部署时未设置正确的网络通信参数或缺少必要的集群配置文件。例如，在直连模式下可能需要手动指定IP信息，而非依赖自动发现机制。

解决办法：

修改运行脚本（如run.sh），添加NPU绑定的主机名/IP地址到--hostfile中。
通过环境变量或训练工具链配置文件设置跨节点通信参数：
```
export HCCL_CONNECT_TIMEOUT=60
```
检查网络是否允许NCCL/HCCL协议，确保910系列服务器已正确配置多机互联。

FAQ(019)：部署DeepSeek 70B模型时提示“soc版本不匹配”如何处理？

使用Atlas平台部署LLM时报错，显示SOC版本与bin包不符。

原因分析：

使用的镜像或二进制文件编译时针对的NPU芯片架构不匹配当前设备型号。例如Ascend 910xxx卡需使用适配其soc_version（如ascend-3.5.x）对应的模型和工具包。

解决办法：

更换为兼容更高版本的镜像，推荐使用MindIE官方提供的Atlas 800I A2专用部署镜像：
```
docker run -it --rm swr.cn-north-4.swg.huawei.com/ascend/mindie:latest
```
若需自定义编译模型，请在训练脚本中指定soc版本参数（如--soc_version=Ascend910B2）。
参考官方适配列表确认当前硬件支持的最高模型规模。

FAQ(020)：如何释放NPU资源占用以提升推理性能？

多用户环境中部署DeepSeek R2模型后，出现响应延迟或无法启动服务。

原因分析：

NPU设备被其他容器进程（如mindieservice_daemon）独占。
同一服务器上多个实例争用NPU资源时未做隔离配置。

解决办法：

终止占用NPU的旧任务或服务，使用命令清理残留进程：
```
pkill mindie
```
为容器分配独立共享内存空间（如将--shm-size=8g改为500G）。
使用Cgroup限制单个模型实例可使用的NPU设备数量。

FAQ(021)：如何确认当前环境是否支持DeepSeek R1系列大语言模型？

用户部署的Atlas 200I服务器提示“不兼容Qwen-9B”或推理速度极慢（如每秒token数远低于预期）。

原因分析：

部分老版本工具链对特定架构优化不足，例如310P芯片仅支持小模型量化后部署。同时需确认是否使用了PyTorch-NPU插件的兼容模式。

解决办法：

检查硬件平台与软件栈匹配情况（如920模组不建议用于训练任务）
```
nppu-smi info | grep "Device Type"
```
确保使用torch-npu==v1.8+版本及以上，并启用W8A8量化模式。
验证模型是否已转换为OM格式（通过ATC工具）。

FAQ(022)：多卡部署时如何避免资源争抢导致的性能下降？

在Atlas 300V Pro服务器上使用两张NPU进行Qwen推理，但实际负载仅单张显效或利用率不均。

原因分析：

多卡部署未启用正确的并行策略（如数据并行data parallelism)。
宿主机与容器间资源分配不当导致部分设备无法识别/访问NPU。

解决办法：

修改启动命令，确保每个实例独立绑定不同Npu设备ID：
```
--device=/dev/davinci0 \
--device=/dev/davinci3
```
检查并行参数是否合理（如--parallelism=4）。
使用工具监控实时资源占用情况，避免单个任务独占Npu导致其他实例排队。

FAQ(023)：为何使用PyTorch迁移后出现大量警告提示？

使用transfer_to_nu.py脚本将模型迁移到Npu时，控制台输出多个关于torch.cuda.方法替换的警告信息（如“replacede with torch.np.”）。

原因分析：

PyTorch部分功能未完全适配昇腾平台。迁移工具会自动转换部分GPU相关API为npu兼容版本，并提示不推荐使用的功能，例如torch.jit.script()在NPU上无法运行。

解决办法：

检查并查看是否已成功替换所有警告项，例如将代码中所有的“.cuda()”改为“.npu()”
使用Pydantic V3+版本以避免弃用类模块带来的。
若需使用分布式功能，请确认torch.distributed.init_process_group()中backend设为"hccl"

FAQ(024)：部署DeepSeek大模型时如何选择合适的硬件平台？

用户尝试在Atlas服务器上运行LLM，但遇到内存不足或无法加载。

原因分析：

部分型号（如300V Pro）的显存限制较小，可能不支持完整模型部署。例如官方文档指出Deepeseek-R1-Distill-Qw-32B至少需要双卡部署才能达到推荐性能水平。

解决办法：

根据模型参数量选择对应的硬件规格。

FAQ(025)：如何避免NPU资源争抢导致的性能下降？

在多实例运行DeepSeek模型时，出现服务启动失败（如mindie-service-daemon无法正常工作）。

原因分析：

多容器同时挂载相同Npu设备但未做隔离。

解决办法：

为每个推理任务分配独立的npu设备ID范围
设置--device=/dev/das时，避免重复绑定同一组卡（如300I Duo需区分davinci0和 davinci1）
使用资源管理工具进行动态调度

FAQ(026)：如何确认当前昇腾NPU的驱动版本是否最新？

用户部署DeepSeek-R1模型后发现性能低于预期，怀疑是因固件过旧。

原因分析：

未安装与硬件匹配或最新的版驱动。

解决办法：

npu-smi --version
# 确认版本号不小于23.0.R19。若需更新，请访问官方镜像仓库下载最新版固件并

FAQ(027)：DeepSeek模型在NPU上的推理为何仍使用CPU？

使用Atlas 800I服务器部署的Deepseek-R1-7B模型，执行时发现npu利用率接近于零。

原因分析：

可能未正确加载mindie服务或代码中未显式调用npu相关API。例如，在使用from torch_npu.contrib import transfer_to_npu()迁移后仍需手动指定设备为"npu"

解决办法：

检查模型初始化是否指定了NPU：

model.to("npu") # 要确保所有张量都执行

确认mindie服务已启动且无报错日志。
使用torch-npu==v2.x版本，确认环境变量如export HCCL_DISTRIBUTED=1是否生效。

FAQ(028)：如何解决NPU在多卡部署时无法识别所有设备？

在Atlas服务器上使用两张300I Duo进行推理服务，但仅检测到单张可用NPU。

原因分析：

容器启动参数未完整声明所需npu设备（如漏挂载davinci1）。

解决办法：

为容器添加所有需要的--device=/dev/davincix路径，并确保宿主机已正确安装多卡支持组件。对于300I Duo系列，建议至少双卡部署。

FAQ(029)：如何获取DeepSeek模型在昇腾平台上的的最佳性能？

使用Atlas 920模组进行训练时发现NPU利用率未达预期水平或吞吐量低。

原因分析：

系统默认配置参数可能未能充分挖掘硬件潜力。

解决办法：

选择与硬件型号匹配的、官方推荐的镜像版本。
配置并行参数时，注意与硬件实际卡数匹配：
```
--parallelism=8 # 若服务器上是4个Npu，则设为4
```

FAQ(030)：昇腾310/910系列NPU芯片对应的硬件设备有哪些，在安装时如何正确匹配固件及驱动？

原因分析

用户在使用昇腾AI产品过程中，需根据具体使用的昇腾310（推理专用）或昇腾910（训练通用）系类的芯片型号选择适配的软硬件组合。不同系列NPU功能定位差异大：310为推理优化设计、不支持训练任务；而910则专用于模型训练场景。

解决办法

识别设备类型与对应核心组件版本
- 昇腾310芯片主要应用于Atlas系列的推理产品，如 Atlas800I 推理服务器（型号：3000/3010）及边缘部署方案。

具体操作步骤

确认设备类型与NPU版本
- 登录华为昇腾官网查询对应硬件平台信息。
- 昇腾910芯片则广泛用于Atlas系列的训练服务器如 Atlas800 训练服务器（型号：9000/9010）及PoD集群系统，适用于大规模模型训练场景。
匹配CANN版本与驱动
- 根据设备所搭载的具体昇腾AI加速卡、NPU计算单元数量等硬件配置信息，在官网链接查询对应的 CANN（Compute Architecture for Ascend）软件平台以及固件和驱动版本。
- 确保所选CANN版本与当前使用的昇腾NPU芯片型号相匹配，以保障系统兼容性和性能发挥。
注意事项
- 推理产品不支持训练任务，请根据业务需求选择合适的硬件（如Atlas800I A2系列仅用于推理）。
- 训练设备通常具有更高的计算能力和内存配置，适用于大规模模型的训练。而边缘服务器或智能小站更适合轻量级部署和实时推理解析。