Ascend训推
文章平均质量分 82
AI模型在昇腾芯片的训推技术
有来有去9527
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[昇腾推理优化] 基于昇腾910B的mooncake组件部署指导手册
本文解决了vllm-ascend官方镜像环境不匹配问题,详细记录了mooncake配置vllm-ascend的完整过程。首先完成mooncake环境搭建,包括安装依赖、编译和启动服务;随后解决vllm和torch版本冲突问题,统一降级到兼容版本;最后通过lmcache benchmark测试验证效果。测试结果表明:1)不使用mooncake时,TTFT增加拐点与NPU内存容量匹配;2)使用mooncake时,TTFT增加拐点与配置的存储空间匹配;3)随着样本量增大,KV缓存需求增加,TTFT平均值趋于收敛,原创 2025-12-08 16:18:55 · 1000 阅读 · 0 评论 -
[模型量化]-大模型量化效果评价-Qwen2.5-72B
本文对Qwen2.5-72B-Instruct模型进行了量化效果评测,主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化,并在evalscope工具上进行测试。结果显示:w8a8量化最大精度损失仅0.012,w4a16为0.0261;在性能方面,w8a8在8卡部署时吞吐提升1.46倍,而w4a16性能提升有限,适合并发需求低的场景。测试数据表明,w8a8量化在精度和性能间取得了较好平衡,是更优选择。原创 2025-12-08 16:06:32 · 796 阅读 · 0 评论 -
【问题解决】LLM推理chat接口流式调用不输出usage信息
摘要:vLLM-Ascend部署Qwen3-Coder-30B-A3B-Instruct模型时,流式调用接口不返回usage信息。测试发现设置stream_options={"include_usage": True}无效,需参考vLLM官方代码,同时设置include_usage和continuous_usage_stats参数才能获取token统计信息。该问题涉及vLLM 0.9.2版本在Ascend环境下的特殊配置需求。原创 2025-08-07 16:08:26 · 510 阅读 · 0 评论 -
【大模型部署】昇腾部署Qwen3-Coder-30B-A3B-Instruct
摘要:本文介绍了在Ascend NPU上部署Qwen3-Coder-30B-A3B-Instruct大模型的实践过程。通过vLLM-Ascend框架,详细说明了环境准备(CANN 8.1、PyTorch-NPU 2.5.1等)、模型下载、容器启动及服务部署步骤,包括vLLM服务的启动参数配置和接口测试方法。测试结果显示在当前2卡910B3配置下性能表现仅为8token/s(1并发),并指出流式调用时存在无法输出usage信息的问题。该方案为Ascend平台私有化部署大模型推理服务提供了参考实现。原创 2025-08-07 15:59:15 · 1351 阅读 · 0 评论 -
【大模型评测工具】OpenCompass本地部署手册及使用方案
本文介绍了OpenCompass大语言模型评测平台的本地部署方法及使用方案。主要内容包括:1)环境搭建,通过conda创建Python 3.10环境并安装PyTorch;2)安装OpenCompass的三种方式(pip基本/完整安装、源码安装);3)数据集准备,支持Hugging Face、ModelScope及自定义数据集;4)本地模型评测配置,包括Hugging Face模型配置文件和评测任务设置(命令行或Python脚本方式)。OpenCompass支持多种主流大模型评测,提供灵活的数据集加载和任务配原创 2025-07-17 09:19:55 · 1729 阅读 · 4 评论 -
成功基于昇腾部署Qwen3-Reranker模型教程
基于最新vllm版本成功部署qwen3-rerank模型服务原创 2025-07-15 12:26:16 · 1743 阅读 · 0 评论 -
LLM训推适配-[昇腾910B]-qwen2.5精度测试+高效推理
昇腾部署qwen2.5大模型,以及相关适配验证。原创 2024-10-17 16:41:20 · 4980 阅读 · 9 评论 -
LLM训推适配-[昇腾910B]-大模型量化推理-qwen2-72B
大模型量化原创 2024-09-04 20:03:19 · 2393 阅读 · 1 评论 -
LLM训推适配-[昇腾910B]-Qwen1.5-72B模型SFT
昇腾硬件大模型训练迁移。原创 2024-09-03 11:57:28 · 1831 阅读 · 1 评论 -
昇腾平台LLM pytorch推理环境搭建
当前用户下执行npu-smi info是否可以查看到gpu信息,如果不能,则表示驱动安装错误,需要在安装命令加上 --install-for-all。检查NPU是否正常在位可执行lspci | grep d802命令,如果服务器上有 N路NPU,回显N行含“d802”字段,则表示NPU正常在位。资源下载地址:https://www.hiascend.com/developer/download。通过执行npu-smi info命令查看。支持的PyTorch版本。支持的Adapter版本。原创 2023-11-23 18:06:01 · 5615 阅读 · 3 评论
分享