- 博客(24)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 基于昇腾910B的文生图模型推理服务化部署
vLLM-Omni框架扩展了多模态支持,实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库,成功安装所需依赖。通过启动vLLM模型推理服务和图形界面,测试了图像生成功能。此外,采用TeaCache和Cache-DiT两种加速方法优化性能,对比显示TeaCache将端到端延迟降低至基准的93.3%,Cache-DiT达到96.6%。该框架显著提升了多模态模型的推理效率。
2025-12-30 09:49:57
371
原创 vllm推理服务指标监控看板搭建手册
摘要:本文介绍了vLLM推理服务监控看板的搭建过程,使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括:1)环境准备,详细说明了Prometheus和Grafana的安装配置步骤;2)看板配置,包含数据源添加和仪表盘导入;3)最终效果展示。通过配置Prometheus采集vLLM服务指标,结合Grafana可视化展示,实现了对vLLM推理服务的实时监控。文章提供了完整的配置文件示例和操作流程,便于快速搭建监控系统。
2025-12-19 17:00:54
381
原创 [昇腾推理优化] 基于昇腾910B的mooncake组件部署指导手册
本文解决了vllm-ascend官方镜像环境不匹配问题,详细记录了mooncake配置vllm-ascend的完整过程。首先完成mooncake环境搭建,包括安装依赖、编译和启动服务;随后解决vllm和torch版本冲突问题,统一降级到兼容版本;最后通过lmcache benchmark测试验证效果。测试结果表明:1)不使用mooncake时,TTFT增加拐点与NPU内存容量匹配;2)使用mooncake时,TTFT增加拐点与配置的存储空间匹配;3)随着样本量增大,KV缓存需求增加,TTFT平均值趋于收敛,
2025-12-08 16:18:55
1007
原创 [模型量化]-大模型量化效果评价-Qwen2.5-72B
本文对Qwen2.5-72B-Instruct模型进行了量化效果评测,主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化,并在evalscope工具上进行测试。结果显示:w8a8量化最大精度损失仅0.012,w4a16为0.0261;在性能方面,w8a8在8卡部署时吞吐提升1.46倍,而w4a16性能提升有限,适合并发需求低的场景。测试数据表明,w8a8量化在精度和性能间取得了较好平衡,是更优选择。
2025-12-08 16:06:32
802
原创 【问题解决】LLM推理chat接口流式调用不输出usage信息
摘要:vLLM-Ascend部署Qwen3-Coder-30B-A3B-Instruct模型时,流式调用接口不返回usage信息。测试发现设置stream_options={"include_usage": True}无效,需参考vLLM官方代码,同时设置include_usage和continuous_usage_stats参数才能获取token统计信息。该问题涉及vLLM 0.9.2版本在Ascend环境下的特殊配置需求。
2025-08-07 16:08:26
514
原创 【大模型部署】昇腾部署Qwen3-Coder-30B-A3B-Instruct
摘要:本文介绍了在Ascend NPU上部署Qwen3-Coder-30B-A3B-Instruct大模型的实践过程。通过vLLM-Ascend框架,详细说明了环境准备(CANN 8.1、PyTorch-NPU 2.5.1等)、模型下载、容器启动及服务部署步骤,包括vLLM服务的启动参数配置和接口测试方法。测试结果显示在当前2卡910B3配置下性能表现仅为8token/s(1并发),并指出流式调用时存在无法输出usage信息的问题。该方案为Ascend平台私有化部署大模型推理服务提供了参考实现。
2025-08-07 15:59:15
1355
2
原创 【大模型评测工具】OpenCompass本地部署手册及使用方案
本文介绍了OpenCompass大语言模型评测平台的本地部署方法及使用方案。主要内容包括:1)环境搭建,通过conda创建Python 3.10环境并安装PyTorch;2)安装OpenCompass的三种方式(pip基本/完整安装、源码安装);3)数据集准备,支持Hugging Face、ModelScope及自定义数据集;4)本地模型评测配置,包括Hugging Face模型配置文件和评测任务设置(命令行或Python脚本方式)。OpenCompass支持多种主流大模型评测,提供灵活的数据集加载和任务配
2025-07-17 09:19:55
1735
4
原创 [论文分享]LLM推理加速——FLASHDECODING++
当计算新的部分softmax结果时,采用同步softmax操作更新先前的部分softmax结果。为解决这些问题,研究团队提出了一种名为FlashDecoding++的更快的GPU实现方法,通过解决不同输入的最大值问题、优化flat GEMM操作和根据输入动态性和硬件配置进行启发式数据流优化,实现了对主流LMs的加速。未充分利用flat GEMM计算:在LLM推理中,矩阵执行GEMM操作的形状是扁平的,这导致未充分利用计算和超过50%的性能损失(在之前的设计中,如cuBLAS、CUTLASS等)。
2023-11-24 15:32:35
1414
1
原创 昇腾平台LLM pytorch推理环境搭建
当前用户下执行npu-smi info是否可以查看到gpu信息,如果不能,则表示驱动安装错误,需要在安装命令加上 --install-for-all。检查NPU是否正常在位可执行lspci | grep d802命令,如果服务器上有 N路NPU,回显N行含“d802”字段,则表示NPU正常在位。资源下载地址:https://www.hiascend.com/developer/download。通过执行npu-smi info命令查看。支持的PyTorch版本。支持的Adapter版本。
2023-11-23 18:06:01
5630
3
原创 成功编译TensorRT-LLM
运行步骤参考/root/autodl-tmp/files/TensorRT-LLM/examples/gpt目录下的readme文档。由于系统中的cudnn是deb安装的,所以去Nvidia下载deb安装,可以直接对旧版本进行覆盖。于是决定通过在公有云申请资源,通过配置TRT-LLM编译依赖环境的方式进行编译。启动已下载的docker镜像,查看编译TRT-LLM的主要依赖项版本。模型保存在/root/autodl-tmp/models/gpt/公有云选择AudoDL,理由简单易用,价格便宜。
2023-11-09 17:01:03
1790
1
原创 大模型推理优化--TensorRT-LLM初体验
TensorRT-LLM可以视为TensorRT和FastTransformer的结合体,旨为大模型推理加速而生。
2023-10-20 15:16:27
3393
2
原创 ChatGLM-6B微调实践与问题汇总(fine-tune+p-tuning+知识遗忘解决尝试)
chatglm-6b,全量fine-tune和p-tuning复现。对于训练后丧失了原有的对话功能的现象进行初步尝试,并收获效果。
2023-06-06 11:51:45
8136
6
原创 pytorch转onnx报错: Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant
python转onnx报错 Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant, please try to make things (e.g., kernel size) static if possible
2023-02-10 15:07:49
1288
1
qwen3-coder-30b-a3b-instruct模型config文件适配MindIE
2025-08-11
bert测试数据集GLUE("CoLA", "SST", "MRPC"等)
2021-06-30
国外经典教材《无线通信原理与应用》
2011-08-12
QT调试报错 the cdb process terminated
2016-09-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅