有来有去9527-优快云博客

原创基于昇腾910B的文生图模型推理服务化部署

vLLM-Omni框架扩展了多模态支持，实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库，成功安装所需依赖。通过启动vLLM模型推理服务和图形界面，测试了图像生成功能。此外，采用TeaCache和Cache-DiT两种加速方法优化性能，对比显示TeaCache将端到端延迟降低至基准的93.3%，Cache-DiT达到96.6%。该框架显著提升了多模态模型的推理效率。

2025-12-30 09:49:57 371

原创 vllm推理服务指标监控看板搭建手册

摘要：本文介绍了vLLM推理服务监控看板的搭建过程，使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括：1)环境准备，详细说明了Prometheus和Grafana的安装配置步骤；2)看板配置，包含数据源添加和仪表盘导入；3)最终效果展示。通过配置Prometheus采集vLLM服务指标，结合Grafana可视化展示，实现了对vLLM推理服务的实时监控。文章提供了完整的配置文件示例和操作流程，便于快速搭建监控系统。

2025-12-19 17:00:54 381

原创 [昇腾推理优化] 基于昇腾910B的mooncake组件部署指导手册

本文解决了vllm-ascend官方镜像环境不匹配问题，详细记录了mooncake配置vllm-ascend的完整过程。首先完成mooncake环境搭建，包括安装依赖、编译和启动服务；随后解决vllm和torch版本冲突问题，统一降级到兼容版本；最后通过lmcache benchmark测试验证效果。测试结果表明：1)不使用mooncake时，TTFT增加拐点与NPU内存容量匹配；2)使用mooncake时，TTFT增加拐点与配置的存储空间匹配；3)随着样本量增大，KV缓存需求增加，TTFT平均值趋于收敛，

2025-12-08 16:18:55 1007

原创 [模型量化]-大模型量化效果评价-Qwen2.5-72B

本文对Qwen2.5-72B-Instruct模型进行了量化效果评测，主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化，并在evalscope工具上进行测试。结果显示：w8a8量化最大精度损失仅0.012，w4a16为0.0261；在性能方面，w8a8在8卡部署时吞吐提升1.46倍，而w4a16性能提升有限，适合并发需求低的场景。测试数据表明，w8a8量化在精度和性能间取得了较好平衡，是更优选择。

2025-12-08 16:06:32 802

原创【问题解决】LLM推理chat接口流式调用不输出usage信息

摘要：vLLM-Ascend部署Qwen3-Coder-30B-A3B-Instruct模型时，流式调用接口不返回usage信息。测试发现设置stream_options={"include_usage": True}无效，需参考vLLM官方代码，同时设置include_usage和continuous_usage_stats参数才能获取token统计信息。该问题涉及vLLM 0.9.2版本在Ascend环境下的特殊配置需求。

2025-08-07 16:08:26 514

原创【大模型部署】昇腾部署Qwen3-Coder-30B-A3B-Instruct

摘要：本文介绍了在Ascend NPU上部署Qwen3-Coder-30B-A3B-Instruct大模型的实践过程。通过vLLM-Ascend框架，详细说明了环境准备（CANN 8.1、PyTorch-NPU 2.5.1等）、模型下载、容器启动及服务部署步骤，包括vLLM服务的启动参数配置和接口测试方法。测试结果显示在当前2卡910B3配置下性能表现仅为8token/s（1并发），并指出流式调用时存在无法输出usage信息的问题。该方案为Ascend平台私有化部署大模型推理服务提供了参考实现。

2025-08-07 15:59:15 1355 2

原创【大模型评测工具】OpenCompass本地部署手册及使用方案

本文介绍了OpenCompass大语言模型评测平台的本地部署方法及使用方案。主要内容包括：1）环境搭建，通过conda创建Python 3.10环境并安装PyTorch；2）安装OpenCompass的三种方式（pip基本/完整安装、源码安装）；3）数据集准备，支持Hugging Face、ModelScope及自定义数据集；4）本地模型评测配置，包括Hugging Face模型配置文件和评测任务设置（命令行或Python脚本方式）。OpenCompass支持多种主流大模型评测，提供灵活的数据集加载和任务配

2025-07-17 09:19:55 1735 4

原创成功基于昇腾部署Qwen3-Reranker模型教程

基于最新vllm版本成功部署qwen3-rerank模型服务

2025-07-15 12:26:16 1746

原创 LLM训推适配-[昇腾910B]-qwen2.5精度测试+高效推理

昇腾部署qwen2.5大模型，以及相关适配验证。

2024-10-17 16:41:20 4989 10

原创 LLM训推适配-[昇腾910B]-大模型量化推理-qwen2-72B

大模型量化

2024-09-04 20:03:19 2404 2

原创 LLM训推适配-[昇腾910B]-Qwen1.5-72B模型SFT

昇腾硬件大模型训练迁移。

2024-09-03 11:57:28 1833 2

原创 [论文分享]LLM推理加速——FLASHDECODING++

当计算新的部分softmax结果时，采用同步softmax操作更新先前的部分softmax结果。为解决这些问题，研究团队提出了一种名为FlashDecoding++的更快的GPU实现方法，通过解决不同输入的最大值问题、优化flat GEMM操作和根据输入动态性和硬件配置进行启发式数据流优化，实现了对主流LMs的加速。未充分利用flat GEMM计算：在LLM推理中，矩阵执行GEMM操作的形状是扁平的，这导致未充分利用计算和超过50%的性能损失（在之前的设计中，如cuBLAS、CUTLASS等）。

2023-11-24 15:32:35 1414 1

原创昇腾平台LLM pytorch推理环境搭建

当前用户下执行npu-smi info是否可以查看到gpu信息，如果不能，则表示驱动安装错误，需要在安装命令加上 --install-for-all。检查NPU是否正常在位可执行lspci | grep d802命令，如果服务器上有 N路NPU，回显N行含“d802”字段，则表示NPU正常在位。资源下载地址：https://www.hiascend.com/developer/download。通过执行npu-smi info命令查看。支持的PyTorch版本。支持的Adapter版本。

2023-11-23 18:06:01 5630 3

原创成功编译TensorRT-LLM

运行步骤参考/root/autodl-tmp/files/TensorRT-LLM/examples/gpt目录下的readme文档。由于系统中的cudnn是deb安装的，所以去Nvidia下载deb安装，可以直接对旧版本进行覆盖。于是决定通过在公有云申请资源，通过配置TRT-LLM编译依赖环境的方式进行编译。启动已下载的docker镜像，查看编译TRT-LLM的主要依赖项版本。模型保存在/root/autodl-tmp/models/gpt/公有云选择AudoDL，理由简单易用，价格便宜。

2023-11-09 17:01:03 1790 1

原创大模型推理优化--TensorRT-LLM初体验

TensorRT-LLM可以视为TensorRT和FastTransformer的结合体，旨为大模型推理加速而生。

2023-10-20 15:16:27 3393 2

原创 Flash-Attention代码调用尝试

快速实现flash-attention调用

2023-10-10 16:48:36 9334 4

原创 vscode_cuda调试环境搭建

vscode搭建cuda调试环境

2023-06-29 17:20:26 3615 13

原创 ChatGLM-6B微调实践与问题汇总（fine-tune+p-tuning+知识遗忘解决尝试）

chatglm-6b，全量fine-tune和p-tuning复现。对于训练后丧失了原有的对话功能的现象进行初步尝试，并收获效果。

2023-06-06 11:51:45 8136 6

原创 trition模型注册和访问验证（易错点加粗）

trition服务启动后，关于模型注册和推理请求易错汇总

2023-03-15 12:00:30 1425

原创 Unity 打包webGL与前端交互[]

unity程序发布为webgl包后，嵌入前端界面，实现和前端程序的交互

2023-02-23 11:57:02 1994

原创 pytorch转onnx报错： Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant

python转onnx报错 Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant, please try to make things (e.g., kernel size) static if possible

2023-02-10 15:07:49 1288 1

原创 linux当我们copy软链接时，复制了什么？

copy软链接时，到底拷贝了什么

2022-12-02 15:59:03 2241

原创 TorchServe环境构建+模型更新+新模型注册

torchserve环境搭建和模型在线注册方式

2022-10-27 16:07:47 2766 4

原创 pytorch模型转tensorrt，pad报错，opset11

tensorrt unsupport opset11 padding

2022-10-11 14:30:43 3923 4

vllm服务指标prometheus模版

vllm服务指标prometheus模版。带有kv-cache命中率等看板

2025-12-19

qwen3-coder-30b-a3b-instruct模型config文件适配MindIE

由于MindIE 2.1.RC1部署Qwen3-Coder-30B-A3B-Instruct模型报错。需要对模型权重目录的config文件进行修改。

2025-08-11

昇腾910B+llm量化脚本+w8a8+qwen2.5-72B

适配华为昇腾的大语言模型量化脚本。通用性较高，支持多种LLM以及配套参数。

2025-01-01

无线通信系统仿真——C 实用模型

无线通信系统仿真——C 实用模型无线通信 c语言模型

2011-10-18

kinect同时获取深度和彩色图片并可以获取像素点

该程序完成了显示并存储kinect 深度图和彩色图的功能，并且可以通过鼠标获取两图中像素点的位置。

2012-11-02

bert测试数据集GLUE("CoLA", "SST", "MRPC"等)

"CoLA", "SST", "MRPC", "QQP", "STS", "MNLI", "SNLI", "QNLI", "RTE", "WNLI", "diagnostic"

2021-06-30

国外经典教材《无线通信原理与应用》

国外经典教材是无线通信课程的权威教材，面向那些已经熟悉诸如概率论、通信原理和基本电磁学等技术概念的学生和工程师。全书深入浅出地讨论了无线通信技术与系统设计方面的内容，包括无线网络涉及的所有基本问题，特别是3G系统和无线局域网的问题，并对无线网络技术新进展和全球主要的无线通信标准给出了论述。全书共分11章，集中讲述了蜂窝的概念、移动无线电传播、调制技术、多址技术以及无线系统与标准，结合理论对无线通信系统的各个方面做了精辟论述和统计分析。

2011-08-12

QT调试报错 the cdb process terminated

2016-09-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人