zjun3021-优快云博客

原创 Ascendc msOpST测试报错问题

总结一句话就是，自定义算子要准确的设置和这2个环境变量，否则会执行失败。

2025-07-24 09:46:51 940

包含核函数的实现文件hello_world.cpp代码如下：核函数hello_world的核心逻辑为打印"Hello World!下面是一个简单的Ascend C的"Hello World"样例，展示了一个Ascend C核函数（设备侧实现的入口函数）的基本写法，及其如何被调用的流程。通过如下的代码工程对上述文件进行组织，您可以通过LINK获取样例工程，并参考README完成CMakeLists中的AI处理器的型号、软件包安装路径配置。，需要将bits目录添加到变量。

2025-07-23 14:37:52 359

原创【知识扫描】量化中的零点

零点（Zero Point，简称ZP）是一个整数值，代表浮点数0在整数域中的映射位置。从浮点数到整数的量化公式q是量化后的整数，f是原始浮点数，scale是缩放因子（将浮点数范围映射到整数范围的比例），zero_point是零点。从整数到浮点数的反量化公式关键点：当f = 0时，，即零点是整数域中对应浮点数0的位置。

2025-07-21 10:34:09 898

原创【知识扫描】模型中参数参量是怎么算出来的？DeepSeeK的671B参数量分布在哪里？

为了更好地理解大语言模型（LLM）中的参数量是如何计算出来的，我们可以以一个简化版的Transformer模型为例来说明。假设我们有一个包含6层编码器的Transformer模型，每层包括一个多头自注意力机制和前馈神经网络（Feed-Forward Neural Network, FFN），模型维度dmodeld_{model}dmodel为512，前馈网络的维度dffd_{ff}dff为2048，注意力头数为8。

2025-07-18 10:10:15 921

原创【知识扫盲】tokenizer.json中的vocab和merges是什么？

vocab：是子词到 ID 的映射表，它能将文本转换为模型可以处理的数字形式。merges：是子词合并规则，它决定了如何从基础字符构建出子词。相互关系merges规则生成子词，而vocab负责存储这些子词并为它们分配 ID。通过这种方式，子词分词器能够在处理常见词时保持完整性，同时将罕见词拆分成有意义的片段，有效平衡了词汇表的大小和表达能力。

2025-07-15 16:37:13 826

原创在NPU平台上，如何尝试跑通Ktransformers + DeepSeek R1？

KTransformers是一个灵活的、以Python为中心的框架，其核心是可扩展性。通过用一行代码实现和注入一个优化的模块，用户可以访问与Transformers兼容的接口、兼容OpenAI和Ollama的RESTful API，甚至是一个简化的类似ChatGPT的Web UI。仓库地址：https://github.com/kvcache-ai/ktransformers考虑到vLLM已经是大规模部署优化的优秀框架，KTransformers特别关注受有限资源限制的本地部署。

2025-06-25 19:52:31 638

原创 MindIE服务化性能MindIE service如何调优？首token时延限制严格，非首token时延也有限制

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-06-20 14:22:07 693

原创 MindIE服务化性能MindIE service如何调优？限制非首token时延的极限吞吐

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-06-20 14:18:25 727

原创 MindIE服务化性能MindIE service如何调优？不考虑时延的极限吞吐场景

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-06-20 14:14:34 1041

原创 Ascend如何测试集合通信（HCCL）的功能正确性以及性能？

INSTALL_DIR”是CANN软件安装后文件存储路径，其中“/usr/local/Ascend”为root用户的默认安装路径，如果使用普通用户安装，或指定路径安装，请自行替换。“INSTALL_DIR”是CANN软件安装后文件存储路径，其中“/usr/local/Ascend”为root用户的默认安装路径，如果使用普通用户安装，或指定路径安装，请自行替换。“/usr/local/mpich”以及“/usr/local/openmpi”为MPI安装路径，请根据实际情况替换。

2025-06-20 10:30:41 979

原创 Ascend上如何进行通信带宽测试

以不带参数为例（不带参数则默认查询在Device 0，以h2d、d2h、d2d三个数据流向和步长模式显示的带宽耗时信息）。以测试数据从Host侧传输到Device 0，迭代100次的带宽与总耗时为例。以测试数据从源头Device 0传输到目标Device 1的p2p测试为例。以测试数据从Device侧传输到同一Device侧的带宽与总耗时为例。测试指定源头Device到目标Device的传输速率和总耗时。不指定源头Device和目标Device的p2p样例。所示信息，表示工具运行正常，图中参数介绍如。

2025-06-19 18:58:55 1063

原创在ARM+Ascend NPU上适配Step-Audio模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：• 1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。

2025-06-09 20:06:23 979

原创 Ascend NPU上适配Step-Audio模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。

2025-06-09 19:49:24 714

原创 Ascend NPU上适配Step1X-Edit模型

Step1X-Edit：一个在各种真实用户指令下表现出现的统一图像编辑模型。Step1X-Edit，其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说，我们采用了多模态LLM 来处理参考图像和用户的编辑指令。我们提取了潜在嵌入，并将其与扩散图像解码器相结合，从而获得目标图像。为了训练模型，我们建立了一个数据生成管道，以生成高质量的数据集。为了进行评估，我们开发了 GEdit-Bench，这是一种植根于真实世界用户指令的新型基准。

2025-06-09 19:31:54 911

原创【知识扫盲】分布式系统架构或分布式服务中的管理面，数据面和业务面

层级英文名职责关键组件举例数据面Data Plane处理用户请求、模型推理、输入输出数据转换等核心任务模型服务引擎、Tokenizer/Detokenizer、推理加速器（TensorRT、ONNX Runtime）业务面用户交互、API 接口、权限控制、结果封装等RESTful API 服务、身份认证、前端界面、日志记录管理面资源调度、监控、配置管理、模型部署、弹性伸缩等Kubernetes 控制器、Prometheus 监控、模型仓库、配额系统。

2025-06-07 08:36:51 680

原创【知识扫盲】如何由inq，ouq和totaltime计算tokens/s

指标公式整体吞吐量（token/s）Batchsize×In_seqOut_seqTotal timeTotal timeBatchsize×In_seqOut_seq生成吞吐量（token/s）Batchsize×Out_seqTotal timeTotal timeBatchsize×Out_seq首 token 延迟（ms）单个 token 平均延迟参数名值Batchsize1In_seq1024Out_seq102419.88901。

2025-06-06 22:25:55 771

原创 AllToAll通信为什么用于EP并行？

EP并行一般使用在MOE层，先了解下什么是MOE。

2025-05-23 00:05:10 630

原创 Ascend的aclgraph（十）另外一种成图方式GeConcreteGraph

您可以在调用该接口后，调用GetCompiledGraphSummary获取图编译结果的概要信息（比如模型执行所需的内存资源大小及内存是否可刷新、复用等），根据查询到的内存大小，自行申请并管理内存；您可以配合编译后Graph资源占用查询接口、内存的基地址刷新接口来使用，达到自行管理模型内存、获得更多灵活性的目的。ge中涉及到的代码页比较复杂，本篇还是关注ge图与torch.compile对接，不深入探讨ge细节。包含了图编译过程，并在编译完成后进行模型所需内存资源的初始化，生成可用于执行的模型。

2025-05-16 11:28:59 1022

原创 Ascend的aclgraph（九）e2e执行aclgraph

前面的几章内容探讨了aclgraph运行过程中的涉及到的关键模块和技术。本章节将前面涉及到的模块串联起来，对aclgraph形成一个端到端的了解。由于例子中的Model()是个fn, torch.nn.Module对象，因此走到下面的代码分支。调用的接口相同，但是这里却是没有传入congfig参数，一切都是默认的。，那么npu_backend 返回的就是一个可以执行的model对象。）以后的版本上aclgraph模式才得以支持，是可以运行起来的。依旧从代码的角度，看下是如何一步步执行下去的。

2025-05-15 17:08:23 413

原创 Ascend的aclgraph（八）AclConcreteGraph：capture_end

capture_end的逻辑相对简单。下一步，梳理清楚torch.compile中的FX graph和AclmdlRICaptureBegin与AclmdlRICaptureEnd抓的图是什么关系。

2025-05-14 17:42:05 317

原创 Ascend的aclgraph（七）AclConcreteGraph：capture_begin

在aclmdlRICaptureBegin和aclmdlRICaptureEnd接口之间捕获到的任务会暂存在系统内部模型运行实例中，随着任务数量的增加，以及通过Event推导、内部任务的操作，导致更多的Stream进入捕获状态，Stream资源被不断消耗，最终可能会导致Stream资源不足（Stream数量限制请参见aclrtCreateStream），因此需提前规划好Stream的使用、关注捕获的任务数量。接口之间捕获的任务，若要更新任务（包含任务本身以及任务的参数信息），则需在。

2025-05-14 15:50:16 1036

原创 Ascend的aclgraph（六）AclConcreteGraph

当你使用 torch.profiler.profile 来分析你的模型时，record_function 标记的部分会在分析结果中以你指定的名字出现，使得分析报告更易于理解。回到warmup阶段。代码中并未标注该warmup过程的作用，不过在前几篇的介绍中提到在图运行前进行warmup操作，可以生成一些缓存，避免在真正运行时候产生的编译时间开销。总之，fx.Interpreter 的 run 方法提供了一种直接且灵活的方式来执行 torch.fx 计算图，使得开发者可以更容易地进行模型调试、变换及优化。

2025-05-13 19:24:15 858

原创 Ascend的aclgraph（五）PrimTorch & TorchInductor

在inductor的默认实现中调用的是compile_fx_inner，而其中的核心函数是。

2025-05-12 19:26:33 1024

原创 Ascend的aclgraph（四）AOT Autograd

在前期分析的torchair的源代码中，FX Graph是complie相关函数输入的第一个参数，joint graph，default_partition，call_function都是常见的对象，看完本篇，相应大家对这些概念有个基础的了解。下一篇张，主要介绍Inductor相关的优化部分。

2025-05-12 19:06:20 928

原创 Ascend的aclgraph（三）TorchDynamo

针对TorchDynamo的介绍，该文章已经讲的比较仔细，本篇文章，主要是基于原文并加上自己的理解介绍。在上一篇，解释了torch.compile出现的背景并初步了解了其使用和基础组。先回顾下torch.compile主要包含四个：从python bytecode中解析构建计算图，是一个动态的、Python级别的编译器，旨在捕捉 PyTorch 模型的动态执行路径，将其转换为优化代码，实现bytecode-to-bytecode编译。

2025-05-12 16:16:20 944

原创 Ascend的aclgraph（二）_npu_backend中还有些什么秘密？

从如上的定义：深度学习编译器，可为多种加速器和后端生成代码，生成OpenAI Triton(Nvidia/AMD GPU)和OpenMP/C++(CPU)代码。也就是说，这种后端的作用，是为了生成能够执行的代码。那是否可以自己自定义后端实现？来来来，试一下。

2025-05-09 20:46:47 1000

原创 Ascend的aclgraph（一）aclgraph是什么？torchair又是怎么成图的？

在 torch.fx 中，no_dispatch 上下文用于临时关闭 Python 的调度机制（dispatch mechanism），这通常涉及到自动求导（autograd）、函数转换（如将Python函数转换为计算图中的节点）等过程。此外，由于其内部维护了一个计算图，它还支持进一步的分析和变换，这使得它成为实现高级功能（如量化、剪枝等）的理想选择。FX 是 PyTorch 提供的一个用于模型变换和分析的高级工具集，它允许用户对 PyTorch 模型执行图级别的操作，如插入、删除或修改计算图中的节点。

2025-05-09 17:03:26 1556

原创 vllm+vllm-ascend本地部署QwQ-32B

基础镜像地址：https://quay.io/repository/ascend/vllm-ascend?具体可以参考链接：https://vllm-ascend.readthedocs.io/en/latest/installation.html。/xxx/models/llmmodels是宿主机放模型的目录，/usr1/project/models是容器内目录。/usr1/project/models/QwQ-32B：模型路径。served-model-name：接口调用需要传入的模型名称。

2025-04-21 19:24:12 734

原创【知识扫盲】per-token/per-channel/per-token量化

这三种是模型量化中常见的不同粒度策略，主要区别在于它们应用量化的维度不同。通过合理选择量化粒度，可以在模型大小、推理速度和精度之间取得最佳平衡。

2025-04-11 14:48:21 1421

原创初识华为RazorAttention

文中提出的RazorAttention是目前业界唯一的静态KV Cache压缩算法，一方面没有在线动态计算开销（既不依赖Attention score，也不涉及在线Topk计算），类似PTQ仅需少量输入样本进行离线校准，便可轻量快捷的决定Attention稀疏模式；另一方面能与FlashAttention等主流融合算子兼容，无明显overhead。

2025-04-07 19:52:15 563

原创 NPU上如何使能pytorch图模式

PyTorch 的 torch.compile 是一个强大的功能，用于优化 PyTorch 模型的性能。它通过将 PyTorch 的动态图转换为静态图，并利用 Just-In-Time（JIT）编译技术，显著提高模型的推理速度和训练效率。

2025-03-24 15:27:48 926

原创 NPU上运行onnxruntime

显示的是cuda的组件找不到。由于是Ascend环境，肯定是没有GPU的，很明显是onnxruntime的包装错了。那么该如何才能构建onnxruntime适配Ascend上的whl包呢？通过如上命令，可以看到环境上确实安装的是gpu版本的。注意**–use_cann**参数。

2025-03-10 19:45:36 714

原创 MindIE BenchMark

服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后，以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度，并通过表格的形式展示模型在各个阶段的推理耗时（例如FirstTokenTime、DecodeTime等），以及对应时延的平均值、最小值、最大值、75分位（P75）、90分位（P90、SLO_P90）和99分位（P99）概率统计值，最后将计算结果保存到本地csv文件中。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

2025-02-24 19:44:27 1079

virtio协议

空空如也