cc_beolus-优快云博客

原创基于昇腾的大模型性能分析

性能采集工具MindStudio Insight界面介绍文档包括Timeline、Operator、Memory、Summary、Communication页签。

2025-11-19 19:14:55 933

原创昇腾大模型迁移适配

本文档重点介绍大模型如何基于MindIE完成迁移，旨在帮忙开发者理清MindIE LLM各层级的作用，要开发一个模型需要实现哪些文件，整个推理的端到端调用链是什么；不会介绍很详细的代码逻辑，本文也不会介绍新的算子如何开发。

2025-09-11 19:32:42 1020

先了解没有DMA，传统方式数据如何传输：假设I/O设备为一个普通网卡，为了从内存拿到需要发送的数据，然后组装数据包发送到物理链路上，网卡需要通过总线告知CPU自己的数据请求。然后CPU将会把内存缓冲区中的数据复制到自己内部的寄存器中，再复制到I/O设备的存储空间中。如果数据量比较大，那么很长一段时间内CPU都会忙于搬移数据，而无法投入到其他工作中去。DMA机制CPU的最主要工作是计算，而不是进行数据复制，这种工作属于白白浪费了它的计算能力。

2025-08-22 16:02:23 1043

原创 PD混部服务化调优

1.可以尝试调整prefill阶段的批次；2.可以调整调度策略；3.可以调整客户端的请求并发量和请求频率；由于是基于上面优化基础上，叠加优化，所以要和上面最好的一次性能做比较，即2655.测试性能比默认还要差？分析可能是客户端并发设置太小了(当前设置100)数据解析后生成的内容：（在命令执行路径下的output目录）

2025-08-19 17:29:46 1026

原创 sd3.5基于mindiesd适配

深入浅出完整解析Stable Diffusion（SD）核心基础知识深入浅出完整解析Stable Diffusion XL（SDXL）核心基础知识深入浅出完整解析Stable Diffusion 3（SD 3）和FLUX.1系列核心基础知识。

2025-08-12 14:57:46 894

原创了解集合通信与模型并行策略

通过HCCS实现两两互联（Full Mesh），如NPU与NPU之间，CPU与CPU之间；NPU和CPU之间通过PCIE连接。Full Mesh是指在一个网络拓扑中，每个节点都直接连接到其他节点，形成一个完全互联的网络结构。在Full Mesh网络中，任何两个节点之间都可以直接通信。双mesh组网（8P Full-mesh）

2025-06-24 14:18:56 1073

原创离线推理性能问题分析

AIPP（Artificial Intelligence Pre-Processing）人工智能预处理，用于在 AI Core 上完成数据预处理，包括改变图像尺寸、色域转换（转换图像格式）、减均值 / 乘系数（改变图像像素），数据预处理之后再进行真正的模型推理。性能调优流程：性能数据采集-》算子层优化-》调度策略调整-》通信机制-》模型编译下发等。：量化可以模型压缩、减少计算量、缩短推理时延，但可能导致精度下降。模型从GPU设备迁移到昇腾设备上进行推理时，模型的开箱性能差。

2025-06-23 14:46:20 1004

原创离线推理精度问题分析

离线推理（om模型在昇腾acl推理）的结果和在线推理（如：对原始模型通过pytorch/onnxruntime框架在gpu/cpu的推理）相差比较大，如在开源数据集的精度差距>1%，则认为离线推理精度不达标。这里是以在线推理的结果作为基准参考。

2025-06-23 11:29:10 1214

原创离线推理全流程&模型调优

小模型推理方案：ATC转换架构图：ModelZoo-PyTorch指导文档：https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/ACL_PyTorch/docs/README.md参考链接。

2025-06-20 16:33:16 356

原创搞定昇腾软件版本配套问题

一般用户是根据自己的业务场景，比如说要跑DeepSeek满血版推理，则需要去看对应的镜像哪个版本满足要求，然后再根据镜像安装的CANN版本去看宿主机的固件驱动版本是否满足，如果不满足需要升级驱动固件。开发者拿到一个裸机环境，如800I A2/800T A2, 或Atlas 800 3000推理服务器（里面插了Iduo卡），需要用户根据OS版本去安装配套的固件驱动、Mind系列软件等。一般建议选择新版本CANN和固件驱动，固件驱动有多个兼容版本，建议选最新版本。（可以根据软件发布时间来判断版本的新旧）

2025-06-20 15:29:08 727

原创基于llama-factory的昇腾实战

【代码】基于llama-factory的昇腾实战。

2025-06-20 10:08:22 567

原创服务化参数调优实战

maxBatchSize = Total Block Num/Block Num，需要先计算出"Total Block Num"和"Block Num"的值。最大maxBatchSize = Floor[Total Block Num/所需最小Block Num] = 2176。平均maxBatchSize = Floor[Total Block Num/所需平均Block Num] = 544。计算公式为：Floor[(单卡显存-空闲占用-权重/NPU卡数)* 系数]，系数取值为0.8。

2025-04-18 11:35:27 842

原创 MindIE Torch快速上手

c++伪代码(适用于TorchScript路线)：python伪代码(适用于TorchScript路线)：

2025-04-17 11:30:19 610

原创 DeepSeek-R1-Distill-Qwen-1.5B基于MindIE推理实践

1）进入登录昇腾镜像仓库：https://www.hiascend.com/developer/ascendhub。根据实际情况修改下面datasetpath, modelname, modelpath参数。根据实际情况修改下面datasetpath, modelname, modelpath参数。2）申请权限后，下载对应的镜像版本。保证上面的4.1.3操作已完成！

2025-03-10 18:02:11 893

原创 MindIE对接vLLM框架开发指南

vLLM框架在昇腾环境适配的整体方案为上层运行vLLM框架原生的逻辑，包括请求调度、Batch组建、Ray分布式拉起多卡服务等；下层模型推理与后处理通过MindIE LLM提供的GeneratorTorch统一接口接入MindIE模型仓统一进行管理，实现加速库整图模式的模型推理加速。

2025-01-17 14:17:27 1128

原创 MindIE+MindFormers推理方案指导

CANN是什么异构计算架构CANN（Compute Architecture for Neural Networks）是昇腾针对AI场景推出的异构计算架构，向上支持多种AI框架，包括MindSpore、PyTorch、TensorFlow等，向下服务AI处理器与编程，发挥承上启下的关键作用，是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景，提供多层次编程接口，支持用户快速构建基于昇腾平台的AI应用和业务。总体架构。

2025-01-16 11:24:21 1426

原创 MindIE Service整体介绍&快速上手

MindIE Service是面向通用模型场景的推理服务化框架，通过开放、可扩展的推理服务化平台架构提供推理服务化能力，支持对接业界主流推理框架接口，满足大语言模型的高性能推理需求。

2025-01-03 15:37:22 3477

原创 PyTorch模型训推迁移到昇腾实战

牵引快速把在GPU训推的pytorch模型迁移到昇腾硬件上，使用cann，torch_npu, mindie等关键组件

2024-12-20 09:47:08 1631

原创 IDEA常用快捷键及模板

IDEA常用快捷键及模板快捷键模板快捷键Ctrl + D：复制当前光标所在行ctrl + Y: 删除光标所在行ctrl + N: 全局搜索类名Ctrl + O：重写基类的方法Ctrl + I：实现基类或接口中的方法Alt + Enter：导包、方法throws异常、try-catch包装等ctrl + shift + N: 按文件名搜索文件ctrl + H: 查看类的继承关系alt + F7: 查看类或方法在哪被使用ctrl + F: 按照文本内容查找（当前文件）shift + sh

2022-04-30 14:46:41 846

原创 new/init/super()详解

__new__/__init__/super的用法详解__new__讲解：super讲解：__new__讲解：__new__称作构造方法，属于类方法，用于创建一个实例对象。必须要有返回值，如果返回的是本类的实例，则返回实例对象会自动调用__init__方法（如果定义了该方法的话），如果返回的不是本类实例，则不会调用本类的__init__方法。class Test: def __init__(self): print("TEST __init__")class A:

2021-04-26 23:10:04 356

原创 python中下划线详解

python中各种下划线的理解前单下划线：_var作用：只在内部实现，不想被外部访问实例：前双下划线：__var作用：使用双下划线会导致其访问名称变成其他形式，这种属性在继承中是无法被覆盖的。实例：后单划线：var_作用：如果定义的变量和python关键字有冲突的话，则可以使用var_这种格式三种下划线区别前单下划线：_var作用：只在内部实现，不想被外部访问如果我们想封装实例的私有属性，不被外部访问，只在本类中使用访问。则可以通过遵循一定的属性和方法命名约定来达到这种效果。tips: 这种命名

2021-04-26 07:00:26 481 1

原创数据结构及底层原理实现

数据结构及其底层原理实现区分物理结构和逻辑结构物理结构介绍数组链表数组和链表的区别逻辑结构介绍栈(stack)队列双端队列栈和队列的应用散列表（哈希表）树的介绍二叉树什么是二叉树二叉树的应用二叉树的遍历二叉堆优先队列python常见数据类型的底层实现原理list类型的底层实现tuple类型的底层实现dict类型的底层实现set类型的底层实现区分物理结构和逻辑结构物理结构：数据在内存中的真实存储方式逻辑结构：是一个抽象的概念，可以说是在物理结构的基础上“想象”出来的一种数据存储格式。常见数据结构分类：

2021-03-29 08:19:54 1998 3

原创 MYSQL增删改查

MYSQL的增删改查一、数据库的操作创建数据库查看所有的数据库切换当前数据库查看当前选中的数据库查看数据库创建信息删除数据库二、表的操作表的创建、查看、删除删除多个表查看表结构修改表名移动表到其他数据库增加列删除列修改列信息插入数据外键三、查询语句（待补充）一、数据库的操作创建数据库CREATE DATABASE IF NOT EXISTS 数据库名;mysql> create database if not exists test charset=utf8;Query OK, 1 row

2021-01-31 09:54:22 447 2

原创 GIT日常使用

git的工作手册1.git初始化配置1.1用户信息1.2查看配置信息1.3git提交信息模板配置1.4查看帮助2.在服务器配置git2.1本地协议2.2ssh协议3.git常用操作4.git分支5.多人合作开发1.git初始化配置1.1用户信息$git config --global user.name "beolus"$git config --global user.email "xxx@163.com"1.2查看配置信息$git config user.namebeolus$git

2021-01-25 23:07:51 211

cc_beolus的博客