ascend
文章平均质量分 87
昇腾技术博客
cc_beolus
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通信基础知识
先了解没有DMA,传统方式数据如何传输:假设I/O设备为一个普通网卡,为了从内存拿到需要发送的数据,然后组装数据包发送到物理链路上,网卡需要通过总线告知CPU自己的数据请求。然后CPU将会把内存缓冲区中的数据复制到自己内部的寄存器中,再复制到I/O设备的存储空间中。如果数据量比较大,那么很长一段时间内CPU都会忙于搬移数据,而无法投入到其他工作中去。DMA机制CPU的最主要工作是计算,而不是进行数据复制,这种工作属于白白浪费了它的计算能力。原创 2025-08-22 16:02:23 · 1045 阅读 · 0 评论 -
昇腾大模型迁移适配
本文档重点介绍大模型如何基于MindIE完成迁移,旨在帮忙开发者理清MindIE LLM各层级的作用,要开发一个模型需要实现哪些文件,整个推理的端到端调用链是什么;不会介绍很详细的代码逻辑,本文也不会介绍新的算子如何开发。原创 2025-09-11 19:32:42 · 1022 阅读 · 0 评论 -
sd3.5基于mindiesd适配
深入浅出完整解析Stable Diffusion(SD)核心基础知识深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识。原创 2025-08-12 14:57:46 · 896 阅读 · 0 评论 -
PD混部服务化调优
1.可以尝试调整prefill阶段的批次;2.可以调整调度策略;3.可以调整客户端的请求并发量和请求频率;由于是基于上面优化基础上,叠加优化,所以要和上面最好的一次性能做比较,即2655.测试性能比默认还要差?分析可能是客户端并发设置太小了(当前设置100)数据解析后生成的内容:(在命令执行路径下的output目录)原创 2025-08-19 17:29:46 · 1026 阅读 · 0 评论 -
搞定昇腾软件版本配套问题
一般用户是根据自己的业务场景,比如说要跑DeepSeek满血版推理,则需要去看对应的镜像哪个版本满足要求,然后再根据镜像安装的CANN版本去看宿主机的固件驱动版本是否满足,如果不满足需要升级驱动固件。开发者拿到一个裸机环境,如800I A2/800T A2, 或Atlas 800 3000推理服务器(里面插了Iduo卡),需要用户根据OS版本去安装配套的固件驱动、Mind系列软件等。一般建议选择新版本CANN和固件驱动,固件驱动有多个兼容版本,建议选最新版本。(可以根据软件发布时间来判断版本的新旧)原创 2025-06-20 15:29:08 · 727 阅读 · 0 评论 -
离线推理精度问题分析
离线推理(om模型在昇腾acl推理)的结果和在线推理(如:对原始模型通过pytorch/onnxruntime框架在gpu/cpu的推理)相差比较大,如在开源数据集的精度差距>1%,则认为离线推理精度不达标。这里是以在线推理的结果作为基准参考。原创 2025-06-23 11:29:10 · 1214 阅读 · 0 评论 -
MindIE对接vLLM框架开发指南
vLLM框架在昇腾环境适配的整体方案为上层运行vLLM框架原生的逻辑,包括请求调度、Batch组建、Ray分布式拉起多卡服务等;下层模型推理与后处理通过MindIE LLM提供的GeneratorTorch统一接口接入MindIE模型仓统一进行管理,实现加速库整图模式的模型推理加速。原创 2025-01-17 14:17:27 · 1129 阅读 · 0 评论 -
MindIE Torch快速上手
c++伪代码(适用于TorchScript路线):python伪代码(适用于TorchScript路线):原创 2025-04-17 11:30:19 · 611 阅读 · 0 评论 -
MindIE Service整体介绍&快速上手
MindIE Service是面向通用模型场景的推理服务化框架,通过开放、可扩展的推理服务化平台架构提供推理服务化能力,支持对接业界主流推理框架接口,满足大语言模型的高性能推理需求。原创 2025-01-03 15:37:22 · 3479 阅读 · 0 评论 -
MindIE+MindFormers推理方案指导
CANN是什么异构计算架构CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,向上支持多种AI框架,包括MindSpore、PyTorch、TensorFlow等,向下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供多层次编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。总体架构。原创 2025-01-16 11:24:21 · 1428 阅读 · 0 评论 -
离线推理性能问题分析
AIPP(Artificial Intelligence Pre-Processing)人工智能预处理,用于在 AI Core 上完成数据预处理,包括改变图像尺寸、色域转换(转换图像格式)、减均值 / 乘系数(改变图像像素),数据预处理之后再进行真正的模型推理。性能调优流程:性能数据采集-》算子层优化-》调度策略调整-》通信机制-》模型编译下发等。:量化可以模型压缩、减少计算量、缩短推理时延,但可能导致精度下降。模型从GPU设备迁移到昇腾设备上进行推理时,模型的开箱性能差。原创 2025-06-23 14:46:20 · 1004 阅读 · 0 评论 -
离线推理全流程&模型调优
小模型推理方案:ATC转换架构图:ModelZoo-PyTorch指导文档:https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/ACL_PyTorch/docs/README.md参考链接。原创 2025-06-20 16:33:16 · 356 阅读 · 0 评论 -
PyTorch模型训推迁移到昇腾实战
牵引快速把在GPU训推的pytorch模型迁移到昇腾硬件上,使用cann,torch_npu, mindie等关键组件原创 2024-12-20 09:47:08 · 1631 阅读 · 0 评论 -
基于llama-factory的昇腾实战
【代码】基于llama-factory的昇腾实战。原创 2025-06-20 10:08:22 · 568 阅读 · 0 评论 -
了解集合通信与模型并行策略
通过HCCS实现两两互联(Full Mesh),如NPU与NPU之间,CPU与CPU之间;NPU和CPU之间通过PCIE连接。Full Mesh是指在一个网络拓扑中,每个节点都直接连接到其他节点,形成一个完全互联的网络结构。在Full Mesh网络中,任何两个节点之间都可以直接通信。双mesh组网(8P Full-mesh)原创 2025-06-24 14:18:56 · 1073 阅读 · 0 评论 -
服务化参数调优实战
maxBatchSize = Total Block Num/Block Num,需要先计算出"Total Block Num"和"Block Num"的值。最大maxBatchSize = Floor[Total Block Num/所需最小Block Num] = 2176。平均maxBatchSize = Floor[Total Block Num/所需平均Block Num] = 544。计算公式为:Floor[(单卡显存-空闲占用-权重/NPU卡数)* 系数],系数取值为0.8。原创 2025-04-18 11:35:27 · 842 阅读 · 0 评论 -
DeepSeek-R1-Distill-Qwen-1.5B基于MindIE推理实践
1)进入登录昇腾镜像仓库:https://www.hiascend.com/developer/ascendhub。根据实际情况修改下面datasetpath, modelname, modelpath参数。根据实际情况修改下面datasetpath, modelname, modelpath参数。2)申请权限后,下载对应的镜像版本。保证上面的4.1.3操作已完成!原创 2025-03-10 18:02:11 · 893 阅读 · 0 评论
分享