CANN_澪贰的博客-优快云博客

CANN

关注

文章平均质量分 96

本专栏聚焦CANN异构计算架构的核心原理、开发流程与优化策略，既适合AI开发者快速入门构建技术认知，也能为资深工程师提供深度调优方案，助力读者吃透这一高性能AI算力平台的实战精髓

关注数：文章数：12 文章阅读量：217014 文章收藏量：263

作者: 澪贰

专业：双一流软件工程个人博客网站：https://general.zzh-blog.club/ 荣誉：极星会KOL，HCSD华为云校园大使认证，亚马逊AI从业资格认证，支付宝季度优质创作者认证，腾讯云微服务开发者认证，华为云技术开发者认证擅长技术和测评博文撰写，欢迎大家找我互三(„• ֊ •„)੭，一起见证更好的自己⌯oᴗo⌯，推广学习交流请加Wechat：zzh1478943685(备注来意)

展开

专栏收录文章

不只是聊天！在昇腾 910B 上硬核部署 SDXL：3秒出图的魔法

在昇腾 NPU 上跑通 SDXL，绝不仅仅是一次简单的模型部署，而是一场针对国产异构算力的深度适配之旅。我们从最初的依赖冲突、转换脚本缺失，一路过关斩将，解决了 MindSpore 静态图编译的内存崩塌（OOM）和严格的类型精度（Type Mismatch）问题。最终，我们探索出了一条**“PyNative 动态图 + 在线权重加载 + 自动化补丁”的黄金路径。这条路径证明了：在面对超大参数模型时，“先跑通（PyNative）再优化”**往往比死磕静态图编译更具工程价值。

原创 2025-12-27 13:23:47 · 26702 阅读 · 0 评论
拒绝“环境劝退”：Llama-2-7b 在昇腾 NPU 上的工程化部署与深度故障排查实录

在本次部署过程中，并非一帆风顺。以下是几个典型的“坑”及其解决方法，这也是本文最有价值的部分。通过本次在 GitCode Notebook 上的实操，我们成功实现了 Llama-2-7b 模型在昇腾 NPU 上的部署与推理。核心结论如下：环境就绪度高：使用官方提供的预置镜像（EulerOS + CANN + PyTorch），可以规避 90% 的底层驱动安装问题，让开发者专注于模型应用层。代码迁移成本低：从代码层面看，除了引入torch_npu。

原创 2025-12-27 13:13:52 · 26744 阅读 · 0 评论
极致算力释放：在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

在大模型推理技术的竞逐中，SGLang 凭借其革命性的 RadixAttention 技术和高效的算子调度机制，正在成为高性能推理的新标杆。特别是在多轮对话和 Agent 智能体场景下，它对 KV Cache（键值缓存）的极致复用能力，使其在吞吐量表现上甚至超越了老牌强者 vLLM。本文将聚焦于国产算力底座——昇腾（Ascend）NPU，基于 GitCode Notebook 最新的Ubuntu +CANN预装镜像，为开发者带来一份“0-Day”级别的极速部署指南。

原创 2025-12-26 14:21:52 · 37163 阅读 · 1 评论
0-Day 极速响应：基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

在本次适配过程中，我们遇到了几个典型的“水土不服”问题。这些问题在昇腾开发中非常具有代表性。通过本次实战，我们成功在 GitCode 昇腾 NPU 环境下跑通了 Qwen2.5-7B 这个“0-Day”模型。核心经验沉淀：适配的关键在于“版本对齐”：在异构计算领域，CANN 驱动、torch_npu插件、vLLM 分支版本三者必须严格对应。本次成功的关键在于选对了 CANN 8.0 的基础镜像。显存管理的艺术Atlas 800T的显存管理机制与 GPU 略有不同。

原创 2025-12-26 00:22:44 · 26654 阅读 · 0 评论
PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南

本文深入解析PyTorch Fully Sharded Data Parallel（FSDP）在昇腾AI处理器上的架构设计、实现原理与性能优化策略。通过对比FSDP1与FSDP2的架构演进，结合昇腾Atlas 800T A2处理器的硬件特性，系统分析。文章包含完整的昇腾环境配置指南、FSDP2迁移实战代码、性能瓶颈诊断方法论以及昇腾平台特有的优化技巧，为千亿参数大模型训练提供了一套完整的分布式训练解决方案。未来随着自适应分片和稀疏训练技术的成熟，昇腾平台有望成为LLM训练的首选基础设施。

原创 2025-12-25 23:14:18 · 5726 阅读 · 0 评论
昇腾AI处理器混合精度训练利器——apex for Ascend编译与优化全解析

文章包含昇腾硬件特性分析、混合精度训练原理、源码编译实战、常见问题解决方案及性能对比数据，为开发者提供了一套完整的昇腾平台高效训练指南。通过深入分析架构原理、详细编译步骤、高级优化技术和真实场景验证，展示了如何在昇腾平台上实现高效的混合精度训练。，这是对前代架构的重要改进。Atlas 800T A2处理器中，1个AIC（AI Cube）与2个AIV（AI Vector）组成计算Group，实现了。随着昇腾生态的不断发展，apex for Ascend将持续优化，为AI训练提供更高效、更易用的解决方案。

原创 2025-12-25 23:12:56 · 5998 阅读 · 1 评论
PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南

本文深入解析PyTorch Fully Sharded Data Parallel（FSDP）在昇腾AI处理器上的架构设计、实现原理与性能优化策略。通过对比FSDP1与FSDP2的架构演进，结合昇腾Atlas 800T A2处理器的硬件特性，系统分析梯度分片策略通信优化机制和混合精度训练三大核心技术。文章包含完整的昇腾环境配置指南、FSDP2迁移实战代码、性能瓶颈诊断方法论以及昇腾平台特有的优化技巧，为千亿参数大模型训练提供了一套完整的分布式训练解决方案。

原创 2025-12-11 10:15:31 · 1038 阅读 · 1 评论
CANN 典型落地案例：构建海量图片智能标签系统

高效的内存管理：通过和，我们实现了 Host（业务层）与 Device（计算层）之间的高效数据流转。极简的推理接口：仅需几行代码，即可调度强大的 NPU 算力，无需关心底层复杂的硬件指令。落地价值：在真实的互联网业务中，这种架构意味着可以用更少的服务器处理更多的用户请求，显著提升了服务的响应速度和经济效益。CANN 不仅是一个开发框架，更是连接上层互联网应用与底层硬件算力的坚实桥梁。

原创 2025-11-21 16:31:50 · 38888 阅读 · 0 评论
CANN 特性解析：实战 ACLNN 高性能 MatMul 算子

通过以上实操，我们没有使用任何 .om模型，而是从 0 到 1 成功调用了一个高性能的 ACLNN 算子。“ACLNN 算子的性能优化”：我们只调用了。CANN 的图引擎（**GraphEngine）在幕后自动启动，它会检查我们的 NPU 型号，然后从 ACLNN 库中自动选择一个针对该 NPU 优化得最好的** MatMul内核来执行。我们无需关心底层的 TIK C++ 实现，也能 100% “释放硬件潜能”。“ACL接口的资源调度”：就是“资源调度”的核心体现。

原创 2025-11-20 00:02:49 · 20395 阅读 · 2 评论
玩转 CANN：在 Notebook 中实战 Python 版 ResNet-50

随着 AI 技术的飞速发展，异构计算架构成为推动创新的核心动力。华为 CANN（Compute Architecture for Neural Networks）作为面向 AI 场景的统一架构，为开发者提供了强大的算力支持和高效的开发工具链。本文将紧扣“昇腾应用既玩”的主题，以“保姆级”指南的形式，带领读者在 Jupyter Notebook 环境中，利用acl-python库（AscendCL 的 Python 接口）实战部署一个经典的 ResNet-50 图像分类模型。

原创 2025-11-12 21:48:13 · 25472 阅读 · 4 评论
质量与性能的基石：CANN算子开发中的调试、测试与验证深度实践

此JSON文件定义了ST要执行的测试场景，包括算子名称、输入输出的Shape、数据类型（DType）等],],CANN算子的开发绝非“一锤子买卖”。本文从“质量保证”的视角出发，详细拆解了从开发初期的孪生调试（GDB与Printf），到中期的功能验证（UT与ST），再到后期的性能验证（msprof）的全链路流程一个高质量的AI算子，是功能正确性、高精度和高性能的结合体。只有建立起这样一套严谨的调试与验证闭环，开发者才能构建出真正健壮、高效、可信赖的AI底层算子库，为上层AI。

原创 2025-11-05 14:07:45 · 1096 阅读 · 2 评论
CANN算子开发实战：从动态Shape到测试验证的深度解析

CANN算子开发是一个严谨且精密的工程。从应对真实场景需求的动态Shape改造Tiling结构体与核函数解析），到连接框架的Host侧注册InferShapeTilingFunc），再到保证质量的UT/ST测试验证gtestmsopst），最后到追求极致性能的msprof调优，每一步都环环相扣且有“码”可依掌握这一全栈流程，不仅能使开发者在昇腾平台上游刃有余地实现自定义算子，更是深入理解AI硬件架构和高性能计算的必经之路。

原创 2025-11-04 23:20:42 · 1155 阅读 · 2 评论

CANN

作者: 澪贰

不只是聊天！在昇腾 910B 上硬核部署 SDXL：3秒出图的魔法

拒绝“环境劝退”：Llama-2-7b 在昇腾 NPU 上的工程化部署与深度故障排查实录

极致算力释放：在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

0-Day 极速响应：基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南

昇腾AI处理器混合精度训练利器——apex for Ascend编译与优化全解析

PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南

CANN 典型落地案例：构建海量图片智能标签系统

CANN 特性解析：实战 ACLNN 高性能 MatMul 算子

玩转 CANN：在 Notebook 中实战 Python 版 ResNet-50

质量与性能的基石：CANN算子开发中的调试、测试与验证深度实践

CANN算子开发实战：从动态Shape到测试验证的深度解析