CANN
文章平均质量分 96
本专栏聚焦CANN异构计算架构的核心原理、开发流程与优化策略,既适合AI开发者快速入门构建技术认知,也能为资深工程师提供深度调优方案,助力读者吃透这一高性能AI算力平台的实战精髓
澪贰
专业:双一流软件工程
个人博客网站:https://general.zzh-blog.club/
荣誉:极星会KOL,HCSD华为云校园大使认证,亚马逊AI从业资格认证,支付宝季度优质创作者认证,腾讯云微服务开发者认证,华为云技术开发者认证
擅长技术和测评博文撰写,欢迎大家找我互三(„• ֊ •„)੭,一起见证更好的自己⌯oᴗo⌯,推广学习交流请加Wechat:zzh1478943685(备注来意)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
不只是聊天!在昇腾 910B 上硬核部署 SDXL:3秒出图的魔法
在昇腾 NPU 上跑通 SDXL,绝不仅仅是一次简单的模型部署,而是一场针对国产异构算力的深度适配之旅。我们从最初的依赖冲突、转换脚本缺失,一路过关斩将,解决了 MindSpore 静态图编译的内存崩塌(OOM)和严格的类型精度(Type Mismatch)问题。最终,我们探索出了一条**“PyNative 动态图 + 在线权重加载 + 自动化补丁”的黄金路径。这条路径证明了:在面对超大参数模型时,“先跑通(PyNative)再优化”**往往比死磕静态图编译更具工程价值。原创 2025-12-27 13:23:47 · 26702 阅读 · 0 评论 -
拒绝“环境劝退”:Llama-2-7b 在昇腾 NPU 上的工程化部署与深度故障排查实录
在本次部署过程中,并非一帆风顺。以下是几个典型的“坑”及其解决方法,这也是本文最有价值的部分。通过本次在 GitCode Notebook 上的实操,我们成功实现了 Llama-2-7b 模型在昇腾 NPU 上的部署与推理。核心结论如下:环境就绪度高:使用官方提供的预置镜像(EulerOS + CANN + PyTorch),可以规避 90% 的底层驱动安装问题,让开发者专注于模型应用层。代码迁移成本低:从代码层面看,除了引入torch_npu。原创 2025-12-27 13:13:52 · 26744 阅读 · 0 评论 -
极致算力释放:在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南
在大模型推理技术的竞逐中,SGLang 凭借其革命性的 RadixAttention 技术和高效的算子调度机制,正在成为高性能推理的新标杆。特别是在多轮对话和 Agent 智能体场景下,它对 KV Cache(键值缓存)的极致复用能力,使其在吞吐量表现上甚至超越了老牌强者 vLLM。本文将聚焦于国产算力底座——昇腾(Ascend)NPU,基于 GitCode Notebook 最新的Ubuntu +CANN预装镜像,为开发者带来一份“0-Day”级别的极速部署指南。原创 2025-12-26 14:21:52 · 37163 阅读 · 1 评论 -
0-Day 极速响应:基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南
在本次适配过程中,我们遇到了几个典型的“水土不服”问题。这些问题在昇腾开发中非常具有代表性。通过本次实战,我们成功在 GitCode 昇腾 NPU 环境下跑通了 Qwen2.5-7B 这个“0-Day”模型。核心经验沉淀:适配的关键在于“版本对齐”:在异构计算领域,CANN 驱动、torch_npu插件、vLLM 分支版本三者必须严格对应。本次成功的关键在于选对了 CANN 8.0 的基础镜像。显存管理的艺术Atlas 800T的显存管理机制与 GPU 略有不同。原创 2025-12-26 00:22:44 · 26654 阅读 · 0 评论 -
PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南
本文深入解析PyTorch Fully Sharded Data Parallel(FSDP)在昇腾AI处理器上的架构设计、实现原理与性能优化策略。通过对比FSDP1与FSDP2的架构演进,结合昇腾Atlas 800T A2处理器的硬件特性,系统分析。文章包含完整的昇腾环境配置指南、FSDP2迁移实战代码、性能瓶颈诊断方法论以及昇腾平台特有的优化技巧,为千亿参数大模型训练提供了一套完整的分布式训练解决方案。未来随着自适应分片和稀疏训练技术的成熟,昇腾平台有望成为LLM训练的首选基础设施。原创 2025-12-25 23:14:18 · 5726 阅读 · 0 评论 -
昇腾AI处理器混合精度训练利器——apex for Ascend编译与优化全解析
文章包含昇腾硬件特性分析、混合精度训练原理、源码编译实战、常见问题解决方案及性能对比数据,为开发者提供了一套完整的昇腾平台高效训练指南。通过深入分析架构原理、详细编译步骤、高级优化技术和真实场景验证,展示了如何在昇腾平台上实现高效的混合精度训练。,这是对前代架构的重要改进。Atlas 800T A2处理器中,1个AIC(AI Cube)与2个AIV(AI Vector)组成计算Group,实现了。随着昇腾生态的不断发展,apex for Ascend将持续优化,为AI训练提供更高效、更易用的解决方案。原创 2025-12-25 23:12:56 · 5998 阅读 · 1 评论 -
PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南
本文深入解析PyTorch Fully Sharded Data Parallel(FSDP)在昇腾AI处理器上的架构设计、实现原理与性能优化策略。通过对比FSDP1与FSDP2的架构演进,结合昇腾Atlas 800T A2处理器的硬件特性,系统分析梯度分片策略通信优化机制和混合精度训练三大核心技术。文章包含完整的昇腾环境配置指南、FSDP2迁移实战代码、性能瓶颈诊断方法论以及昇腾平台特有的优化技巧,为千亿参数大模型训练提供了一套完整的分布式训练解决方案。原创 2025-12-11 10:15:31 · 1038 阅读 · 1 评论 -
CANN 典型落地案例:构建海量图片智能标签系统
高效的内存管理:通过和,我们实现了 Host(业务层)与 Device(计算层)之间的高效数据流转。极简的推理接口:仅需几行代码,即可调度强大的 NPU 算力,无需关心底层复杂的硬件指令。落地价值:在真实的互联网业务中,这种架构意味着可以用更少的服务器处理更多的用户请求,显著提升了服务的响应速度和经济效益。CANN 不仅是一个开发框架,更是连接上层互联网应用与底层硬件算力的坚实桥梁。原创 2025-11-21 16:31:50 · 38888 阅读 · 0 评论 -
CANN 特性解析:实战 ACLNN 高性能 MatMul 算子
通过以上实操,我们没有使用任何 .om模型,而是从 0 到 1 成功调用了一个高性能的 ACLNN 算子。“ACLNN 算子的性能优化”:我们只调用了。CANN 的图引擎(**GraphEngine)在幕后自动启动,它会检查我们的 NPU 型号,然后从 ACLNN 库中自动选择一个针对该 NPU 优化得最好的** MatMul内核来执行。我们无需关心底层的 TIK C++ 实现,也能 100% “释放硬件潜能”。“ACL接口的资源调度”:就是“资源调度”的核心体现。原创 2025-11-20 00:02:49 · 20395 阅读 · 2 评论 -
玩转 CANN:在 Notebook 中实战 Python 版 ResNet-50
随着 AI 技术的飞速发展,异构计算架构成为推动创新的核心动力。华为 CANN(Compute Architecture for Neural Networks)作为面向 AI 场景的统一架构,为开发者提供了强大的算力支持和高效的开发工具链。本文将紧扣“昇腾应用既玩”的主题,以“保姆级”指南的形式,带领读者在 Jupyter Notebook 环境中,利用acl-python库(AscendCL 的 Python 接口)实战部署一个经典的 ResNet-50 图像分类模型。原创 2025-11-12 21:48:13 · 25472 阅读 · 4 评论 -
质量与性能的基石:CANN算子开发中的调试、测试与验证深度实践
此JSON文件定义了ST要执行的测试场景,包括算子名称、输入输出的Shape、数据类型(DType)等],],CANN算子的开发绝非“一锤子买卖”。本文从“质量保证”的视角出发,详细拆解了从开发初期的孪生调试(GDB与Printf),到中期的功能验证(UT与ST),再到后期的性能验证(msprof)的全链路流程一个高质量的AI算子,是功能正确性、高精度和高性能的结合体。只有建立起这样一套严谨的调试与验证闭环,开发者才能构建出真正健壮、高效、可信赖的AI底层算子库,为上层AI。原创 2025-11-05 14:07:45 · 1096 阅读 · 2 评论 -
CANN算子开发实战:从动态Shape到测试验证的深度解析
CANN算子开发是一个严谨且精密的工程。从应对真实场景需求的动态Shape改造Tiling结构体与核函数解析),到连接框架的Host侧注册InferShapeTilingFunc),再到保证质量的UT/ST测试验证gtestmsopst),最后到追求极致性能的msprof调优,每一步都环环相扣且有“码”可依掌握这一全栈流程,不仅能使开发者在昇腾平台上游刃有余地实现自定义算子,更是深入理解AI硬件架构和高性能计算的必经之路。原创 2025-11-04 23:20:42 · 1155 阅读 · 2 评论
分享