- 博客(5)
- 收藏
- 关注
原创 超越卷积与矩阵乘——用Ascend C解锁昇腾的通用并行计算能力
本文通过位图运算和动态规划两个案例,揭示了Ascend C在通用高性能计算领域的巨大潜力。昇腾AI处理器不应被仅仅视为一个AI加速器,而应被视为一个强大的。
2025-12-14 09:58:34
1621
原创 深入Ascend C:从零实现自定义算子——以稀疏矩阵乘法(SpMM)为例
关键词:Ascend C, 昇腾, 自定义算子, 稀疏矩阵乘法, SpMM, COO格式, 双缓冲, 性能优化1. 引言:为何要关注稀疏计算与自定义算子?随着大模型和推荐系统的普及,模型参数中存在大量冗余(即“0”值),形成了天然的稀疏性。利用这种稀疏性可以显著减少计算量和内存占用,从而加速推理过程。然而,通用的稠密矩阵乘法(GEMM)无法有效利用这种结构。虽然PyTorch、TensorFlow等框架提供了基础的稀疏支持,但在昇腾AI处理器上,这些实现往往未能充分发挥其硬件潜力。
2025-12-14 09:53:50
948
原创 《面向大模型推理的 Ascend C 优化实战:算子融合、内存复用与 Zero-Copy 策略》
本文深入探讨了在大模型推理场景下,如何利用 Ascend C 实现LayerNorm-MatMul-GELU 三算子融合,并通过内存复用和Zero-Copy 策略,显著降低访存开销。实践表明,该方法可带来1.6x 以上的端到端加速,并为更复杂的融合(如 Attention 融合)奠定基础。未来方向支持动态 shape(通过 Runtime Tiling)与 FlashAttention 融合INT8 量化融合。
2025-12-13 00:05:51
715
原创 《Ascend C 算子开发进阶:高效调试、性能剖析与优化实战》
{// ...本文展示了如何利用 Ascend C 的 Cube 接口实现高性能 GEMM,并通过算子融合进一步提升效率。掌握这些技术,你将能为 LLM、CV 等场景定制极致优化的推理引擎。代码仓库2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
2025-12-12 23:56:00
698
原创 《深入 Ascend C:华为昇腾 AI 芯片的高性能算子开发实战指南》
首先,我们需要定义算子的输入输出规范。在 Ascend C 中,使用Kernel// 定义块大小(Block Dim)// AI Core 数量// Kernel 入口函数) {// 获取当前 AI Core ID// 计算每个 Core 处理的数据量// 边界检查// 分配 UB 内存(LocalTensor)// 释放 UB# 定义算子信息info = {# 加载 so 文件# 测试Ascend C 为昇腾芯片提供了接近硬件的编程能力。三段式编程模型。
2025-12-12 23:53:20
860
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅