自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 超越卷积与矩阵乘——用Ascend C解锁昇腾的通用并行计算能力

本文通过位图运算和动态规划两个案例,揭示了Ascend C在通用高性能计算领域的巨大潜力。昇腾AI处理器不应被仅仅视为一个AI加速器,而应被视为一个强大的。

2025-12-14 09:58:34 1621

原创 深入Ascend C:从零实现自定义算子——以稀疏矩阵乘法(SpMM)为例

关键词:Ascend C, 昇腾, 自定义算子, 稀疏矩阵乘法, SpMM, COO格式, 双缓冲, 性能优化1. 引言:为何要关注稀疏计算与自定义算子?随着大模型和推荐系统的普及,模型参数中存在大量冗余(即“0”值),形成了天然的稀疏性。利用这种稀疏性可以显著减少计算量和内存占用,从而加速推理过程。然而,通用的稠密矩阵乘法(GEMM)无法有效利用这种结构。虽然PyTorch、TensorFlow等框架提供了基础的稀疏支持,但在昇腾AI处理器上,这些实现往往未能充分发挥其硬件潜力。

2025-12-14 09:53:50 948

原创 《面向大模型推理的 Ascend C 优化实战:算子融合、内存复用与 Zero-Copy 策略》

本文深入探讨了在大模型推理场景下,如何利用 Ascend C 实现LayerNorm-MatMul-GELU 三算子融合,并通过内存复用和Zero-Copy 策略,显著降低访存开销。实践表明,该方法可带来1.6x 以上的端到端加速,并为更复杂的融合(如 Attention 融合)奠定基础。未来方向支持动态 shape(通过 Runtime Tiling)与 FlashAttention 融合INT8 量化融合。

2025-12-13 00:05:51 715

原创 《Ascend C 算子开发进阶:高效调试、性能剖析与优化实战》

{// ...本文展示了如何利用 Ascend C 的 Cube 接口实现高性能 GEMM,并通过算子融合进一步提升效率。掌握这些技术,你将能为 LLM、CV 等场景定制极致优化的推理引擎。代码仓库2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。

2025-12-12 23:56:00 698

原创 《深入 Ascend C:华为昇腾 AI 芯片的高性能算子开发实战指南》

首先,我们需要定义算子的输入输出规范。在 Ascend C 中,使用Kernel// 定义块大小(Block Dim)// AI Core 数量// Kernel 入口函数) {// 获取当前 AI Core ID// 计算每个 Core 处理的数据量// 边界检查// 分配 UB 内存(LocalTensor)// 释放 UB# 定义算子信息info = {# 加载 so 文件# 测试Ascend C 为昇腾芯片提供了接近硬件的编程能力。三段式编程模型。

2025-12-12 23:53:20 860

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除