兴趣最重要。3.0-优快云博客

原创超越卷积与矩阵乘——用Ascend C解锁昇腾的通用并行计算能力

本文通过位图运算和动态规划两个案例，揭示了Ascend C在通用高性能计算领域的巨大潜力。昇腾AI处理器不应被仅仅视为一个AI加速器，而应被视为一个强大的。

2025-12-14 09:58:34 1621

原创深入Ascend C：从零实现自定义算子——以稀疏矩阵乘法（SpMM）为例

关键词：Ascend C, 昇腾, 自定义算子, 稀疏矩阵乘法, SpMM, COO格式, 双缓冲, 性能优化1. 引言：为何要关注稀疏计算与自定义算子？随着大模型和推荐系统的普及，模型参数中存在大量冗余（即“0”值），形成了天然的稀疏性。利用这种稀疏性可以显著减少计算量和内存占用，从而加速推理过程。然而，通用的稠密矩阵乘法（GEMM）无法有效利用这种结构。虽然PyTorch、TensorFlow等框架提供了基础的稀疏支持，但在昇腾AI处理器上，这些实现往往未能充分发挥其硬件潜力。

2025-12-14 09:53:50 948

原创《面向大模型推理的 Ascend C 优化实战：算子融合、内存复用与 Zero-Copy 策略》

本文深入探讨了在大模型推理场景下，如何利用 Ascend C 实现LayerNorm-MatMul-GELU 三算子融合，并通过内存复用和Zero-Copy 策略，显著降低访存开销。实践表明，该方法可带来1.6x 以上的端到端加速，并为更复杂的融合（如 Attention 融合）奠定基础。未来方向支持动态 shape（通过 Runtime Tiling）与 FlashAttention 融合INT8 量化融合。

2025-12-13 00:05:51 715

原创《Ascend C 算子开发进阶：高效调试、性能剖析与优化实战》

{// ...本文展示了如何利用 Ascend C 的 Cube 接口实现高性能 GEMM，并通过算子融合进一步提升效率。掌握这些技术，你将能为 LLM、CV 等场景定制极致优化的推理引擎。代码仓库2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。

2025-12-12 23:56:00 698

原创《深入 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战指南》

首先，我们需要定义算子的输入输出规范。在 Ascend C 中，使用Kernel// 定义块大小（Block Dim）// AI Core 数量// Kernel 入口函数) {// 获取当前 AI Core ID// 计算每个 Core 处理的数据量// 边界检查// 分配 UB 内存（LocalTensor）// 释放 UB# 定义算子信息info = {# 加载 so 文件# 测试Ascend C 为昇腾芯片提供了接近硬件的编程能力。三段式编程模型。

2025-12-12 23:53:20 860

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 超越卷积与矩阵乘——用Ascend C解锁昇腾的通用并行计算能力

原创 深入Ascend C：从零实现自定义算子——以稀疏矩阵乘法（SpMM）为例

原创 《面向大模型推理的 Ascend C 优化实战：算子融合、内存复用与 Zero-Copy 策略》

原创 《Ascend C 算子开发进阶：高效调试、性能剖析与优化实战》

原创 《深入 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战指南》

空空如也

空空如也

原创超越卷积与矩阵乘——用Ascend C解锁昇腾的通用并行计算能力

原创深入Ascend C：从零实现自定义算子——以稀疏矩阵乘法（SpMM）为例

原创《面向大模型推理的 Ascend C 优化实战：算子融合、内存复用与 Zero-Copy 策略》

原创《Ascend C 算子开发进阶：高效调试、性能剖析与优化实战》

原创《深入 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战指南》