- 博客(28)
- 收藏
- 关注
原创 Ascend C算子开发“第一行代码“:从环境配置到Hello World核函数
本文系统介绍了昇腾AI生态中AscendC算子开发的全流程实践指南。主要内容包括:1)技术原理部分详细解析AscendC的NPU编程范式、达芬奇架构内存层次和核心编程模型;2)实战部分从环境配置到完整算子部署,通过向量加法案例展示核函数设计、内存管理和编译流程;3)高级应用部分分享企业级优化经验,包括性能调优、多核负载均衡和混合精度计算;4)提供官方文档索引和学习路径建议。文章包含完整代码示例、性能数据和架构图,为开发者提供从入门到生产的全链路指导,帮助释放NPU硬件潜力。
2025-12-17 23:53:35
794
原创 昇腾NPU架构设计 从抽象硬件模型到物理实现
昇腾NPU(Neural Processing Unit)作为华为自研的AI加速器,其架构设计体现了"软件定义硬件"与"硬件加速软件"的双向协同哲学。本文基于我十三年的芯片设计经验,深度解构昇腾达芬奇架构从抽象硬件模型到物理实现的完整技术栈。我们将揭示AI Core内部的Cube计算单元如何通过脉动阵列实现矩阵计算的硬件化,多级存储体系如何打破冯·诺依曼瓶颈,以及指令调度系统如何实现计算与搬运的完美重叠。文章包含一个完整的Ascend C内存管理示例。
2025-12-17 23:48:04
737
原创 昇腾CANN性能剖析实战 - 从工具使用到深度优化
本文系统阐述了昇腾CANN性能剖析工具链的核心技术与实践方法。通过分层数据采集架构实现低开销高精度性能监测,重点分析了计算/内存瓶颈识别、流水线效率优化等关键技术。实战案例显示,采用系统化性能剖析可使算子优化效率提升300%,硬件利用率从45%提升至85%以上。文章详细介绍了从环境配置、数据采集到深度分析的完整流程,并提供了内存分块优化、双缓冲技术等具体优化策略。最后提出建立自动化性能测试框架和持续优化文化的建议,为开发者提供了一套完整的性能剖析与优化体系。
2025-12-14 18:52:13
607
原创 昇腾CANN从架构原理到性能优化的实战指南
本文深入解析华为昇腾CANN异构计算架构的技术原理与应用实践。重点剖析达芬奇架构的三维立方计算范式、CANN软件栈分层设计及AscendC编程模型,详细阐述三级流水线与双缓冲技术实现3-5倍计算效率提升、算子融合优化降低40%内存开销等核心技术。通过ResNet-50优化实例和性能分析数据,展示CANN在矩阵运算(92%计算效率)和注意力机制等场景的实际表现。文章提供从环境配置、算子开发到故障排查的完整指南,并分享大规模推荐系统优化(延迟降低60%)和大模型推理(加速3.2倍)等企业级案例,为开发者提供系统
2025-12-14 18:48:19
934
原创 从MlaProlog看CANN算子开发基础设施 - ops-transformer仓深度指南
本文深入探讨了华为CANN算子开发技术体系,聚焦MlaProlog融合算子与ops-transformer开发实践。主要内容包括:1)剖析CANN分层架构与AscendC编程模型,详解三段式流水线开发范式;2)提供完整的注意力机制算子实现,涵盖环境配置、调试技巧到性能优化全流程;3)分享企业级部署经验,展示分布式训练优化方案与显著性能提升数据(吞吐量提升140%);4)展望自动生成算子等前沿技术方向。文章为开发者提供了昇腾平台算子开发的系统方法论和实践指南,特别适合需要深入理解AI加速器底层优化的技术人员参
2025-12-11 05:20:59
958
原创 解构MlaProlog:一个CV融合算子的设计哲学与实现范式
本文深入解析昇腾CANN框架中的MlaProlog融合算子设计,重点探讨了其创新的三级流水线架构与硬件感知优化策略。该算子通过计算-存储平衡设计、Cube/Vector单元协同计算及智能分块算法,在昇腾达芬奇架构上实现了94%的计算利用率,相比传统实现性能提升3.4倍。文章详细阐述了从算子融合理念、流水线编排到企业级部署的全流程技术方案,并提供了故障排查指南。研究显示,MlaProlog在阿里巴巴推荐系统中展现出优秀的可扩展性,其设计范式对AI加速器算子开发具有重要参考价值。
2025-12-11 05:03:15
936
原创 Ascend C与TensorFlow集成实战 - 自定义算子的模型部署与性能优化
本文深入探讨了AscendC自定义算子与TensorFlow框架的集成与部署全流程,构建了从底层算子开发到上层模型部署的完整技术栈。主要内容包括:1)AscendC与TensorFlow的集成架构设计;2)TensorFlow自定义算子开发机制;3)完整的AscendC Sigmoid算子集成实现方案;4)性能优化与测试分析;5)企业级部署实践;6)故障排查与调试技巧。通过具体案例展示了如何实现3-10倍的性能提升,并提供了混合精度训练支持等高级优化技术。文章包含6个架构图、可复用代码模板和性能对比数据,为
2025-12-08 06:15:26
1014
原创 Ascend C与AI框架的深度融合 - TBE接口与自定义算子封装实践
本文深入探讨了AscendC算子与主流AI框架(PyTorch、TensorFlow、MindSpore)的全链路集成技术。文章系统解析了TBE接口封装原理,详细介绍了自定义算子的框架注册、内存管理、计算图优化等核心机制,并提供了完整的融合算子实现示例。通过性能对比数据和架构图,展示了如何将底层硬件算力转化为框架级性能提升。关键创新点包括:统一内存管理策略降低30%内存开销、算子融合技术提升1.5-2.3倍计算效率、动态形状适配实现生产级部署。文章为企业级AI应用提供了从算子开发到框架集成的完整解决方案,为
2025-12-08 06:07:49
1009
原创 Ascend C算子开发全景图 - 两种核心路径深度对比与选型指南
本文深度解析了昇腾CANN算子开发的两种核心模式:快速开发模式与算子工程模式。快速开发模式通过高层API实现快速算法验证,适合非性能关键算子;算子工程模式则通过精细控制数据流和计算流水线获得极致性能,适合核心瓶颈算子。文章通过代码示例和性能数据对比,提出了四象限选型法,并分享了企业级项目中的混合策略实战经验。最后展望了AI编译优化和DSL等未来技术趋势,为开发者提供了从入门到精通的完整技术路径。
2025-12-07 23:29:06
708
原创 Ascend C自定义Tiling参数解析 - 打造自适应算子
摘要 本文深入解析了AscendC中自定义Tiling机制的核心原理与实践方法。Tiling作为NPU算子开发的"命门",通过将大数据分块处理以适应芯片存储限制,显著提升计算效率。文章从静态与动态Tiling的对比入手,详细剖析了架构设计理念、核心算法实现和性能权衡。 重点内容包括: 动态Tiling结构体设计与Host-Device协作机制 实战案例:构建支持动态Shape的TopK算子 性能优化技巧与企业级应用经验 常见问题排查方法与前瞻性思考 文章不仅提供完整代码框架,更强调&qu
2025-12-05 03:09:57
662
原创 初识 Aclnn - 新一代 Ascend C 算子接口的设计哲学与核心概念
摘要:Aclnn是昇腾CANN软件栈推出的新一代算子接口范式,采用张量优先设计理念,提供类似PyTorch的编程体验。相比传统接口,Aclnn通过统一抽象、显式流管理和类型安全参数传递,显著提升开发效率和性能。实测显示,Aclnn可减少40%样板代码,并获得26%性能提升。其核心优势包括:1)自然的张量操作接口;2)自动内存管理;3)与PyTorch生态对齐;4)智能内核调度机制。Aclnn特别适用于大规模AI训练系统,已在金融风控等场景中验证了其价值,使训练速度提升23%,调试时间减少40%。
2025-12-05 03:04:42
672
原创 昇腾CANN与AsNumpy 数据科学计算范式的百倍重构之路
摘要:本文深入解析基于华为昇腾CANN架构的高性能科学计算库AsNumpy,揭示其从传统CPU到NPU的计算范式变革。通过AscendC编程模型,AsNumpy在张量运算规模突破临界点时实现百倍加速,核心在于智能内存管理、高效算子调度及硬件级优化。文章详细拆解其架构设计,包括NPUArray双缓冲机制、AscendC内核实现原理,并通过图像卷积实例展示实际应用。同时探讨企业级优化策略,展望AI原生科学计算的未来趋势,为开发者提供从入门到进阶的完整指南。(149字)
2025-12-04 23:58:30
762
原创 昇腾Ascend C实战:手撕MoeGatingTopK融合算子与MoE架构性能狂飙
摘要: 本文系统剖析了MoeGatingTopK融合算子在混合专家模型(MoE)中的核心作用,涵盖数学原理、AscendC实现及企业级部署全流程。作为CANN生态关键组件,该算子通过硬件协同优化(如DoubleBuffer、分块并行)实现专家路由的高效计算,支持万亿参数模型的低延迟推理。重点解析了TopK算法优化(O(n+klogk)复杂度)、负载均衡策略及分布式容错机制,并结合实战案例展示2048专家模型在1024节点集群中的优化成果(吞吐量2.1Mtokens/s,P99延迟15.3ms)。未来技术将向
2025-12-04 23:52:59
882
原创 Atlas 300I/V Pro加速卡架构解析 - 从硬件基础到模型迁移实践
本文深入剖析Atlas300I/VPro AI加速卡在大模型训练中的实战应用。作者基于InternVL3千亿参数模型迁移经验,从硬件架构特性(达芬奇架构、内存层次)到模型移植关键步骤(梯度分片、混合精度训练),再到算子性能优化(内存对齐、向量化计算)进行了全面讲解。文章包含完整的矩阵乘示例代码、性能调优技巧(单卡78%利用率提升)以及企业级案例数据(训练时间从12.5s优化至2.3s)。特别强调故障排查方法(OOM处理、多卡同步)和开发工具链使用建议,为AI开发者提供从入门到精通的实战指南。最后展望自动化算
2025-12-03 17:51:57
1018
原创 Triton-Ascend性能测试工具解析:从Profiler到Benchmark的完整指南
本文深入探讨了昇腾NPU生态下的性能优化方法论,重点介绍了torch_npu.profiler工具和科学Benchmark设计两大核心技术。通过真实案例剖析,揭示了性能测试中常见的"自嗨"陷阱,并提供了从微观算子优化到宏观系统调优的全套解决方案。文章详细讲解了如何利用三层数据关联的Profiler精准定位瓶颈,以及设计工业级Benchmark的黄金法则,包括预热策略、多形状覆盖和延迟分布分析。最后分享了企业级大模型推理优化实战经验,强调数据驱动的性能调优理念,为开发者构建了一套可复现的性
2025-12-03 17:28:19
772
原创 Ascend C Kernel架构设计:从Cube Basic到异构计算单元任务分配
本文深度解析AscendC Kernel架构设计核心技术,探讨NPU异构计算架构(Cube/Vector/Scalar单元)的任务分配策略与优化方法。通过代码实例展示从基础Cube编程到复杂异构计算的演进路径,分析如何提升计算单元利用率至85%+、优化内存带宽40%。文章包含架构设计哲学、数学模型、流水线优化等关键技术,并提供了性能对比数据(异构架构性能可达基础版的3.8倍)。最后展望AI驱动优化、跨平台架构等未来方向,为开发者提供从硬件特性理解到实战优化的完整指导。
2025-12-02 00:13:35
992
原创 Ascend C与TBE(Tensor Boost Engine)的对比与选型指南
本文系统对比Ascend C与 两种昇腾算子开发范式,提供完整的技术选型方法论。从编程模型性能特性开发效率生态支持等维度深度分析,结合真实的MatMul算子双实现案例展示具体差异。包含基于企业级项目数据的量化对比、选型决策树迁移路径指南,为不同场景提供精准的技术选型建议。特别针对性能敏感型应用与快速开发场景提供差异化解决方案。基于大量项目经验,我总结出四大选型原则性能需求导向原则:>20 TFLOPS或<10ms延迟优先Ascend C团队能力匹配原则:专家团队用Ascend C,中级团队用TBE。
2025-12-01 23:59:21
564
原创 Ascend C 编程模型解析:任务与数据流模型的深度实践
摘要:本文系统解析昇腾AscendC编程模型的任务并行与数据流驱动机制,通过Vector编程、矩阵计算和融合算子三大实战案例,深入讲解TPipe、TQue等核心抽象的设计原理与工程实现。文章包含完整代码示例、性能数据集及架构图,展示如何通过数据流模型将AICore利用率提升至85%以上,实现3-5倍的性能增益。重点剖析了三级流水线并行、数据流驱动执行等关键技术,并提供了企业级融合算子开发经验与优化技巧,为开发者提供从理论到实践的全链路指导。
2025-11-30 23:31:35
617
原创 昇腾硬件架构与Triton编程模型的完美融合:计算单元与内存层次优化
本文深入探讨昇腾AI处理器达芬奇架构与Triton编程模型的高效融合机制。重点解析Cube/Vector/Scalar三级计算单元的特性和内存层次结构优化策略,通过完整的矩阵乘法和卷积算子实战,展示如何充分发挥硬件潜力。文章包含大量性能对比数据和优化案例,为开发者提供从理论到实践的完整指南。基于大量实战经验,总结出昇腾硬件优化的黄金法则🎯 计算单元匹配:根据计算类型选择最优的计算单元🚀 内存层次优化:充分利用缓存层次,减少数据移动⚡ 负载均衡:确保三级计算单元均衡利用📊 数据驱动调优:基于性能数据持续
2025-11-30 23:26:31
637
原创 【探索实战】性能调优指南:大规模Fleet环境下Kurator核心组件的优化实践
本文基于笔者在大型互联网公司管理超百个Kubernetes集群的实战经验,深度解析Kurator在大规模Fleet环境下的性能优化实践。文章从性能瓶颈分析入手,通过真实监控数据揭示控制平面、etcd、网络组件的性能特性,提供完整的优化方法论和实操指南。重点涵盖Kurator控制平面的资源调配、Karmada调度器算法优化、多集群网络性能调优等核心技术要点。实测数据表明,优化后单Fleet支持集群数从50个提升至200个,API响应延迟降低70%,为超大规模云原生平台建设提供经过生产验证的解决方案。
2025-11-29 01:41:36
733
原创 【前瞻创想】安全左移:基于Kurator构建内生安全的分布式云原生供应链
本文摘要: Kurator云原生安全架构通过"安全左移"理念,构建了覆盖CI/CD流水线、镜像构建、策略治理等全链路的内生安全体系。其核心创新包括:1)基于零信任原则的多层防护机制;2)可信镜像签名与软件物料清单生成;3)统一策略引擎支持百集群规模管理。实践表明,该方案可将漏洞拦截率提升至98%,修复时间缩短至4小时,同时满足金融等行业的严格合规要求。未来将结合AI增强检测、机密计算等技术,持续完善云原生安全防御能力。
2025-11-29 00:00:08
918
原创 我在Kurator社区参与的第一次线上Meetup分享:从贡献者到技术布道者的蜕变
摘要:本文记录了作者作为Kurator社区贡献者首次线上Meetup的技术分享经历。围绕"多集群网络优化实践"主题,详细解析了Kurator的联邦网络架构设计、智能流量调度算法及性能优化方案,通过真实测试数据展示了40%的性能提升。文章包含完整的技术实现代码和架构图,并分享了技术演讲准备、社区互动等实践经验。本次分享吸引300+开发者参与,获得社区高度认可,为作者后续成为Maintainer奠定了基础,同时推动了多个企业用户采纳该优化方案,促进了社区贡献增长和技术方案演进。
2025-11-28 23:58:03
6385
原创 Ascend C 编程模型初探:从概念到Hello World的硬核实践指南
架构理解:深入AI Core存储层次和计算单元核函数设计:掌握核函数编写规范和最佳实践性能优化:双缓冲、向量化、流水线等关键技术调试排查:企业级问题的系统化解决方法昇腾训练营简介:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。报名链接期待在训练营的硬核世界里,与你相遇!
2025-11-26 23:59:14
696
原创 Rust 异步运行时原理:从 Future 到 Waker 再到 Executor
回调 (Callbacks):(Node.js 早期) 逻辑分散,难以跟踪,导致“回调地狱”。协程 (Goroutines):(Go 语言) M:N 调度,有栈协程,易于使用但内存开销大(~2KB 起步),且依赖运行时。:(JavaScript) 链式调用,解决了回调地狱,但前仍显繁琐。:无栈协程,Future只是一个状态机,内存开销极小小(几十字节),不依赖特定运行时。Taskasyncait:编译为实现了FutureTrait 的状态机。:异步的核心,Executor 通过轮询来驱动。
2025-10-30 16:46:20
286
原创 Rust 密码学实践:使用 ring 和 rustls 构建安全信道
OpenSSL 作为事实上的 TLS 标准库,在过去几十年中暴露出许多严重的安全漏洞(如“心脏滴血” Heartbleed)。C语言:缺乏内存安全,易导致缓冲区溢出。代码陈旧:代码库庞大且复杂,难以审计。API 危险:API 设计易用错,导致安全隐患。ring:提供了安全、高性能的底层层加密原语(哈希、签名、加密),API 设计简洁且难以误用。rustls:纯 Rust 实现的 TLS库,性能媲美 OpenSSL,但提供了内存安全保证。安全性。
2025-10-30 16:40:57
651
原创 Rust 在云原生中的应用:使用 `kube-rs 构建 Kubernetes Operator
本文探讨了使用Rust语言(kube-rs库)开发Kubernetes Operator的最佳实践。Operator作为云原生自动化运维的核心模式,通过自定义资源(CRD)和调谐循环(Reconcile Loop)实现应用管理。Rust凭借其高性能(无GC)、高可靠性和出色的类型系统,相比Go语言在资源占用(5-10MB vs 60-100MB)和错误预防方面具有显著优势。文章详细解析了kube-rs的核心组件,并通过构建Echo Operator的实战案例,演示了从CRD定义、调谐逻辑实现到Pod模板创建
2025-10-30 16:25:27
625
原创 Rust FFI 深度实践:cxx 库与 C++ 的安全桥接
本文探讨了Rust与C++交互的安全解决方案cxx库。传统的unsafe FFI需手动处理类布局、异常和内存管理,存在安全隐患。cxx通过编译时代码生成和静态检查,提供类型安全的内存管理,支持双向零成本交互。实战演示了如何构建Rust调用C++类方法及C++回调Rust函数的完整流程。性能测试显示cxx在处理复杂类型时甚至优于手动FFI转换。该方案在保证安全性的同时,实现了近乎零开销的跨语言互操作,为Rust与C++的集成提供了更优选择。
2025-10-30 16:14:14
956
原创 Rust 游戏开发实战:Bevy 引擎的 ECS 架构与 2D 游戏构建
Bevy 是一个用 Rust 编写的、数据驱动、简单易用的游戏引擎。它以其快速的编译时间和现代的实体组件系统(Entity Component System, ECS)架构而闻名。本文将深入剖析 ECS 模式为何适合游戏开发,讲解 Bevy 引擎的核心概念(App, Plugin, System, Component, Entity),并实战构建一个完整的 2D 游戏(如“贪吃蛇”)。通过本文,读者将理解 Bevy 的设计哲学,并掌握使用 Rust 进行游戏开发的基础。
2025-10-30 16:06:42
835
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅