自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Ascend C与CUDA Tiling策略对比分析 - 洞察异构计算的设计哲学

本文深入剖析昇腾Ascend C与NVIDIA CUDA在Tiling策略上的根本差异,从硬件架构设计哲学出发,系统对比两者在并行模型、内存层次、流水线实现等方面的技术路线。通过完整的向量加法算子实例和性能分析,揭示专用AI芯片与通用GPU在异构计算设计上的不同取舍,为开发者提供架构选型和优化指导。核心洞察🎯没有绝对优劣:只有最适合特定工作负载的选择🔧通用vs专用:CUDA提供灵活性,Ascend C提供确定性高性能📊开发效率权衡:CUDA需要更多调优,Ascend C提供更可预测的性能🚀融合趋势。

2025-12-05 03:25:52 567

原创 使用 Aclnn 接口实现你的第一个自定义算子(以逐元素加法为例)

本文详细介绍了基于Aclnn接口实现逐元素加法算子的全流程开发。通过解析Aclnn调用流程和技术原理,从内核函数实现、接口封装到Pybind集成,构建了完整的算子实现方案。文章提供了开发环境配置、测试验证方法以及企业级优化策略,实测性能较传统实现提升35%。关键内容包括:Aclnn张量抽象、异步执行模型、内存管理优化和PyTorch生态集成,为开发者提供从理论到实践的完整指导。

2025-12-05 03:19:58 505

原创 AsNumpy 的架构设计与 Ascend C 的底层赋能:从 Python 生态到 NPU 原生的高性能计算革命

AsNumpy 的成功,本质上是 Ascend C 编程模型与昇腾硬件架构深度协同的成功。它通过一套精巧的分层架构,将对开发者的友好度(Numpy API)和底层的执行效率(Ascend C Kernel)做到了极佳的平衡。核心价值:它为 Python 数据科学社区提供了一个“零学习成本”​ 的 NPU 加速通道,是推动 AI 计算普惠化的关键一环。未来展望:随着 CANN 的全面开源,AsNumpy 的生态将会更加繁荣。更丰富的算子库:覆盖 SciPy 等更多科学计算场景。与 PyData 生态深度集成。

2025-12-04 23:59:33 307

原创 Ascend C算子开发实战:MoeGatingTopK的Tiling设计与性能优化

本文聚焦MoeGatingTopK算子的Tiling设计与性能优化,深入解析在Ascend C平台上的极致性能调优技巧。通过多层次分块策略DoubleBuffer优化和负载均衡算法,实现算子性能5-8倍提升。文章包含完整的Tiling数据结构设计、核函数实现、性能分析模型,以及企业级部署实战经验,为AI大模型开发者提供可直接复用的优化方案。通过本文的深度技术解析,我们全面掌握了MoeGatingTopK算子的Tiling设计与性能优化精髓。从理论基础到企业级实践,展现了如何通过系统化优化实现极致性能。

2025-12-04 23:57:42 528

原创 模型迁移全流程实战:从PyTorch到Ascend C的异构加速

本文深度剖析PyTorch模型向Ascend C平台迁移的完整技术路径。通过ResNet50、YOLOv3、InternVL3等真实案例,系统讲解模型分析、算子适配、性能优化、精度验证四大关键阶段。重点解析自定义算子开发、内存优化、混合精度训练等核心技术,提供可落地的迁移方案和故障排查指南,帮助开发者实现高效的异构计算加速。// 自定义算子基础框架protected:// 算子属性// 设备内存指针public:// 初始化接口// 计算接口// 资源管理。

2025-12-03 18:45:26 626

原创 Ascend C生态纵览:工具链、社区资源与最佳学习路径

Ascend C生态作为一个快速发展的技术体系,为AI开发者提供了释放昇腾硬件潜力的完整工具链和资源支持。通过系统化学习路径、深度参与社区活动、持续实践优化,开发者能够快速掌握高性能算子开发技能,在AI算力时代建立竞争优势。核心要点回顾工具链成熟度:MindStudio、CANN等工具已形成完整开发闭环学习资源丰富度:从文档、课程到社区支持,资源覆盖全学习周期实践重要性:通过项目驱动学习,结合理论实践是掌握关键讨论问题:在你的Ascend C学习过程中,遇到的最大挑战是什么?是如何克服的?

2025-12-03 18:29:24 592

原创 从CUDA到昇end:Triton算子的跨平台迁移指南

本文系统介绍了Triton算子从CUDA到昇腾NPU的跨平台迁移技术,提出包含硬件抽象层适配、内存模型转换和性能优化的完整迁移框架。通过架构差异分析、接口映射转换和计算资源重平衡等关键技术,实现了迁移成本降低70%、性能损失控制在15%以内的优化目标。文章详细阐述了网格配置迁移算法、内存访问优化策略等核心方法,并提供了生产级迁移框架实现和性能对比测试方案。基于13年异构计算经验,总结了典型迁移问题库和验证方法,实际项目数据显示迁移后算子性能保持率达85%以上。该技术显著提升了开发效率,为异构计算场景下的算子

2025-12-02 23:41:24 1019

原创 昇腾Ascend C高性能算子优化:突破内存墙与计算墙的深度实践

本文系统探讨了AscendC算子性能优化的关键技术路径。通过内存层次优化(分块策略、缓冲区复用、双缓冲技术)和多级并行策略(指令级并行、数据/模型并行),可将算子性能从理论峰值的10%-30%提升至80%以上。文章详细解析了昇腾硬件架构特性,并以矩阵乘法为例展示了从基础实现到优化版本(分块+双缓冲+向量化)的完整演进过程,实测性能提升2.6倍。高级技巧部分涵盖动态形状自适应和混合精度计算等企业级实践,最后提供了性能分析工具指南和常见问题解决方案。优化核心在于最大化数据局部性、充分利用硬件并行性和构建高效流水

2025-12-02 23:11:20 608

原创 超越Pow - Ascend C实现复杂算子(如Reduce、MatMul)的策略

本文系统阐述了AscendC复杂算子的实现策略与优化方法,重点分析了Reduce和MatMul算子的性能瓶颈突破。通过多级并行Reduce算法、分块矩阵乘法等技术,实现了算法与硬件的深度协同优化。文章详细展示了从理论到实践的完整技术路径,包括内存访问优化、计算流水线设计等核心方法。实验数据表明,优化后的算子性能显著提升:Reduce算子加速比达16.89倍,MatMul算子计算性能提升至32.8TFLOPS。文章还探讨了动态负载均衡、自适应优化等高级技巧,并提供了大规模推荐系统的企业级优化案例,验证了技术的

2025-12-01 23:53:14 538

原创 Ascend C量化模式详解:Weight静态量化与Activation动态量化在Matmul中的实践

本文基于CANN量化Matmul开发样例技术文档,深度解析Ascend C中Weight静态量化(Static Quantization)​ 与Activation动态量化(Dynamic Quantization)​ 的协同优化原理。重点探讨两种量化模式在矩阵乘法(Matmul)​ 中的差异化应用、量化粒度(Quantization Granularity)​ 选择、精度损失控制等关键技术。结合素材中NPU硬件架构特性和量化计算优势,详细分析静态量化的推理优化与动态量化的精度保障的平衡策略。

2025-12-01 23:50:10 844

原创 Ascend C 硬件架构抽象:最大化硬件性能的深度优化实践

本文系统阐述了昇腾AI处理器硬件架构与AscendC编程模型的协同优化方法。通过分析达芬奇架构的三级计算单元(Cube/Vector/Scalar)和存储层次特性,提出基于硬件抽象的编程模型,实现开发效率与性能的平衡。重点展示了矩阵乘法算子的四级优化过程:从基础实现到分块优化、流水线并行、双缓冲技术,最终实现312.4GFLOPS(92%硬件利用率)的性能表现。针对企业级应用场景,详细介绍了动态负载均衡、原子操作优化等高级技术,并提供了大模型注意力机制优化的实践案例。文章还包含性能分析工具使用指南和常见问题

2025-11-30 23:52:08 925

原创 逻辑错误的显微镜:Ascend C 算子实现中的边界与精度问题剖析

本文深入剖析AscendC算子开发中的边界条件处理与计算精度保障两大核心挑战。通过系统分析内存对齐、越界访问等边界问题,以及FP16精度损失、累加误差等数值稳定性问题,提供从原理到实践的完整解决方案。文章包含企业级案例研究,如动态分块矩阵乘法优化和高精度Softmax实现,并展望自动化边界检查、自适应精度选择等前沿方向。开发者可获得边界处理清单和精度优化检查表等实用工具,提升算子健壮性。作为昇腾训练营技术干货,本文为AI加速器开发提供关键方法论指导。

2025-11-30 23:48:12 674

原创 【前瞻创想】云原生安全体系演进:从边界防护到内生免疫的变革之路

《云原生安全体系演进与实践》摘要 本文系统阐述了云原生安全的技术演进与实践路径。第一章分析从传统边界防护到云原生内生安全的范式转变,指出容器化、微服务等技术驱动因素。第二章详细解析安全架构设计,包括容器安全、服务网格等核心技术,提供零信任策略等代码示例。第三章通过完整代码案例和分步指南,展示基础设施加固、运行时监控等实战方案。第四章基于金融行业案例,分享企业级实践中的性能优化和故障排查经验。第五章展望AI驱动安全、机密计算等未来趋势。全文贯穿75个技术要点,包含12个可运行代码片段,为构建智能、自动化的云原

2025-11-29 12:08:11 953

原创 【探索实战】边缘计算场景落地实践:基于Kurator构建跨云边缘计算平台

《Kurator边缘计算平台实战指南》摘要 本文系统阐述了基于Kurator构建企业级边缘计算平台的完整方案。作为云边协同计算解决方案,Kurator深度整合KubeEdge、K3s等生态组件,提供统一管控、边缘自治和智能调度三大核心能力。通过分层架构设计实现控制面与数据面分离,支持毫秒级响应、90%带宽优化和离线自治等边缘场景关键需求。实战部分详细演示了从环境部署、节点接入到应用分发的全流程,并针对网络不稳定等挑战提供了多链路容错方案。实测数据显示,该方案可降低80%运维复杂度,提升70%应用分发效率,已

2025-11-29 11:56:23 769

原创 maven用的阿里镜像,下载jar包总是出错,报错找不到证书,仓库中出现lastupdated文件

遇到的问题(踩坑记录,警示自己):运行之前项目的时候项目起不来,pom报错sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target,本地仓库查看出现lastupdated文件。...

2020-04-30 17:19:28 938

原创 获取jar包的artifactId,groupId,version,并手动将jar包安装到maven本地仓库

开发过程中拿到一个jar,需要在项目中引入maven依赖,但是并不知道它的groupId,artifactId,version,没法加入maven依赖。用jna这个jar包举个例子,用反编译软件打开这个jar包(我用的jd-gui),然后得到maven依赖如下:<dependency> <groupId>com.sun.jna</groupId&gt...

2020-02-23 21:53:50 7112

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除