- 博客(120)
- 收藏
- 关注
原创 昇腾CANN算子共建仓CANN-Ops正式上线Gitee,首批算子已合入
西北工业大学的徐韬教授及其课题组,将昇腾CANN等专项课程融入教学体系,高校开发者得以直面昇腾处理器优化的实际需求,系统掌握从算法设计到硬件适配的全链条技能,同时高校作为创新人才的摇篮,可推动学术成果转化为产业应用,将研究成果反哺生态,助力中国在深度学习基础领域实现从"跟跑"到"领跑"的跨越。在人工智能技术呈指数级发展的今天,AI创新已走向更底层的算法创新,以DeepSeek为例,通过MoE模型架构和底层算法创新,不仅获取极佳的模型性能,又更大程度释放硬件性能,降低硬件使用成本。
2025-04-01 20:57:21
779
原创 深度学习的分布式训练与集合通信(二)
而后者对应的则是MoE层,它有点像把这个大的全连接层打散成很多可以并行运作的小的全连接单元,每个单元称之为一个专家,通过在训练中对不同专家进行有导向有分工的学习,同时训练一个输入数据进入专家模块之前的路由选择机制,MoE就可以在保证神经网络效果的同时大大减少网络的计算量。上面是从计算并行的角度来说的,如果从存储的角度来看,故事就反过来了——更多的小批次的数据进入流水,意味着从一个数据的产生到消耗之间,更多的与之无关的计算被插入进来,这些计算也会产生需要存储的中间数据。下面来总结下张量并行涉及到的通信方式。
2024-12-12 17:37:09
1020
原创 昇腾CANN 8.0基于LLM P-D分离部署方案发布LLM-DataDist组件:高效低成本,简单易集成
降低LLM推理时延、提升LLM推理集群的吞吐和算力利用率,成为相关AI应用大规模产品化变现的迫切要求。在实际的深度学习模型部署中,考虑到Prefill和Decode两阶段的计算/通信特征的差异特点,为了提升性能和资源利用效率,通过P-D分离部署方案将Prefill和Decode分别部署在不同规格和架构的集群中,并且配合服务层的任务调度,在满足TTFT和TBT指标范围内,结合Continuous batching机制尽可能提高Decode阶段的batch并发数,在提供更好用户体验的前提下,提升算力利用率。
2024-12-02 14:13:41
1563
原创 深度学习的分布式训练与集合通信(一)
其中,一对一的通信模式又被称为点到点通信(Point-to-Point,P2P),涉及到多个计算节点参与的一对多,多对一,和多对多的通信模式则属于集合通信(Collective Communication,CC)操作的范畴。在模型训练之前,有一些准备性工作,如数据预处理,模型选择,损失函数和优化方法的确定,以及超参数的预设等,这里不做详细展开。
2024-11-20 09:27:11
987
原创 Ascend C算子性能优化实用技巧05——API使用优化
对于Matmul得到的结果矩阵C(m, n),若后续需要和GM上的矩阵D(m, n)进行Add操作,则可以在GetTensorC接口或者IterateAll接口的GM通路上,将enAtomic参数设为1,开启AtomicAdd累加操作,在搬出矩阵C到GM时,矩阵C的结果将直接累加到矩阵D的GM地址上,从而实现与矩阵D的Add操作。Counter模式下,只需要设置mask为所有参与计算的元素个数15000,然后直接调用Add指令,即可完成所有计算,不需要繁琐的主尾块计算,代码较为简练。
2024-11-15 14:39:19
1087
原创 文档上新:集合通信用户指南全新发布,欢迎登陆昇腾社区体验~
全新上线《集合通信用户指南》,介绍相关概念与软件架构,提供全量通信原语介绍,帮助了解HCCL基本操作,提供详尽的开发流程、完整代码样例,轻松实现集合通信功能
2024-10-28 10:28:53
516
原创 昇腾CANN 8.0正式发布,多项核心技术引领大模型原生创新
重磅发布CANN 8.0:新版本新增80多个融合算子、100多个Ascend C API,自研NB2.0和NHR集合通信算法并全面适应于超节点方案,基于LLM P-D分离部署方案设计并发布LLMDataDist组件,同时支持图模式能力扩展库TorchAir,提升PyTorch在NPU上的大模型推理性能。
2024-10-18 16:01:46
1038
原创 Ascend C算子性能优化实用技巧04——Tiling优化
什么是Tiling简介Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。使用Ascend C,开发者可以基于昇腾AI硬件,高效的实现自定义的创新算法。目前已经有越来越多的开发者使用Ascend C,我们将通过几期“Ascend C算子性能优化”专题分享,围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优性能的算子。
2024-10-10 17:06:56
1408
原创 昇腾AI异构计算架构CANN——高效使能AI原生创新
描述异构计算与人工智能的关系以及昇腾AI异构计算架构CANN;介绍开发者如何利用CANN的原生能力进行大模型创新,构筑差异化竞争力。
2024-09-23 16:59:51
2200
原创 Ascend C算子性能优化实用技巧03——搬运优化
目前已经有越来越多的开发者使用Ascend C,我们将通过几期“Ascend C算子性能优化”专题分享,围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优性能的算子。由于AI处理器内部设计约束,从GM向Local Memory搬运数据时,保证GM地址512B对齐可以最高效的发挥出带宽的效率。如下图示例,展示了在512B对齐以及32B对齐情况下单核的带宽效率:搬运同等数据量,带宽差距最大的情况,32B对齐场景只能达到512B对齐场景的70%。
2024-09-05 16:12:24
1058
原创 Ascend C算子性能优化实用技巧02——内存优化
算子实现中涉及多次vector计算,且前一次计算输出是后一次计算输入的情况下,可将前一次计算输出暂存在UB(Unified Buffer)上直接作为下一次计算的输入,不需要将前一次的计算输出从UB搬运到GM后再从GM搬运到UB。使用UB Buffer融合方式后,在UB上进行连续vector计算时,前一次的结果可直接作为后一次计算的输入,继续在UB上进行计算,不需要中间的搬进搬出,只需在开始计算时将源操作数搬运到UB,以及全部计算结束后将最终结果从UB搬运到GM,共2次搬进搬出。
2024-08-29 16:59:28
1177
原创 Ascend C算子性能优化实用技巧01——流水优化
围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优性能的算子。
2024-08-27 15:31:09
1438
原创 基于Ascend C的Matmul算子性能优化最佳实践
Matmul算子实现的功能是矩阵乘法,通过Ascend C算子编程语言优化该算子的实现逻辑,可以使其在昇腾AI处理器上获得更优的执行性能。
2024-08-13 16:15:18
1546
原创 一文了解AOL算子加速库
为加速大模型算力释放,昇腾提供AOL(Ascend Operator Library)算子加速库,不仅覆盖Softmax、MatMul等基础算子,也包括了大模型结构泛化的Flash Attention等高性能融合算子,开发者可以直接使用昇腾内置的算子加速库使能大模型创新与应用。
2024-07-25 15:55:22
1038
原创 深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销
在模型为动态shape的情况下,由于输入tensor shape不确定,需要在上一个算子完成shape推导后,才能确定下一个算子的输入shape等信息,因此无法将整个模型下沉执行,只能采用Host调度模式。
2024-07-19 10:45:45
886
原创 深度解读昇腾CANN内存复用技术,降低网络内存占用
GE图引擎基于业界常规的内存优化技术,借助全图视角对内存复用算法进行了更好的寻优处理,同时进行了Topo排序优化降低网络内存理论最小值,从而更有效地降低网络内存占用。
2024-07-12 16:09:06
1199
原创 深度解读昇腾CANN多流并行技术,提高硬件资源利用率
多样化的计算任务以task的形式下发到各硬件资源执行,GE(Graph Engine)图引擎采用多流并行算法,在满足计算图任务内部依赖关系的前提下,支持高效并发执行计算任务,从而大大提高硬件资源利用率和AI计算效率。
2024-07-01 11:07:39
1204
原创 深度解读昇腾CANN计算图优化技术,提升算法计算效率
面向计算图编译和运行优化场景,昇腾AI异构计算架构CANN(Compute Architecture for Neural Networks)开放GE(Graph Engine)图引擎,通过计算图优化、计算图下沉、内存复用和多流水并行等技术可将计算图执行性能提升20%,同时开放图引擎接口支持开发者自定义图结构,获得最优执行性能。
2024-06-28 15:56:37
1552
原创 Ascend C 2.0新特性详解,支撑大模型融合算子高效开发
全新升级的Ascend C 2.0版本将进一步贴近用户大模型场景的开发诉求,带来更易用的开发体验和更强大的算子执行性能。
2024-06-13 15:50:22
1158
1
原创 基于Ascend C的FlashAttention算子性能优化最佳实践
针对FlashAttention反向融合算子的性能优化方案展开介绍,并通过优化实现了典型场景4倍左右的性能提升,希望对开发者优化此类基于Ascend C开发的融合算子带来启发。
2024-06-07 16:15:15
1001
原创 如何基于香橙派AIpro开发AI推理应用
本文介绍了昇腾计算语言AscendCL的基本概念,并以示例代码的形式介绍了如何利用AscendCL开发香橙派AIpro开发板的AI推理应用。
2024-03-19 10:09:14
1336
原创 香橙派AIpro开发板开箱测评
2023年12月,香橙派联合华为发布了基于昇腾的Orange Pi AIpro开发板,提供8/20TOPS澎湃算力,能覆盖生态开发板者的主流应用场景,让用户实践各种创新场景,并为其提供配套的软硬件。香橙派AIpro开发板一经发布便吸引了众多AI创客们的购买和体验,这款开发版到底长什么样?到底有哪些优势?具体开放了哪些外设接口?搭载昇腾AI处理器后跑AI推理性能咋样...
2024-03-11 10:09:10
1311
4
原创 香橙派AIpro外设接口样例大全(附源码)
包括两个HDMI输出、GPIO接口、Type-C电源接口、支持SATA/NVMe SSD 2280的M.2插槽、TF插槽、千兆网口、两个USB3.0、一个USB Type-C 3.0、一个Micro USB、两个MIPI摄像头、一个MIPI屏等,预留电池接口。4. 重启后再次进入HDMI0测试程序所在路径,然后运行test.sh脚本就会播放一张图片到HDMI 显示器(默认显示 10 秒),并且同时会播放一段音频到HDMI显示器,如果HDMI显示器支持播放音频的话,还能听到声音。
2024-03-08 12:01:45
1594
原创 香橙派AIpro快速上手指南
在PC机上,进入香橙派官网,鼠标放置在“服务与下载”菜单,在弹出的菜单中单击“下载”,在下载页面找到“Orange Pi AIpro”,然后单击“Orange Pi AIpro”,进入下载详情页面,分别下载下图中的“官方工具”、“ubuntu镜像”。当开发板通过以太网口和PC连接时,先将PC的IP地址修改为和开发板的IP地址在同一个网段(例如开发板eth1网口为192.168.137.100,PC以太网口为192.168.137.101),再使用SSH工具远程登录开发板。
2024-02-28 10:55:29
1789
原创 Ascend C算子开发常见问题案例
Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,最大化匹配用户开发习惯;通过自动并行计算、孪生调试等关键技术,极大提高算子开发效率,助力AI开发者低成本完成算子开发和模型调优部署。本期分享几个Ascend C算子开发过程中常见问题的典型案例,并给出原因分析及解决方法。
2023-12-29 15:54:08
1276
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人