8、边缘深度学习矩阵乘法性能分析与AI基准测试进展

边缘深度学习矩阵乘法性能分析与AI基准测试进展

1. AI基准测试的意义与目标

在科学领域,人们致力于确保所有数据集都符合FAIR原则。相关工作组期望支持评估提交,让社区了解不同系统的性能优势。这一举措有望在多个方面造福科学界,比如为特定科学问题轻松选择机器学习算法,或用于教学目的。人们希望MLCommons的综合效应能在AI社区产生重大影响。

2. 边缘深度学习中矩阵乘法的重要性

在物联网场景下,大量设备具有不同的处理器架构,形成了高度异构的环境。深度学习技术在边缘部署,能提升安全性和隐私性、降低终端用户延迟并减少能耗。然而,物联网设备面临计算和内存容量有限、电源供应严格以及有时响应时间受限等问题,因此运行在这些设备上的软件需要精心优化。

通用矩阵 - 矩阵乘法(gemm)是实现卷积深度神经网络(DNNs)和自然语言处理任务中变压器的关键内核。但开发高效的gemm实现是一项耗时的工作,且由于物联网架构设计的异构性,需要具备高性能计算和计算机架构方面的专业知识。

3. 矩阵乘法的分块算法
3.1 基线算法

考虑gemm运算C += AB,矩阵A、B和C的维度分别为m×k、k×n和m×n。当前许多高性能线性代数库中的gemm实现遵循GotoBLAS的思想,采用围绕微内核的五层嵌套循环。具体操作如下:
1. 将B的一个kc×nc块打包到缓冲区Bc,存于L3缓存。
2. 将A的一个mc × kc块打包到缓冲区Ac,存于L2缓存。
3. 在微内核执行期间,Bc的一个特定kc × nr块Br存于L1缓存。
4. 微内核进行所有算术运算,从L2缓存获取Ac数据,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值