边缘深度学习矩阵乘法性能分析与AI基准测试进展
1. AI基准测试的意义与目标
在科学领域,人们致力于确保所有数据集都符合FAIR原则。相关工作组期望支持评估提交,让社区了解不同系统的性能优势。这一举措有望在多个方面造福科学界,比如为特定科学问题轻松选择机器学习算法,或用于教学目的。人们希望MLCommons的综合效应能在AI社区产生重大影响。
2. 边缘深度学习中矩阵乘法的重要性
在物联网场景下,大量设备具有不同的处理器架构,形成了高度异构的环境。深度学习技术在边缘部署,能提升安全性和隐私性、降低终端用户延迟并减少能耗。然而,物联网设备面临计算和内存容量有限、电源供应严格以及有时响应时间受限等问题,因此运行在这些设备上的软件需要精心优化。
通用矩阵 - 矩阵乘法(gemm)是实现卷积深度神经网络(DNNs)和自然语言处理任务中变压器的关键内核。但开发高效的gemm实现是一项耗时的工作,且由于物联网架构设计的异构性,需要具备高性能计算和计算机架构方面的专业知识。
3. 矩阵乘法的分块算法
3.1 基线算法
考虑gemm运算C += AB,矩阵A、B和C的维度分别为m×k、k×n和m×n。当前许多高性能线性代数库中的gemm实现遵循GotoBLAS的思想,采用围绕微内核的五层嵌套循环。具体操作如下:
1. 将B的一个kc×nc块打包到缓冲区Bc,存于L3缓存。
2. 将A的一个mc × kc块打包到缓冲区Ac,存于L2缓存。
3. 在微内核执行期间,Bc的一个特定kc × nr块Br存于L1缓存。
4. 微内核进行所有算术运算,从L2缓存获取Ac数据,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



