8、边缘深度学习矩阵乘法性能分析与AI基准测试进展-优快云博客

本文链接：https://blog.youkuaiyun.com/gin88/article/details/152754669

边缘深度学习矩阵乘法性能分析与AI基准测试进展

1. AI基准测试的意义与目标

在科学领域，人们致力于确保所有数据集都符合FAIR原则。相关工作组期望支持评估提交，让社区了解不同系统的性能优势。这一举措有望在多个方面造福科学界，比如为特定科学问题轻松选择机器学习算法，或用于教学目的。人们希望MLCommons的综合效应能在AI社区产生重大影响。

2. 边缘深度学习中矩阵乘法的重要性

在物联网场景下，大量设备具有不同的处理器架构，形成了高度异构的环境。深度学习技术在边缘部署，能提升安全性和隐私性、降低终端用户延迟并减少能耗。然而，物联网设备面临计算和内存容量有限、电源供应严格以及有时响应时间受限等问题，因此运行在这些设备上的软件需要精心优化。

通用矩阵 - 矩阵乘法（gemm）是实现卷积深度神经网络（DNNs）和自然语言处理任务中变压器的关键内核。但开发高效的gemm实现是一项耗时的工作，且由于物联网架构设计的异构性，需要具备高性能计算和计算机架构方面的专业知识。

3. 矩阵乘法的分块算法

3.1 基线算法

考虑gemm运算C += AB，矩阵A、B和C的维度分别为m×k、k×n和m×n。当前许多高性能线性代数库中的gemm实现遵循GotoBLAS的思想，采用围绕微内核的五层嵌套循环。具体操作如下：
1. 将B的一个kc×nc块打包到缓冲区Bc，存于L3缓存。
2. 将A的一个mc × kc块打包到缓冲区Ac，存于L2缓存。
3. 在微内核执行期间，Bc的一个特定kc × nr块Br存于L1缓存。
4. 微内核进行所有算术运算，从L2缓存获取Ac数据，