20、新兴神经网络的高效硬件加速

最新推荐文章于 2025-12-09 18:12:06 发布

wine

最新推荐文章于 2025-12-09 18:12:06 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏：嵌入式机器学习硬件前沿文章标签：神经网络硬件加速 Transformer

本文链接：https://blog.youkuaiyun.com/wine/article/details/151036773

嵌入式机器学习硬件前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

新兴神经网络的高效硬件加速

1. 位置前馈网络

位置前馈网络（PFFN）中的矩阵乘法（MATMUL）操作与多头自注意力（MHSA）中的MATMUL有相似的考虑因素。之后会接一个激活函数，较新的Transformer网络（如BERT）使用GeLU激活函数，而原始的Transformer使用ReLU激活函数。在考虑稀疏加速时，这一点很重要，因为GeLU激活函数不会像ReLU那样在输出矩阵中产生稀疏性。

激活函数之后是另一个线性层，其关键维度为 (d_{ff})，通常 (d_{ff} = 4d_{model})。这里有两个大的通用矩阵乘法（GEMM），PFFN中的单个MATMUL比MHSA中的更大。更大的GEMM会消耗更多的总每秒万亿次操作（TOPS）和运行时间，但能使处理单元（PE）阵列保持高利用率。不过，这种高利用率依赖于加载路径为阵列提供足够的数据。较小的GEMM可能会使阵列利用率不足，因为它们只能完全包含在部分PE中。为提高效率，可将不同头的MATMUL映射到PE阵列的不同部分，因为它们之间没有交互。最后，此模块中应用的不同偏置和最终的层归一化与MHSA中的情况类似。

2. 在边缘设备上启用Transformer

与大多数卷积神经网络（CNN）相比，Transformer有大量可学习的参数。例如，ResNet101有170万个参数，而BERT_BASE包含1.1亿个参数，GPT - 3_Large包含7.6亿个参数，这可能限制其在边缘推理应用中的部署。除了能源问题，Transformer的推理延迟对于实时应用来说可能过高。

不过，已有很多研究致力于减少Transformer的计算量和内存需求，主要集中在减少自注意力中的操作数量，因为自