新兴神经网络的高效硬件加速
1. 位置前馈网络
位置前馈网络(PFFN)中的矩阵乘法(MATMUL)操作与多头自注意力(MHSA)中的MATMUL有相似的考虑因素。之后会接一个激活函数,较新的Transformer网络(如BERT)使用GeLU激活函数,而原始的Transformer使用ReLU激活函数。在考虑稀疏加速时,这一点很重要,因为GeLU激活函数不会像ReLU那样在输出矩阵中产生稀疏性。
激活函数之后是另一个线性层,其关键维度为 (d_{ff}),通常 (d_{ff} = 4d_{model})。这里有两个大的通用矩阵乘法(GEMM),PFFN中的单个MATMUL比MHSA中的更大。更大的GEMM会消耗更多的总每秒万亿次操作(TOPS)和运行时间,但能使处理单元(PE)阵列保持高利用率。不过,这种高利用率依赖于加载路径为阵列提供足够的数据。较小的GEMM可能会使阵列利用率不足,因为它们只能完全包含在部分PE中。为提高效率,可将不同头的MATMUL映射到PE阵列的不同部分,因为它们之间没有交互。最后,此模块中应用的不同偏置和最终的层归一化与MHSA中的情况类似。
2. 在边缘设备上启用Transformer
与大多数卷积神经网络(CNN)相比,Transformer有大量可学习的参数。例如,ResNet101有170万个参数,而BERT_BASE包含1.1亿个参数,GPT - 3_Large包含7.6亿个参数,这可能限制其在边缘推理应用中的部署。除了能源问题,Transformer的推理延迟对于实时应用来说可能过高。
不过,已有很多研究致力于减少Transformer的计算量和内存需求,主要集中在减少自注意力中的操作数量,因为自
超级会员免费看
订阅专栏 解锁全文
2493

被折叠的 条评论
为什么被折叠?



