20、新兴神经网络的高效硬件加速

新兴神经网络的高效硬件加速

1. 位置前馈网络

位置前馈网络(PFFN)中的矩阵乘法(MATMUL)操作与多头自注意力(MHSA)中的MATMUL有相似的考虑因素。之后会接一个激活函数,较新的Transformer网络(如BERT)使用GeLU激活函数,而原始的Transformer使用ReLU激活函数。在考虑稀疏加速时,这一点很重要,因为GeLU激活函数不会像ReLU那样在输出矩阵中产生稀疏性。

激活函数之后是另一个线性层,其关键维度为 (d_{ff}),通常 (d_{ff} = 4d_{model})。这里有两个大的通用矩阵乘法(GEMM),PFFN中的单个MATMUL比MHSA中的更大。更大的GEMM会消耗更多的总每秒万亿次操作(TOPS)和运行时间,但能使处理单元(PE)阵列保持高利用率。不过,这种高利用率依赖于加载路径为阵列提供足够的数据。较小的GEMM可能会使阵列利用率不足,因为它们只能完全包含在部分PE中。为提高效率,可将不同头的MATMUL映射到PE阵列的不同部分,因为它们之间没有交互。最后,此模块中应用的不同偏置和最终的层归一化与MHSA中的情况类似。

2. 在边缘设备上启用Transformer

与大多数卷积神经网络(CNN)相比,Transformer有大量可学习的参数。例如,ResNet101有170万个参数,而BERT_BASE包含1.1亿个参数,GPT - 3_Large包含7.6亿个参数,这可能限制其在边缘推理应用中的部署。除了能源问题,Transformer的推理延迟对于实时应用来说可能过高。

不过,已有很多研究致力于减少Transformer的计算量和内存需求,主要集中在减少自注意力中的操作数量,因为自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值