使用近似DRAM实现高效能、高性能的深度神经网络推理
1. 引言
深度神经网络(DNNs)在计算机视觉、语音识别和医学等领域是一种有效的解决方案。在需要低能耗和实时响应的边缘设备场景中,DNNs及其各种变体(如卷积神经网络、Transformer)得到了广泛应用。然而,DNNs的高计算和内存需求使得满足这些能耗和性能要求变得困难。
近年来,神经网络成为了许多加速器和专注于DNN的架构的研究对象。一些工作致力于构建专门的架构,以实现高效的计算调度和数据流来执行DNNs。虽然加速器效率的提升、DNN优化的GPU内核以及旨在有效利用指令集扩展的库,提高了DNN评估的计算效率,但提高DNN评估的内存效率仍然是一个持续的挑战。随着机器学习社区倾向于使用更大、更具表达能力的神经网络,我们预计片外内存问题将成为DNN评估的瓶颈。
近期近似内存研究的重点是缓解片外DRAM在神经网络工作负载中的两个主要问题:能耗和延迟。一方面,DRAM能耗高,此前关于DNN加速器的研究表明,系统能耗的30% - 80%被DRAM消耗;另一方面,DRAM延迟高,未命中最后一级缓存(LLC)的加载或存储操作,其处理时间可能是L1缓存命中的100倍。
为了克服DRAM的能耗和延迟问题,近期的工作主要采用了三种方法:
1. 一些工作通过降低数字位宽、重用模型权重和其他算法策略来减少DNN工作负载的内存需求。
2. 其他工作提出了新的DRAM设计,这些设计比商用DRAM具有更低的能耗和延迟。
3. 一些工作提出了内存内处理方法,可减少数据移动,并以更低的延迟和能耗访问数据。
本文讨论了一种与现有工作不同的方法:定制现有DRAM芯片的主要操作参数(如电压、
超级会员免费看
订阅专栏 解锁全文
1046

被折叠的 条评论
为什么被折叠?



