边缘端的光速机器学习推理
1. 引言
在过去十年中,机器学习(ML)应用日益普遍,如自动驾驶、医疗预后、实时语音翻译、网络异常检测以及音频/视频合成等新兴应用不断涌现。这得益于过去十年中复杂而强大的机器学习模型的出现,如深度神经网络(DNNs)和卷积神经网络(CNNs)。更复杂的CNN模型通常需要更深层次、更高连接性的模型,这反过来又增加了训练和部署它们所需的计算能力和内存需求。这种日益增加的复杂性也要求底层硬件平台在满足严格功率要求的同时,持续提供更好的性能。为了实现每瓦的高性能,硬件架构师们设计了用于深度学习的定制加速器,如谷歌的TPU和英特尔的Movidius,它们的每瓦性能远高于CPU和GPU。然而,在资源受限的环境中,如许多嵌入式设备,计算能力、能源消耗和可用内存通常有限,每瓦性能要求仍然是一个挑战。
二值神经网络(BNNs)可以减少DNN和CNN模型的内存和计算需求,同时在精度上与全精度模型具有竞争力。因此,在定制加速器上执行时,它们是解决性能要求挑战的一个可能方案。
探索更高效的硬件加速器平台是降低神经网络处理每瓦性能的另一个潜在解决方案。传统的电子加速器平台在后摩尔时代面临着根本限制,半导体技术缩放带来的高成本和性能提升的逐渐减少,阻碍了未来产品代的显著改进。加速器中的数据移动是这些加速器中众所周知的瓶颈,由于电子互连的带宽和延迟限制,这对可实现的性能和节能造成了限制。
硅光子技术为数据移动瓶颈提供了解决方案,它实现了超高带宽、低延迟和节能的通信。CMOS兼容的光互连已经在几乎每个计算级别取代了金属互连,用于光速数据传输,现在正积极考虑用于芯片级集成。最近的研究工作还表明,使用光学组件也可以有效地进行计算,如矩阵向量乘法。由于芯片级光通信和计算
超级会员免费看
订阅专栏 解锁全文
645

被折叠的 条评论
为什么被折叠?



