1 Introduction
深层神经网络(DNN)已经在包括计算机视觉和语音识别在内的几个应用领域显示出显着的改进。在计算机视觉中,称为卷积神经网络(CNN)的特定类型的DNN已经证明了在目标识别[1,2,3,4]和检测[5,6,7] 中最先进的结果。
卷积神经网络显示出可以在现实世界应用的物体识别和检测的可靠结果。与最近的识别进展同步,在虚拟现实(Oculus的VR)[8],增强现实(HoloLens的AR)[9]和智能可穿戴设备中已经发生了有趣的进步。把这两件事放在一起,我们认为这是在智能便携式设备上装备最先进识别系统的正确时机。然而,CNN-Based识别系统需要大量的内存和计算能力。虽然它们在昂贵的基于GPU的机器上表现良好,但它们通常不适用于像手机和嵌入式电子设备这样的小型设备。
例如,AlexNet [1]具有61M参数(249MB内存)并执行1.5B高精度操作来分类一个图像。对于较深的CNN,例如VGG [2](见4.1节),这些数字甚至更高。这些模型快速超过了诸如手机之类的小型设备的有限存储,电池电量和计算能力。
在本文中,我们介绍通过二值化权重,甚至CNN的中间表示,来实现简单,高效,准确的CNN近似。我们的二值化方法旨在使用二值操作找到卷积的最佳近似。我们证明了我们的二值化神经网络的方法可以产生与标准全精度网络相当的ImageNet分类精度值,同时显着减少内存和浮点运算的需求。
我们研究两个近似:具有二值化权重的神经网络和XNOR Networks。在二值化权重网络中,所有权重值都用二值近似。具有二值化权重的CNN显着小于具有单精度权重值的等效网络(〜32×)。另外,当权重值是二值时,仅通过加法和减法来估计卷积运算(不需要乘法),从而导致〜2倍的加速。二值化权重近似的大型CNN可以适应甚至小型便携式设备的存储器,同时保持相同的精度水平(见第4.1和4.2节)。