深度神经网络模型与弱硬件(一)——深度神经网络模型压缩与加速
翻译原文:Model Compression and Acceleration for Deep Neural Networks量化是通过减少表示每个权重所需的比特数(the number of bits)来压缩原始网络。文献[6]和 文献[7]对参数值使用 K 均值标量量化。文献[8]表明8-bit量化可以在准确率损失极小的同时实现大幅加速。文献[9]在基于随机修约(stocha...
原创
2018-07-06 19:40:11 ·
6341 阅读 ·
1 评论