文 / Artsiom Ablavatski 和 Marat Dukhan,软件工程师,Google Research
设备端的神经网络推理能够以一种低延迟和注重隐私的方式,实现如姿势预测和背景模糊等各种实时应用。如通过使用带有 ML 加速库 XNNPACK 的TensorFlow Lite 这样的 ML 推理框架,工程师可以在模型大小、推理速度和预测质量之间找到最佳平衡点,以便模型能适配于各种设备。
-
背景模糊等
https://ai.googleblog.com/2020/10/background-features-in-google-meet.html -
TensorFlow Lite
https://tensorflow.google.cn/lite
优化模型的方法之一是使用稀疏神经网络 (Sparse Neural Networks) [1, 2,3],这些网络中的很大一部分权重值都会设置为 0。通常来说,通过稀疏神经网络得到的模型符合预期质量,因为该过程不仅可以通过压缩减小模型大小,而且还可以省去很大一部分的乘加运算,从而加速推理过程。此外还可以增加模型中的参数数量,然后对其进行稀疏化处理,以匹配原始模型的质量,这同样也是通过加速推理来优化模型。然而该技术在生产过程中的应用仍相当有限,这主要是由于缺乏稀疏化处理热门卷积架构的工具,以及在设备端执行这些操作时缺乏足够的支持。
今天,我们将宣布两件事,首先是发布一组针对 XNNPACK 加速库和 TensorFlow Lite 的新功能,这些功能可以实现稀疏网络的高效推理;其次是发布有关如何稀疏处理神经网络的指南,目的是帮助研究人员在设备端开发自己的稀疏模型。
-
XNNPACK 加速库