TensorFlow移动端应用原理

最新推荐文章于 2025-06-13 01:13:51 发布

转载最新推荐文章于 2025-06-13 01:13:51 发布 · 409 阅读

--TensorFlow移动端专栏收录该内容

2 篇文章

订阅专栏

本文探讨了在资源受限的移动端和嵌入式设备上部署深度学习模型的两种主要方式：云端服务器请求响应和本地模型预测。重点介绍了模型精简、量化、权重剪枝等优化手段，以及如何利用TensorFlow进行模型量化，显著减少模型大小，提高计算效率。

TensorFlow对Android、iOS、树莓派都提供移动端支持。

移动端应用原理。移动端、嵌入式设备应用深度学习方式，一模型运行在云端服务器，向服务器发送请求，接收服务器响应；二在本地运行模型，PC训练模型，放到移动端预测。向服务端请求数据可行性差，移动端资源稀缺。本地运行实时性更好。加速计算，内存空间和速度优化。精简模型，节省内存空间，加快计算速度。加快框架执行速度，优化模型复杂度和每步计算速度。
精简模型，用更低权得精度，量化(quantization)、权重剪枝(weight pruning，剪小权重连接，把所有权值连接低于阈值的从网络移除)。加速框架执行，优化矩阵通用乘法(GEMM)运算，影响卷积层(先数据im2col运行，再GEMM运算)和全连接层。im2col，索引图像块重排列为矩阵列。先将大矩阵重叠划分多个子矩阵，每个子矩阵序列化成向量，得到另一个矩阵。

量化(quantitative)。《How to Quantize Neural Networks with TensorFlow》https://www.tensorflow.org/performance/quantization 。离散化。用比32位浮点数更少空间存储、运行模型，TensorFlow量化实现屏蔽存储、运行细节。神经网络预测，浮点影响速度，量化加快速度，保持较高精度。减小模型文件大小。存储模型用8位整数，加载模型运算转换回32位浮点数。降低预测过程计算资源。神经网络噪声健壮笥强，量化精度损失不会危害整体准确度。训练，反向传播需要计算梯度，不能用低精度格式直接训练。PC训练浮点数模型，转8位，移动端用8位模型预测。
量化示例。GoogleNet模型转8位模型例子。下载训练好GoogleNet模型，http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz 。

bazel build tensorflow/tools/quantization:quantization_graph
bazel-bin/tensorflow/tools/quantization/quantization_graph \
--input=/tmp/classify_image_graph_def.pb \
--output_node_names="softmax" --output=/tmp/quantized_graph.pb \
--mode=eightbit

生成量化后模型大小只有原来的1/4。执行：

bazel build tensorflow/examples/label_image:label_image
bazel-bin/tensorflow/examples/label_image/label_image \
--image=/tmp/cropped_panda.jpg \
--graph=/tmp/quantized_graph.pb \
--labels=/tmp/imagenet_synset_to_human_label_map.txt \
--input_width=299 \
--input_height=299 \
--input_mean=128 \
--input_std=128 \
--input_layer="Mul:0" \
--output_layer="softmax:0"

量化过程实现。预测操作转换成等价8位版本操作实现。原始Relu操作，输入、输出浮点数。量化Relu操作，根据输入浮点数计算最大值、最小值，进入量化(Quantize)操作输入数据转换8位。保证输出层输入数据准确性，需要反量化(Dequantize)操作，权重转回32位精度，保证预测准确性。整个模型前向传播用8位整数支行，最后一层加反量化层，8位转回32位输出层输入。每个量化操作后执行反量化操作。

量化数据表示。浮点数转8位表示，是压缩问题。权重、经过激活函数处理上层输出，是分布在一个范围内的值。量化过程，找出最大值、最小值，将浮点数线性分布，做线性扩展。

优化矩阵乘法运算。谷歌开源小型独立低精度通用矩阵乘法(General Matrix to Matrix Multiplication,GEMM)库 gemmlowp。https://github.com/google/gemmlowp 。