三值神经网络

最新推荐文章于 2025-07-24 15:30:34 发布

原创最新推荐文章于 2025-07-24 15:30:34 发布 · 1.9k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#量化

模型压缩专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种基于三值权重{+1,0,-1}

PyTorch 2.9

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

权重压缩：三值神经网络

背景

卷积神经网络（Convolutional Neural Network，CNN）尤其适合于目标识别、分类、检测及图像分割等计算机视觉应用。典型的模型有数百万参数并运算量大；例如，AlexNet有6100万参数（浮点数权值共占用249MB存储空间），分类一张图片需要15亿高精度运算。所以为降低CNN规模和使用资源，现在有模型修剪（model pruning，去掉值较小的权值）和权值压缩（weight compression，利用少数几位量化权值）两种方法。
~~权值压缩：二值神经网络~~

三值神经网络

重要点：网络中的权重更新使用三值{+1,0,-1};并最小化全精度权重W和三值权重W的欧式距离。

原理：

原始问题：设置传播中的权重为三值，用三值的权重逼近全精度权重 $W$ ，三值权重 $W^t$ ;目标： $\alpha W^t$

$KaTeX parse error: No such environment: equation at position 45: …^{t*}= \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \mathop{\a…$
传播过程：

$\begin{cases} Z = X*W \approx X*(\alpha W^t)=(\alpha X) \bigoplus W^t \\ X^{next} = g(Z) \end{cases} \tag{2}$
2. 使用特定阈值来设置权重 $WitW^t_i$ 为 {+1, 0, 1}，寻找一个适当的阈值 $Δ\Delta$ 和 $α\alpha$ 来拟合上述问题；这样用阈值和 $W_i$ 来确定权重 $W^t$ ，简化了计算量；而且使用+1/-1/0更使计算从原先的乘法变成加法（+1/-1直接是本身的加减）；此外 $Δ\Delta$ 和 $α\alpha$ 都是正数。

$W^t_i = f_t(W_i|\Delta) = \begin{cases} +1, if W_i > \Delta \\ 0, if |W_i| \leq \Delta \\ -1, if W_i < -\Delta \\ \end{cases} \tag{3}$
公式1的优化问题化解为如下：

从而 $α,Δ\alpha, \Delta$ 解：
$\alpha_\Delta^* = \frac{1}{|I_\Delta|}(\sum_ {i \in I_\Delta}{|W_i|}) \\ \tag{5}$

$KaTeX parse error: No such environment: equation at position 20: …lta^* = \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \mathop{\arg\m…$

最终确定一个阈值 $Δ\Delta$ 、 $α\alpha$ 来构建三值神经网络；根据W具体的分布情况来确定阈值 $Δ\Delta$ ：

均匀分布:在 $W_i|$ 大于阈值的条件下：$\sum_{i \in I_\Delta}{W_i} $ 约等于均值( $a+Δ2\frac{a+\Delta}{2}$ )*数量( $∣IΔ∣|I_\Delta|$ )

正态分布：

最后本文章作者根据经验：

确定三值网络中的阈值与W期望的关系 $Δ∗/E(∣W∣)\Delta^*/E(|W|)$ ：： $Δ∗=0.7∗E(W)≈0.7n∑i=1n∣Wi∣\Delta^* = 0.7 * E({W}) \approx \frac{0.7}{n} \sum_{i=1}^{n}{|W_i|}$
均值分布： $Δ∗/E(∣W∣)=23≈0.66\Delta^*/E(|W|) = \frac{2}{3} \approx 0.66$ (注 $W$ 在[-a,a]均匀取值，均值为 $E (∣ W ∣) = a / 2$ )
正态分布： $Δ∗/E(∣W∣)=0.6σ2σ/2π≈0.75\Delta^*/E(|W|) = \frac {0.6\sigma} {2\sigma/\sqrt{2\pi}} \approx 0.75$ (注： $E(∣W∣)=2σ/2π)E(|W|)=2\sigma/\sqrt{2\pi} )$