神经网络后面的层被freeze住，会影响前面的层的梯度吗？

原创已于 2024-03-30 02:09:05 修改 · 1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人工智能 #深度学习

于 2024-03-29 11:39:36 首次发布

博客探讨了神经网络后面的层被freeze住是否会影响前面层的梯度。以简单神经网络为例，分w2.requires_grad为True和False两种情况讨论，得出无论w2是否被freeze，计算w1梯度时只需w2参数值，后面层冻结不影响前面层梯度的结论。

神经网络后面的层被freeze住，会影响前面的层的梯度吗？

答案是不会。

假设一个最简单的神经网络，它只有一个输入 $x$ ，一个隐藏层神经元 $h$ ，和一个输出层神经元 $y$ ，均方差损失 $L$ ，真实标签 $t$ ：

$\begin{gathered} h = w_1 \cdot x \\ y = w_2 \cdot h \\ L=\frac{1}{2}(y-t)^2 \end{gathered}$

以下分 $w_2$ 是否被freeze住，即 $w_2$ .requires_grad是否为True来讨论。

情况1： $w_2$ .requires_grad为True

这种情况下， $L$ 对 $w_1$ 的梯度为：
$\frac{\partial L}{\partial w 1}=\frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w 1}$

$\frac{\partial L}{\partial y}=\frac{\partial}{\partial y}\left(\frac{1}{2}(y-t)^2\right)=y-t$

$\frac{\partial y}{\partial h}=\frac{\partial}{\partial h}\left(w_2 \cdot h\right)=w_2$

$\frac{\partial h}{\partial w_1}=\frac{\partial}{\partial w_1}\left(w_1 \cdot x\right)=x$

因此：
$\frac{\partial L}{\partial w 1}=\frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w 1} = (y-t) \cdot w_2 \cdot x$

情况2： $w_2$ .requires_grad为False

这种情况下， $w_2$ 被视为一个常数，此时 $L$ 对 $w_1$ 的梯度仍然为：
$\frac{\partial L}{\partial w 1}=\frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w 1} = (y-t) \cdot w_2 \cdot x$