Repeat the Wheel of Deep Neural Networks - DNN造轮记 (3)

最新推荐文章于 2025-08-06 20:18:28 发布

原创最新推荐文章于 2025-08-06 20:18:28 发布 · 186 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#dnn #神经网络

本文介绍了深度神经网络（DNN）的正则化技术，包括L1和L2范数以及dropout方法。L1范数涉及权重绝对值之和，而L2范数涉及权重平方和。dropout是一种更常见的正则化策略，通过在训练过程中随机忽略部分神经元来防止过拟合。正向传播时，dropout层会根据保留概率选择性地激活节点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提要

Regularization

Regularization的目标是防止过拟合（overfitting）。在logic regression中，最常见的方法是L2 Normalization。在神经网络中，L2方法不是那么常见，我们经常采用的是dropout。

L1 ／ L2 Norm

所谓L1，是指用所有weights（不包含bias）的绝对值之和最为惩罚函数。所谓L2，是指用所有weights的平方和作为惩罚函数。下面以L2 Normalization为例。

J L 2 = J o r i g i n + λ \sum l, i, j w 2 l, i, j \partial J L 2 \partial w l , i , j = \partial J o r i g i n \partial w l , i , j + 2 λ w l, i, j

$J_{L2} = J_{origin} + \lambda \sum_{l, i, j}{w_{l,i,j}^2} \\ \frac{\partial J_{L2}}{\partial w_{l, i, j}} = \frac{\partial J_{origin}}{\partial w_{l, i, j}} + 2 \lambda w_{l, i, j}$
通过合理的选择

λ $\lambda$ ，可以有效的限制模型的复杂度（避免出现过大的权重），从而达到避免过拟合的效果。

dropout

Dropout是一种更新更常用的Regularization方法。Dropout的意思是在选定层中，每个mini-batch随机的把一部分节点屏蔽掉，使其不参与运算。一般我们会给定一个Keep probability（ $p_k$ ），从而控制有多少的节点被屏蔽掉。

Dropout layer的正向运算如下

S = X \times W + b Y = f (X) \circ M p k

$S = X \times W + b\\ Y = f(X) \circ \frac{M}{p_k} \\$
其中，

M $M$ 是一个跟

Y $Y$ 具有相同形状的

{0,1} $\{0,1\}$ 矩阵，其中

1 $1$ 的比例为

pk $p_k$

d S = d Y \circ M \circ f' (X) d X = d S \times w T

$dS = dY \circ M \circ f'(X)\\ dX = dS \times w^T$
由于dropout的目的在于降低训练阶段的过拟合，所以在inference的过程中我们只需要将

pk $p_k$ 设为

1就可以关闭dropout。

代码

class dropout_layer(object):
    def __init__(self, cfg=dict()):
        self.cfg = cfg

    def forward(self, x):
        return self.dropout_vector(x, ff=True)

    def backward(self, x, gy):
        return self.dropout_vector(gy, ff=False)

    def dropout_vector(self, x_, ff=True):
        if self.cfg['keep_prob'] == 1:
            return x_
        x = np.copy(x_)
        if ff:
            self.dropmask = np.random.rand(*x.shape) < self.cfg['keep_prob']
        x *= self.dropmask.astype('int') / self.cfg['keep_prob']
        return x