神经网络的权重初始化

最新推荐文章于 2024-07-06 16:29:35 发布

HuiYu-Li

最新推荐文章于 2024-07-06 16:29:35 发布

阅读量698

点赞数

CC 4.0 BY-SA版权

分类专栏：日常休闲

本文链接：https://blog.youkuaiyun.com/weixin_44058333/article/details/99684821

日常休闲专栏收录该内容

32 篇文章

订阅专栏

神经网络的权重初始化方法对（weight initialization）对模型的收敛速度和性能有着至关重要的影响。因为，神经网络其实就是对权重参数w的不停迭代更新，以期达到较好的性能。在深度神经网络中，随着层数的增多，我们在梯度下降的过程中，极易出现梯度消失或者梯度爆炸。因此，对权重w的初始化则显得至关重要，一个好的权重初始化虽然不能完全解决梯度消失和梯度爆炸的问题，但是对于处理这两个问题是有很大的帮助的，并且十分有利于模型性能和收敛速度。一般来说，主要有四种权重初始化方法：

初始化为0
随机初始化
Xavier initialization
He initialization
本文主要讨论后两种初始化方法。

Xavier initialization

Xavier initialization是 Glorot 等人为了解决随机初始化的问题提出来的另一种初始化方法，通过尽可能的让输入和输出服从相同的分布来避免后面层的激活函数的输出值趋向于0。初始化方法为：

def initialize_parameters_he(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.

    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    np.random.seed(3)
    parameters = {}
    L = len(layers_dims)  # integer representing the number of layers
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layers_dims[l], layers_dims[l - 1]) * np.sqrt(1 / layers_dims[l - 1])
        parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))
    return parameters

Xavier initialization初始化后，每层激活函数输出值的分布如下图所示：
在这里插入图片描述
可以看出，激活函数输出值仍旧服从标准高斯分布。
这也说明Xavier initialization和tanH 激活函数是良好搭档，但对于目前神经网络中最常用的ReLU激活函数却无能为力,当达到5，6层后几乎又开始趋向于0，更深层的话很明显又会趋向于0。
在这里插入图片描述

He initialization

为了解决上述问题，何恺明提出了一种针对ReLU的初始化方法，一般称作He initialization。初始化方式为：

def initialize_parameters_he(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.

    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    np.random.seed(3)
    parameters = {}
    L = len(layers_dims)  # integer representing the number of layers
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layers_dims[l], layers_dims[l - 1]) * np.sqrt(2 / layers_dims[l - 1])
        parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))
    return parameters