NN中BP推导及w不能初始化为0

最新推荐文章于 2022-06-15 15:57:34 发布

weixin_34315665

最新推荐文章于 2022-06-15 15:57:34 发布

阅读量124

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/BlueBlueSea/p/10435096.html

本文探讨了神经网络中权重初始化的重要性，解释了为何权重不能初始化为零，而是需要随机初始化的原因。通过深入浅出的方式，文章阐述了随机初始化如何避免梯度消失和爆炸问题，确保训练过程更稳定。

转自:为什么w不能初始化为0，而是要随机初始化？https://zhuanlan.zhihu.com/p/27190255

通俗理解BP.https://zhuanlan.zhihu.com/p/24801814

很容易就看明白！学习了！

转载于:https://www.cnblogs.com/BlueBlueSea/p/10435096.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34315665

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python深度学习实践：优化神经网络的权重初始化策略

AI天才研究院

07-23

942

Python深度学习实践：优化神经网络的权重初始化策略作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来在

深度学习模型的参数W为什么不能初始化为0？

weixin_43905181的博客

11-13

2094

都是学习过程中的个人理解，会涉及有点复杂的数学思路，并且没有辅以方便理解的实例，可能解释得不是那么清楚。首先，深度学习中的求导过程，是当给定模型之后，给定W和b之后，通过loss = δ(y), y = σ(W, b)给出的，对损失函数结果进行求导的结果而结果是W和b各自的梯度。所以实际上“自变量”是W, b，希望W和b都按着自己的梯度走一小步，这样可以使得loss逐渐靠近最小（不是严格的loss总梯度靠近，而是以每个自变量的偏导数近似靠近）。如果举一个简单的例子，模型只存在一个隐层

参与评论您还未登录，请先登录后发表或查看评论

踩过的坑

春天

09-24

580

目录1. loss不变，learn nothing2. ner任务，预测标签全部为0 1. loss不变，learn nothing 我的模型没有学到任何东西，不是我的模型太垃圾，而是我太垃圾了，在数据预处理阶段没有仔细检查，导致我的输入的embedding全为零。 Input nothing，learn nothing。 ——春天 2. ner任务，预测标签全部为0 也就是没有识别出任何一个实体，模型给所有的词都搭上了“O”的标签。原因可能是输入的embedding矩阵太过稀疏。正在寻找原因。 .

深度学习 | (6) 关于神经网络参数初始化为全0的思考

sdu_hao的博客

03-07

6139

原文地址为什么神经网络参数不能全部初始化为全0？最近试了一个小实验，发现当神经网络参数全部初始化为全0的时候（这样最省力嘛），效果并不好，后来和请教了ybb并且网上查阅了一些资料，记录一下自己的笔记和总结，欢迎大家指错交流~ 假设我们现在需要初始化的神经网络如下所示：我们初始化权值为：其中W1代表输入层到隐藏层的权值矩阵，W2代表隐藏层到输出层的权值矩阵。假设网络的输入为[x1,x2...

【文本特征表征（1）】什么是embedding（把物体编码为一个低维稠密向量）pytorch中nn.Embedding原理及使用，大模型的LMAS.Embedding原理及使用

Hali_Botebie的博客

06-15

1万+

使embedding空前流行的“word2vec”到了深度学习时代，我们一定会首先想到 2013 年的 Word2Vec——没错，句子是由词构成的，有了词向量，句子向量自然而然呼之欲出了。直觉看，直接对每个词的向量拼接、求和、逐元素相乘、取平均值或最大值，得到的向量都可以表示为句子向量。当然，这里面也有一些花样，比如加权重求和：权重可以根据词性、句法结构等设定一个固定值，然后对每个位置的词向量乘权重再求和；权重也可以根据输入向量来，输出向量的_每个元素_都根据输入元素向量进行加权求和。

权重初始化方法

qq_32172681的博客

09-26

2306

在深度学习中，神经网络的权重初始化方法对（weight initialization）对模型的收敛速度和性能有着至关重要的影响。说白了，神经网络其实就是对权重参数w的不停迭代更新，以期达到较好的性能。在深度神经网络中，随着层数的增多，我们在梯度下降的过程中，极易出现梯度消失或者梯度爆炸。因此，对权重w的初始化则显得至关重要，一个好的权重初始化虽然不能完全解决梯度消失和梯度爆炸的问题，但是对于处理这...

推导CNN中的BP误差反向传播算法

青衫憶笙

07-11

2084

实际上就是一个：梯度下降反向传播更新如果熟知高数和懂最优化的梯度下降理论，可以直接跳到四一、反向传播的由来在我们开始DL的研究之前，需要把ANN—人工神经元网络以及bp算法做一个简单解释。输入层/输入神经元，输出层/输出神经元，隐层/隐层神经元，权值，偏置，激活函数接下来我们需要知道ANN是怎么训练的，假设ANN网络已经搭建好了，在所有应用问题中（不管是网络结构，...

BP神经网络和CNN公式推导

Pbw_666的博客

04-18

939

CNN理论基础 CNN基本结构图一 CNN基本结构 CNN卷积神经网络的构成，主要由输入层，卷积层，池化层，全连接层，输出层等。（1）输入层：计算机将输入层理解为若干矩阵。在数据输入前，通常需要进行预处理操作，1.是为了防止输入数据单位不一样，网络收敛较慢。2.如果所选的激活函数有值域限制，必须将网络训练的目标数据映射到激活函数值域。进行数据预处理的方式 1.去均值（将输入数据的各个维度中心化到0）将数据的每一维特征都减去平均值。在numpy 中 X -= np.mean(X, axis = 0)

深度学习基础知识（一）--- 权重初始化

朝花&夕拾

12-01

6065

1、为什么需要权重初始化？ ① 为了使神经网络在合理的时间内收敛 ② 为了尽量避免在深度神经网络的正向（前向）传播过程中层激活函数的输出梯度出现爆炸或消失。 2、如何进行初始化？ ①如果将每个隐藏单元的参数都初始化为0 那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭...

【python】三层BP神经网络推导&MNIST&优化效果对比&损失函数对比

四轩茶屋

10-14

1902

一、概述本文的推导参见西瓜书P102~P103，代码参见该网址。主要实现了利用三层神经网络进行手写数字的识别。二、理论推导 1、参数定义三层神经网络只有一层隐藏层。参数如下： x 输入层输入 v 输入层与隐藏层间的权值 α 隐藏层输入 b 隐藏层输出 ...

为什么神经网络参数不能全部初始化为全0？

qq_15505637的博客

02-24

2万+

假设我们现在需要初始化的神经网络如下所示：我们初始化权值为其中W1代表输入层到隐藏层的权值矩阵，W2代表隐藏层到输出层的权值矩阵。假设网络的输入为[x1,x2,x3]，然后通过网络的正向传播，可以得出：由于我们可以知道:从上面可以知道，此时隐藏层的值是相同的，然后经过激活函数f后，得到的a4,a5仍然是相同的，如下：最终网络的输出为：此时，假设我们的真实输出为y,则均方误差损失函数可以表示为：到了...

NN权重初始值及其对各层激活值分布的影响，权值衰减

wulimmya的博客

08-21

1760

NN中每一个Affine层的权重参数的初始值是非常重要的，甚至会影响学习是否成功。但幸好我们已经有很多前辈总结出了比较好的初始值，以及判定一组初始值是否可以取得好的学习效果的方法。权值衰减有一种抑制过拟合，提高泛化能力的技术，叫做权值衰减，weight decay，它的目的是减小NN的权重参数。但是虽然较小权值参数可以获得好的学习效果避免过拟合，我们却不可以把权重的初始值设置为0！！！这...

【初始化为0为啥不行】深度学习为啥不能初始化为0以及初始化为0的各种情况表现

weixin_44224198的博客

11-21

2166

定义神经网络首先，针对一个四层的神经网络如下图，不同情况下进行0初始化； 1、权重w和偏差b全部初始化为0 如果权重w和偏差b全部被初始化为0，则first hidden layer到output layer第一次计算全部为0；然后，再进行权重和偏差使用梯度下降算法更新时，因为q为0，所以权重更新时变化量为0，但是偏差有所变化，而且每个偏差都不同，再次进行计算时所有层的输出结果理论上不再为0...

todotodo

皮皮blog

09-22

5780

-柚子皮-from:-柚子皮-ref:

神经网络权值为什么不能初始化为零（1）

weixin_30617695的博客

05-08

865

逻辑回归和神经网络权重初始化为0的问题

qq_38383549的博客

11-11

6321

神经网络的权重w 的不同代表输入的向量有不同的特征，即权重越大的特征越重要，比如在人脸识别中，人脸的属性有眼睛，鼻子，嘴巴，眉毛，其中眼睛更能够影响人脸的识别，所以我们给与眼睛更大的权重。如果将权重初始化全为0，那么隐藏层的各个神经元的结果都是一样的，从而正向传播的结果是一样的，反向传播求得的梯度也是一样的，也就是说不管经过多少次迭代，更新的w(i)是相同的，这样就判断不了哪个特征比较重要了。 ...

torch.nn.Embedding使用详解

最新发布

08-31

<think> 首先，用户要求查找BP算法的代码和公式，参考了三个引用：[^1], [^2], [^3]。这些引用提供了关于BP算法推导、介绍和Python实现的信息。我的响应需要遵循系统级指令： - 所有行内数学表达式使用$...$格式。 - 独立公式使用$$...$$格式并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 在回答中引用的段落末尾自然地添加引用标识，如[^1]。用户上一次的问题和我之前的上下文：用户提到了BP算法推导公式和代码，以及一些引用。我的回答应该基于这些引用提供BP算法的代码和公式。关键点从引用中提取： - [^1]：讨论了BP算法的推导，强调公式的重要性。 - [^2]：提供了BP算法的介绍和Python代码实现。 - [^3]：涉及神经网络BP算法公式推导，包括训练集的表示。 BP算法（Backpropagation）是用于训练神经网络的算法，包括前向传播和反向传播步骤。结构清晰的回答： 1. **介绍BP算法**：简要解释什么是BP算法及其目的。 2. **公式推导**：提供BP算法的关键公式，使用正确的LaTeX格式。 3. **代码实现**：提供一个简单的Python代码示例，基于引用[^2]。 4. **相关问题**：最后生成相关问题。确保回答真实可靠： - 基于标准神经网络知识。 - 参考提供的引用。 **公式推导**： BP算法涉及损失函数、权重更新等。常见的公式包括： - 损失函数梯度。 - 反向传播公式。从[^3]中，有训练集表示为$D = \{ (\vec{x}_1, \vec{y}_1), \ldots, (\vec{x}_m, \vec{y}_m) \}$。标准BP公式： - 前向传播：每个神经元的输出。 - 反向传播：计算梯度。简化公式：设神经网络有输入层、隐藏层、输出层。 - 对于输出层神经元$j$，误差$\delta_j = (y_j - o_j) f'(net_j)$，其中$net_j$是净输入，$f$是激活函数。 - 对于隐藏层神经元$h$，$\delta_h = f'(net_h) \sum_{j} w_{jh} \delta_j$。 - 权重更新：$\Delta w_{ij} = -\eta \delta_j o_i$，其中$\eta$是学习率。 **代码实现**：基于[^2]，提供一个简单的Python实现。假设有一个简单的神经网络，比如两层网络。代码框架： - 初始化权重。 - 前向传播计算输出。 - 计算误差。 - 反向传播更新权重。 **相关问题生成**：在回答末尾添加相关问题，类似示例。完整响应结构： 1. **引言**：解释BP算法。 2. **公式推导**：使用独立公式块。 3. **代码示例**：提供Python代码。 4. **相关问题**：列出2-3个问题。 </think> ### BP算法代码及公式详解 BP算法（Backpropagation Algorithm）是训练神经网络的核心方法，通过前向传播计算输出、反向传播更新权重来最小化预测误差。以下是基于您的引用资料（特别是引用[^1]中的推导公式和引用[^2]中的代码实现）的一个完整、简洁的解析。我会先介绍BP算法的核心公式，再提供一个Python代码示例。所有公式均使用LaTeX格式，确保语法正确：行内公式用$...$，独立公式用$$...$$单独成段。 #### 1. **BP算法公式推导** BP算法基于梯度下降优化，关键步骤包括前向传播、误差计算和反向权重更新。参考引用[^3]，考虑一个训练集 $D = \{ (\vec{x}_1, \vec{y}_1), (\vec{x}_2, \vec{y}_2), \ldots, (\vec{x}_m, \vec{y}_m) \}$（共 $m$ 个样本）。假设一个简单的两层神经网络（输入层、隐藏层和输出层），使用Sigmoid激活函数 $f(x) = \frac{1}{1 + e^{-x}}$（其导数为 $f'(x) = f(x)(1 - f(x))$）。 - **前向传播公式**：计算每个神经元的输出。设输入层神经元 $i$ 的输出为 $o_i = x_i$，隐藏层神经元 $h$ 的净输入 $net_h = \sum_{i} w_{ih} o_i + b_h$，输出 $o_h = f(net_h)$。输出层神经元 $j$ 的净输入 $net_j = \sum_{h} w_{hj} o_h + b_j$，最终输出 $o_j = f(net_j)$。损失函数通常用均方误差（MSE）： $$ E = \frac{1}{2} \sum_{j} (y_j - o_j)^2 $$ 其中 $y_j$ 是真实值，$o_j$ 是预测值[^1][^3]。 - **反向传播公式**：计算梯度并更新权重。输出层误差 $\delta_j$ 和隐藏层误差 $\delta_h$： $$ \delta_j = (y_j - o_j) f'(net_j) \quad \text{where} \quad f'(net_j) = o_j (1 - o_j) $$ $$ \delta_h = f'(net_h) \sum_{j} w_{hj} \delta_j \quad \text{where} \quad f'(net_h) = o_h (1 - o_h) $$ 权重更新规则（学习率 $\eta$）： $$ \Delta w_{hj} = -\eta \delta_j o_h, \quad \Delta w_{ih} = -\eta \delta_h o_i $$ 偏置更新：$\Delta b_j = -\eta \delta_j$, $\Delta b_h = -\eta \delta_h$[^1][^3]。这些公式确保误差从输出层反向传播到输入层，逐步优化权重。 #### 2. **BP算法Python代码实现** 参考引用[^2]，我实现了一个简单神经网络的BP算法代码。网络结构：输入层（2个神经元）、隐藏层（3个神经元）、输出层（1个神经元）。使用Sigmoid激活函数，并假设训练数据为异或问题（XOR）以简化演示。代码包括初始化、前向传播、反向传播和权重更新。 ```python import numpy as np class NeuralNetwork: def __init__(self, input_size, hidden_size, output_size): # 初始化权重和偏置 self.weights_ih = np.random.randn(input_size, hidden_size) * 0.1 self.weights_ho = np.random.randn(hidden_size, output_size) * 0.1 self.bias_h = np.zeros((1, hidden_size)) self.bias_o = np.zeros((1, output_size)) self.learning_rate = 0.1 def sigmoid(self, x): return 1 / (1 + np.exp(-x)) def sigmoid_derivative(self, x): return x * (1 - x) def forward(self, inputs): # 前向传播 self.hidden_input = np.dot(inputs, self.weights_ih) + self.bias_h self.hidden_output = self.sigmoid(self.hidden_input) self.output_input = np.dot(self.hidden_output, self.weights_ho) + self.bias_o self.output = self.sigmoid(self.output_input) return self.output def backward(self, inputs, targets): # 反向传播：计算误差并更新权重 output_error = targets - self.output output_delta = output_error * self.sigmoid_derivative(self.output) hidden_error = np.dot(output_delta, self.weights_ho.T) hidden_delta = hidden_error * self.sigmoid_derivative(self.hidden_output) # 更新权重和偏置 self.weights_ho += self.learning_rate * np.dot(self.hidden_output.T, output_delta) self.weights_ih += self.learning_rate * np.dot(inputs.T, hidden_delta) self.bias_o += self.learning_rate * np.sum(output_delta, axis=0, keepdims=True) self.bias_h += self.learning_rate * np.sum(hidden_delta, axis=0, keepdims=True) def train(self, inputs, targets, epochs=10000): # 训练神经网络 for epoch in range(epochs): self.forward(inputs) self.backward(inputs, targets) if epoch % 1000 == 0: loss = np.mean(0.5 * (targets - self.output) ** 2) print(f"Epoch {epoch}, Loss: {loss:.6f}") # 示例：训练异或问题 (XOR) if __name__ == "__main__": # 输入数据：[[0,0], [0,1], [1,0], [1,1]]，目标：[[0], [1], [1], [0]] X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]]) y = np.array([[0], [1], [1], [0]]) nn = NeuralNetwork(input_size=2, hidden_size=3, output_size=1) nn.train(X, y, epochs=10000) # 测试预测 print("\nPredictions after training:") for x in X: pred = nn.forward(np.array([x])) print(f"Input: {x}, Output: {pred[0][0]:.4f}") ``` **代码说明**： - **初始化**：权重随机小值初始化，避免梯度消失；偏置初始化为零。 - **前向传播**：依次计算隐藏层和输出层的输出。 - **反向传播**：计算输出层误差 $\delta_j$ 和隐藏层误差 $\delta_h$，应用梯度下降更新权重（学习率设为0.1）。 - **训练循环**：迭代训练，每1000次打印损失值（基于MSE）。 - **示例应用**：解决异或问题（XOR），演示网络如何学习非线性关系。运行后，输出应接近目标值[0,1,1,0]。此代码基于标准BP算法实现，高效且易于扩展[^2]。实际项目中，您可以调整网络结构（如添加更多层）或优化学习率。 ###