机器学习--学习笔记（三）--神经网络

最新推荐文章于 2024-11-12 22:26:47 发布

原创最新推荐文章于 2024-11-12 22:26:47 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #神经网络

机器学习专栏收录该内容

11 篇文章

订阅专栏

本文介绍了神经网络的基础知识，包括模型结构、前向传播预测和后向传播训练算法。通过实例解析了神经网络的预测计算过程，并详细阐述了后向传播中误差的计算和权重更新规则。最后提到了梯度检查的重要性，确保训练过程的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.神经网络模型

神经网络由一个输入层、输出层以及一个或多个隐藏层组成，模型图如下所示。

图1

其中，Layer1为输入层，Layer2为隐藏层，Layer3为输出层。

2.预测：前向传播算法

如果把输入层设为第1层，则第1层隐藏层为第2层，以此类推至输出层。层与层之间的连线具有权重值，设第i层到第i+1层的权重值向量为θ⁽ⁱ⁾，a⁽ⁱ⁾为代表第i层各个单元值的向量，取z⁽ⁱ⁾= θ⁽ⁱ⁾*a⁽ⁱ⁾，则a⁽ⁱ⁺¹⁾=g(z⁽ⁱ⁾)，其中a₀⁽ⁱ⁾=1，我们称之“bias 变量”；g(z)是sigmoid function, 其公式为g(z)=1/(1+exp(−z))。最后可以根据模型对输入数据做预测。以图1所示模型为例，计算公式如下：

3.训练：后向传播算法

取损失函数如下：

其中y⁽ⁱ⁾是数据集中第i个样本的类别向量，例如数据集共有3个类别，则y⁽ⁱ⁾=[1, 0, 0]^T或[0, 1, 0]^T或[0, 0, 1]^T ，分别表示对应样本的类别为第1、2、3类。

取δ_j^(l)=第l层第j个单元的错误值，则对于每一层的错误值计算方法如下（以含2个隐藏层的神经网络模型为例）:

对于输出层

δ⁽⁴⁾=a⁽⁴⁾-y

对于隐藏层

δ⁽³⁾=（θ^（³^））^Tδ⁽⁴⁾.*g^’(z⁽³⁾)

δ⁽²⁾=（θ^（2^））^Tδ⁽³⁾.*g^’(z⁽²⁾)

输入层没有所谓“错误值”，所以不需要计算δ⁽¹⁾。其中，g^’(z⁽ⁱ⁾)=a⁽³⁾.*（1- a⁽³⁾）。计算出δ后，按以下步骤可以求出。

① 设Δ_ij^(l)=0（对所有l,i,j）

② 对i=1到m（m为训练样本数）：

设a^（¹^）=x⁽ⁱ⁾

使用前向传播算法对l=2,3,…,L求a^(l)

③ 用前面介绍的方法计算各层的错误值

④ 取Δ_ij^(l)=Δ_ij^(l)+a_j^(l)δ_i^(l+1)

⑤ D_ij^（^l^）=（1/m）*Δ_ij^(l)+λθ_ij^(l) if j ≠ 0

D_ij^（^l^）=（1/m）*Δ_ij^(l) if j = 0

⑥ 取

最后，我们取θ_ij^(l)=θ_ij^(l)– α*∑_i=1^m∑_j=1^m，重复上述前向传播、后向传播过程直至损失函数满足终止条件，这样我们就完成了神经网络模型的训练过程。

4.梯度检查

为了保证正确计算了，我们可以使用以下方法对其进行检验：

取极小量ε，用（J（θ_ij^（^l^）+ε）-J（θ_ij^(l)-ε）） / （2*ε）作为的近似量，比较训练过程求得的与近似量是否真的近似，如果相差太大说明训练过程有误，如果近似则记得训练时使用训练过程所得值，而不是近似量，原因之一是近似量的计算效率不如前者高。

注1：初始化θ时，应该随机初始化，从而保证θ^（^l^）不由同一个值构成，因为可以证明的是由同一个值构成的θ^(l)会导致第l层的单元之间（除了“bias单元”）是一致的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。