吴恩达机器学习(第十章)---神经网络的反向传播算法

本文深入解析了反向传播算法的工作原理及其在梯度下降中的应用,阐述了如何通过计算误差来调整神经网络权重,确保模型训练的准确性,并介绍了梯度检验和随机初始化的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、简介

 

我们在执行梯度下降的时候,需要求得J(θ)的导数,反向传播算法就是求该导数的方法。正向传播,是从输入层从左向右传播至输出层;反向传播就是从输出层,算出误差从右向左逐层计算误差,注意:第一层不计算,因为第一层是输入层,没有误差。

二、如何计算

\delta^l_j为第l层,第j个的误差。

以上图为例,\delta^4_j=a^4_j-y_j(y理想应该得到的结果,a是计算得到的激活项)

 \delta^3_j=(\theta^{(3)})^T\delta^4_j.*g'(z^3) -----g'(z^3)=a^3.*(1-a^3)           

\delta^2_j=(\theta^{(2)})^T\delta^3_j.*g'(z^2)-----g'(z^2)=a^2.*(1-a^2)

\frac{\partial }{\partial \theta^{l}_{ij}}=a^l_{i}\delta^{(l+1)}_{j}(忽略正则项)

计算过程

三、梯度检验

用斜率的计算方法来检验梯度下降进行的是否正确

\frac{d}{d\theta}J(\theta)=\frac{J(\theta+\varepsilon )-J(\theta-\varepsilon )}{2\varepsilon }

拓展可得 \frac{d}{d\theta_j}J(\Theta)=\frac{J(\theta_1...+\theta_j+\varepsilon+...+\theta_n )-J(\theta_1...+\theta_j-\varepsilon +...+\theta_n)}{2\varepsilon }(当j取1的时候,第一个θ_1就不存在,取n也一样)。

如果\frac{d}{d\theta}J(\theta)\approx \frac{\partial}{\partial \theta}J(\theta)说明梯度下降执行正确。

四、随机初始化

在初始化θ的时候,对θ向量要随机初始化,不能直接全部初始化为0。

   最近开通了一个公众号,里面会分享一些机器学习,深度学习,推荐系统的学习笔记和相关知识,同时也会分享一些面经,感兴趣的小伙伴可以关注一下,十分感谢,比心

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值