2.8-神经网络基础-模型训练与优化

原创已于 2022-02-12 21:58:57 修改 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#神经网络 #深度学习 #机器学习 #反向传播 #超参数

于 2022-02-08 21:05:25 首次发布

AI基础知识专栏收录该内容

26 篇文章

订阅专栏

本文深入探讨了反向传播算法的工作原理，它是神经网络训练中的关键步骤，用于更新权重以减小预测与实际之间的误差。同时，解释了梯度消失和梯度爆炸现象，这两个问题是深度学习中常见的挑战。为了解决梯度消失，可以采用激活函数优化、权重初始化策略和批量归一化等方法。此外，超参数和参数的区别也在文中提及，超参数是预先设定的，而参数则在模型训练过程中自动学习得到。

1. 如何理解反向传播？解释其作用机制？
2. 请用Python实现MLP的正向和反向传播机制
3. 什么是梯度消失和梯度爆炸？
4. 怎么解决梯度消失问题？
5. 模型的超参数是什么？它和参数有什么不同？

1. 如何理解反向传播？解释其作用机制？

正向传播得到预测值，预测值和真实值存在差异，通过反向传播算法更新各层学到的权重参数。反向传播算法将损失函数的信息沿网络层向后传播用以计算梯度，对各层权重参数进行更新。

2. 请用Python实现MLP的正向和反向传播机制

2. 请用Python实现MLP的正向和反向传播机制，一般面试不会手写这样的代码，但是如果面试官或者面试岗位比较看重底层优化和实现能力就必须会写

3. 什么是梯度消失和梯度爆炸？

在反向传播时，网络层中权重更新梯度数值很小，就是梯度消失；数值很大就是梯度爆炸。梯度消失导致网络更新速率慢，没法学到有效信息；梯度爆炸导致学习崩溃不收敛

导数大于1和小于1的情况，梯度逐层叠加（指数级叠加）就出现了梯度消失和梯度爆炸的问题

4. 怎么解决梯度消失问题？

梯度消失原因：1、BP链式法则求导 2、梯度消失加网络较深

激活函数的选择，网络模型结构的优化（加入残差结构），初始化权重，采用BN层

5. 模型的超参数是什么？它和参数有什么不同？

超参数是人为预设的，参数通过超参数的设定自动学习的得到。

超参数包括网络层数、神经元数、损失函数、激活函数、梯度优化算法等

超参数模型外部配置，不能用数据估计得到；参数可以用数据估计或模型训练得到

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。