深度学习记录笔记-初始化，正则化，梯度检验

hlhwna

于 2023-03-26 21:15:19 发布

阅读量118

点赞数

CC 4.0 BY-SA版权

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hlhwna/article/details/129776212

文章讲述了在深度学习中可能出现的错误，如二维到三维转换的参数匹配问题，zeros()与randn()的使用区别，以及元组和数组的区别。此外，还讨论了初始化权重w通常使用He初始化，b使用zeros初始化以避免梯度问题。正则化方面，L2正则化用于防止过拟合，而dropout策略通过随机丢弃一部分节点来提高模型泛化能力，理解keep比例的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.错误总结：1.如果输入为二维，输出为三维，可能是实际接收返回值的参数小于函数返回的参数数目

2.zeros()中必须是（，）这种，而randn（）中则是直接放数字加逗号，shape（）中都可以

2.元组和数组：元组只要是用逗号隔开如a=(x,c),无论x，c本身是数字还是元组，其得到数目都是（2，）；数组如果是两个，则得到（2，x.shape[1]),同样无论x，c的种类，但是需要同形式

1.初始化：（修正的问题：防止梯度爆炸或者消失）w一般he初始化，b一般zeros初始化（random初始化一般需要乘小系数，因为sigmoid，tanh中w导致z过大，梯度下降缓慢（w为0梯度下降就为0）

2.正则化：（修正问题：防止过拟合）l2:一般选择较小值，修改成本函数以及反向传播函数中dw本身即可

dropout:*keep=0.5不代表0.5的点被删除，这里只是阈值设定,设定大留下的概率高。对象是前向传播的A和dA,且前向的D和反向的要相同，对w,b,z以及对应的d不做修改。类似于对节点的输出值随机扣取。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。