【Andrew Ng Deep Learning 作业笔记】第四章卷积神经网络 第一周课程作业模型收敛缓慢的解决办法

本文讨论了Ng提供的代码中模型收敛速度缓慢的问题,并提出通过使用HeInitialize方法和ReLU激活函数来加速卷积神经网络的收敛速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  以Ng给出的代码,模型收敛的速度相当缓慢。初始代价1.90左右,迭代100次后代价在1左右,而Ng给出的结果为0.17,具体原因尚不清楚,但是这里提供了一种加快收敛的方法:
  卷积层使用的Activation Function为ReLU函数,Ng之前的作业中提到了一种名为He Initialize的方法,可以适用于ReLU函数的参数初始化(泽维尔初始化适用于Sigmoid函数),在这里使用He Initialize:

    W1 = parameters["W1"] * np.sqrt(2)               
    W2 = parameters["W2"] * np.sqrt(2 / 196)

  由于第1层没有接受ReLU的输出,因此n0(上一层的维度)设置为1。
  在这里插入图片描述
  参考文献:
    [1] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classificatio., Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值