Coursera机器学习-Week 5-测验:Neural Networks: Learning

本文探讨了神经网络训练过程中的关键优化技巧,包括梯度检查、正则化参数调整、初始化策略等,帮助读者理解如何有效避免过拟合、欠拟合等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1

描述

这里写图片描述

解析

根据题目给定的公式大胆的猜 Δ(k)ij:=Δ(k)ij+δ(k+1)i(a(k))jΔij(k):=Δij(k)+δi(k+1)∗(a(k))j,所以题目选择 DD

2

描述

这里写图片描述

解析

因为 Theta1 包含 1515 个元素、Theta2Theta2 包含 2424 个元素,所以按照 thetaVec=[Theta1(:);Theta2(:)]thetaVec=[Theta1(:);Theta2(:)] 组合时,会得到一个包含 3939 个元素的 thetaVecthetaVec 向量,想要重新获取 Theta2Theta2 需要将后 2424 个拆分出来构造成 464∗6Theta2Theta2,所以选 AA,注意下标是从 1 开始。

3

描述

这里写图片描述

解析

θ=1θ=1ϵ=0.01ϵ=0.01 代入 J(θ+ϵ)J(θϵ)2ϵJ(θ+ϵ)−J(θ−ϵ)2ϵ 得,ans=12.0012ans=12.0012,选 DD

4

描述

这里写图片描述

解析

A,使用梯度检测的确可以帮助减少反向传播算法计算时的 BugBug,正确;
BB,神经网络过拟合时,可以尝试将 λ 变大,毕竟神经网络的损失函数和正则修正操作都是从梯度下降算法中引申过来的,所以原理可借鉴,正确;
CC,两者公式原理相似,都可以用梯度检测,错误;
D,当 λλ 过大时会出现欠拟合,参照梯度下降算法,错误。

5

描述

这里写图片描述

解析

AA 不能全部设置为 0 或者 11,这样会因为参数相同而没有什么效果,错误;
B 参照 AA,不能全部设置为相同的值,推荐的是全部随机成接近于 0 的浮点数,错误;
CC 只能趋向于局部最小值,初始值不同,结果也可能会不同,正确;
D 参照梯度下降算法,随着迭代的增加,JJ 应该逐渐变小,正确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值