改善深层神经网络week2学习笔记

本文是关于深度学习优化方法的学习笔记,涵盖了Mini-Batch Gradient Descent、指数加权平均、Momentum、RMSprop、Adam算法以及学习率衰减和局部最优问题的探讨。文章详细介绍了各方法的原理和应用场景,并通过实例展示了它们的效果差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Mini-Batch Gradient descent

Mini-batch每次处理训练数据的一部分,即用其子集进行梯度下降,算法速度会执行的更快。

方法分为两个步骤:

  • Shuffle:

洗牌一般同步打乱原来数据集X和对应标签Y中的数据信息,使得数据随机分散到不同的minibatch中

代码中用到了np.random.permutation()方法作为洗牌方法,对于打乱顺序有两种方法。permutation是返回一个新的数组,不对原来数组进行改动,而shuffle不返回值,对原来数组基础上进行打乱顺序操作。

  • Partition:

将对应X,Y划分到各个minibatch中,每个minibatch里数据数量相等,除了最后一个可能略少于其他minibatch。

Mini-batch 大小的选择

  • 在划分时通常采取2的次方项作为minibatch的大小。
  • 如果训练样本的大小比较小时,如 m\leqslant 2000 时 ------ 选择batch梯度下降法;
  • 如果训练样本的大小比较大时,典型的大小为: 2^{6}、2^{7}、\cdots、2^{10} ;
  • Mini-batch的大小要符合CPU/GPU内存。

 

当minibatch的size选择为1的时候,称为Stochastic Gradient Descent

几个方法效果比较如下:

图中“+”表示损失函数的最小值点

 

2.指数加权平均

指数加权平均的关键函数:

内容概要:该PPT详细介绍了企业架构设计的方法论,涵盖业务架构、数据架构、应用架构和技术架构四大核心模块。首先分析了企业架构现状,包括业务、数据、应用和技术四大架构的内容和关系,明确了企业架构设计的重要性。接着,阐述了新版企业架构总体框架(CSG-EAF 2.0)的形成过程,强调其融合了传统架构设计(TOGAF)和领域驱动设计(DDD)的优势,以适应数字化转型需求。业务架构部分通过梳理企业级和专业级价值流,细化业务能力、流程和对象,确保业务战略的有效落地。数据架构部分则遵循五大原则,确保数据的准确、一致和高效使用。应用架构方面,提出了分层解耦和服务化的设计原则,以提高灵活性和响应速度。最后,技术架构部分围绕技术框架、组件、平台和部署节点进行了详细设计,确保技术架构的稳定性和扩展性。 适合人群:适用于具有一定企业架构设计经验的IT架构师、项目经理和业务分析师,特别是那些希望深入了解如何将企业架构设计与数字化转型相结合的专业人士。 使用场景及目标:①帮助企业和组织梳理业务流程,优化业务能力,实现战略目标;②指导数据管理和应用开发,确保数据的一致性和应用的高效性;③为技术选型和系统部署提供科学依据,确保技术架构的稳定性和扩展性。 阅读建议:此资源内容详尽,涵盖企业架构设计的各个方面。建议读者在学习过程中,结合实际案例进行理解和实践,重点关注各架构模块之间的关联和协同,以便更好地应用于实际工作中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值