深度学习中epoch、iteration、batch_size、episode的通俗理解

本文详细阐述了在深度学习训练中,epoch的概念,即完整遍历所有数据一次;batch_size的重要性,用于控制每次模型更新的小批量数据;以及episode在强化学习中的应用,用于评估模型在实际任务中的表现。理解这些概念有助于优化训练过程和模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

epoch、iteration、batch_size、episode

epoch

所有的训练数据都要跑一遍就是一个epoch。假设有10000个样本,这10000个样本都跑完就算一个epoch。实验中一般需要跑很多个epoch,取均值作为最后的结果,一般实验需要训练很多个epoch,取平均值作为最后的结果,从而减少偶然性,避免取到局部极值。

batch_size

批大小,如果把全部数据放入内存后再加载到显存中,空间显然不够的;如果一个一个数据加载训练并更新模型参数,效率极低。所以考虑一批一批地加载数据,每次送进去的数量就是batch_size,这样可以加快速度。假设把10000个样本,分成500批次送进去,则每次送进20个样本,batch_size=20。

iteration

一个epoch的数据=batch_size * iteration 。同样的例子假设把10000个样本,分成500批次送进去,则每次送进20个样本,则iteration=500,每经过一个iteration,参数更新一次。

episode

agent根据状态和策略做出行为,从而获得奖励,到任务结束。往往在agent训练完成后或经过一段时间训练后,进行很多次episode,检验agent执行任务的能力,可以通过评价指标、奖励值进行评估,对模型进行验证,并保存模型。(划分valid集就是典型的例子)

强化学习中用得多,以游戏举例,例如模型训练中途或迭代结束后,玩一轮游戏(例如玩一局飞机大战)看看本局游戏能得多少奖励。无论通关还是失败,都是一个episode。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nosimper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值