自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Clip 在 PPO 中的应用(与作为边界约束时的区别)

Clip 本身确实是一种边界约束方法,但在 PPO(Proximal Policy Optimization) 算法中,clip 被用作一种特殊的策略优化技术,而不是直接用于对动作进行边界约束。为了更清晰地理解这一点,我们需要区分 clip 作为边界约束 和 clip 在 PPO 中的应用。

2025-03-22 21:55:34 2074 1

原创 GAE(Generalized Advantage Estimation,广义优势估计)

GAE(Generalized Advantage Estimation,广义优势估计) 是一种用于估计优势函数(Advantage Function)的技术,广泛应用于强化学习算法中(如 PPO、A3C 等)。它通过结合多步的时序差分误差(TD Error)来提高优势函数估计的准确性和稳定性。

2025-03-22 21:01:56 1166

原创 Mini-batch在强化学习中的应用

Mini-batch 是深度学习和强化学习中一种常用的训练技术,用于在每次优化时使用一小部分数据(而不是全部数据)来更新模型参数。

2025-03-22 20:32:42 1948

原创 动作边界约束方法(“clip“ 和 “tanh“)

动作边界约束方法("clip" 或 "tanh")是用于将神经网络输出的原始动作映射到环境的动作空间范围内的技术。

2025-03-22 20:23:03 718

原创 神经网络核心组件简介——线性层、归一化层和激活函数

线性层:进行特征提取和线性变换。归一化层:加速训练并提高模型性能。激活函数:引入非线性,使神经网络能够拟合复杂函数。

2025-03-22 01:23:43 2586

原创 强化学习的环境代码

这些部分共同构成了强化学习环境的核心功能,智能体通过与环境的交互学习最优策略。

2025-03-21 22:33:00 594

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除