- 博客(6)
- 收藏
- 关注
原创 Clip 在 PPO 中的应用(与作为边界约束时的区别)
Clip 本身确实是一种边界约束方法,但在 PPO(Proximal Policy Optimization) 算法中,clip 被用作一种特殊的策略优化技术,而不是直接用于对动作进行边界约束。为了更清晰地理解这一点,我们需要区分 clip 作为边界约束 和 clip 在 PPO 中的应用。
2025-03-22 21:55:34
2074
1
原创 GAE(Generalized Advantage Estimation,广义优势估计)
GAE(Generalized Advantage Estimation,广义优势估计) 是一种用于估计优势函数(Advantage Function)的技术,广泛应用于强化学习算法中(如 PPO、A3C 等)。它通过结合多步的时序差分误差(TD Error)来提高优势函数估计的准确性和稳定性。
2025-03-22 21:01:56
1166
原创 Mini-batch在强化学习中的应用
Mini-batch 是深度学习和强化学习中一种常用的训练技术,用于在每次优化时使用一小部分数据(而不是全部数据)来更新模型参数。
2025-03-22 20:32:42
1948
原创 动作边界约束方法(“clip“ 和 “tanh“)
动作边界约束方法("clip" 或 "tanh")是用于将神经网络输出的原始动作映射到环境的动作空间范围内的技术。
2025-03-22 20:23:03
718
原创 神经网络核心组件简介——线性层、归一化层和激活函数
线性层:进行特征提取和线性变换。归一化层:加速训练并提高模型性能。激活函数:引入非线性,使神经网络能够拟合复杂函数。
2025-03-22 01:23:43
2586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅