xyd_biang-优快云博客

Clip 本身确实是一种边界约束方法，但在 PPO（Proximal Policy Optimization）算法中，clip 被用作一种特殊的策略优化技术，而不是直接用于对动作进行边界约束。为了更清晰地理解这一点，我们需要区分 clip 作为边界约束和 clip 在 PPO 中的应用。

2025-03-22 21:55:34 2074 1

GAE（Generalized Advantage Estimation，广义优势估计）是一种用于估计优势函数（Advantage Function）的技术，广泛应用于强化学习算法中（如 PPO、A3C 等）。它通过结合多步的时序差分误差（TD Error）来提高优势函数估计的准确性和稳定性。

2025-03-22 21:01:56 1166

Mini-batch 是深度学习和强化学习中一种常用的训练技术，用于在每次优化时使用一小部分数据（而不是全部数据）来更新模型参数。

2025-03-22 20:32:42 1948

动作边界约束方法（"clip" 或 "tanh"）是用于将神经网络输出的原始动作映射到环境的动作空间范围内的技术。

2025-03-22 20:23:03 718

线性层：进行特征提取和线性变换。归一化层：加速训练并提高模型性能。激活函数：引入非线性，使神经网络能够拟合复杂函数。

2025-03-22 01:23:43 2586

这些部分共同构成了强化学习环境的核心功能，智能体通过与环境的交互学习最优策略。

2025-03-21 22:33:00 594

TA创建的收藏夹 TA关注的收藏夹

TA关注的人