- 博客(2)
- 收藏
- 关注
原创 强化学习算法——PPO近端策略优化
2017年,OpenAI的Schulman等人提出了一种新型策略梯度算法PPO,其在和之间交替。根据 agent 的决策方式,可将强化学习分为 value-based 和 policy-based。
2023-04-10 21:39:33
1052
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人