- 博客(3)
- 收藏
- 关注
原创 强化学习7 策略梯度算法
强化学习是一个通过奖惩来学习正确行为的机制。家族中有很多种不一样的成员,有学习奖惩值,根据自己认为的高价值选行为,也就是Value-based learning,例如如Q-Learning,Deep-Q-network;也有不通过分析奖惩值,直接输出行为的方法,即基于策略的强化学习(Policy-Based RL),这就是今天要说的Policy Gradient加上一个神经网络来输出预测的动作。在强化学习中,行动才是最终的目的。但是前面的方法都是先求价值,然后再含蓄的从价值推出动作。
2023-09-05 21:39:21
125
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人