策略梯度
1、基本概念
policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成 π。
Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R 来表示它。
Trajectory: 一个试验中我们将environment 输出的 s 跟 actor 输出的行为a,把这个s跟a全部串起来形成的集合,我们称为Trajectory,即
Reward function: 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。也就是给一个 s1,a1,它告诉你得到 r1。给它s2,a2,它告诉你得到r2。 把所有的 r 都加起来,我们就得到了R(τ) ,代表某一个 trajectory τ 的 reward。
Expected reward:Reinforce: 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。
问题:
1、对于梯度策略的两种方法,蒙特卡洛(MC)强化学习和时序差分(TD)