视频链接记录
世界冠军带你从零实践强化学习.
Sarsa
拿下一步的Q值来强化这一步的Q值
(St,At,Rt+1,St+1,At+1)
S状态
A动作
R reward
On-Policy
贪心策略(ε-greedy)
强化学习任务中有两个非常重要的概念——开发(exploit)和探索(explore)
开发:在强化学习中,开发指智能体在已知的所有(状态-动作)二元组分布中,本着“最大化动作价值”的原则选择最优的动作。换句话说,当智能体从已知的动作中进行选择时,我们称此为开发(或利用);
探索:指智能体在已知的(状态-动作)二元组分布之外,选择其他未知的动作。
开发对于最大化当前时刻期望收益是正确的做法,而探索则是从长远角度讲可能带来最大化总收益。在某一个状态下,智能体只能执行一个动作,要么开发,要么探索,二者无法同时进行,因此这就是强化学习重点突出的矛盾——权衡开发与探索。
在权衡开发与探索二者之间,ε-greedy是一种常用的策略。其表示在智能体做决策时,有一很小的正数ϵ ( < 1 ) 的概率随机选择未知的一个动作(探索),剩下1 − ϵ 的概率选择已有动过中动作价值最大的动作argmaxQ(a) (利用)
相关待学习:UCB 最大置信度上界
Q-learning
Off-Policy
时序差分(TD单步更新)
时序差分方法又称TD方法,是强化学习中应用最为广泛的一种学习方法。它结合了蒙特卡罗方法与动态规划方法,首先它可以像蒙特卡罗方法那样直接从经验中进行学习而不需要知道完整的环境模型,同时它又可以像动态规划方法那样根据已学习到的价值函数的估计进行当前估计的更新(步步更新),而不需等待整个episode结束。