强化学习：Sarsa与Q-learning之间的关系

最新推荐文章于 2024-03-15 15:09:43 发布

ZesenYang

最新推荐文章于 2024-03-15 15:09:43 发布

阅读量620

点赞数 1

CC 4.0 BY-SA版权

分类专栏：学习笔记文章标签：算法强化学习

本文链接：https://blog.youkuaiyun.com/ZesenYang/article/details/84186604

学习笔记专栏收录该内容

1 篇文章

订阅专栏

本文深入解析了Sarsa算法与Q-learning算法的工作原理，对比了两者在策略评估和改进上的不同之处，强调了Q-learning算法在评估采样时引入ϵ−greedy策略，而在策略改进时关闭这一策略的特点。

Sarsa算法

在给定环境的起始状态s，并且初始化策略 $πϵ−greedy\pi^{\epsilon-greedy}$ 和Q值后，agent使用该策略与环境交互，产生动作a、新状态s’和奖励回馈r：
$a=πϵ−greedy(s)s′,r=environment(a)a=\pi^{\epsilon-greedy}(s)\\ s',r=environment(a)$
在状态s’上再根据策略 $πϵ−greedy\pi^{\epsilon-greedy}$ 选择动作a’：
$a′=πϵ−greedy(s′)a'=\pi^{\epsilon-greedy}(s')$
从而生成序列信息段 $< s, a, r, s^{'}, a^{'} >$ 。根据下式对状态动作对 $< s, a >$ 的Q值进行更新：
$Q(s,a)=Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)=Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$
再根据下式对策略 $π\pi$ 进行改进：
$以概率ϵ\pi(s)=\begin{cases} argmax_{a''}(Q(s,a'')), \ \ \ \ \ \ \ \ \ \ \ 以概率1-\epsilon \\ 随机选取动作, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 以概率\epsilon \end{cases}$
再在 $< s^{'}, a^{'} >$ 的基础上执行以上过程，基本遵循的就是从策略改进到策略评估的不断循环。

Q-learning算法

在给定环境的起始状态s，并且初始化策略 $π\pi$ 和Q值后，agent在该策略中引入 $ϵ−greedy\epsilon-greedy$ ，并与环境交互，产生动作a、新状态s’和奖励回馈r：
$a=πϵ−greedy(s)s′,r=environment(a)a=\pi^{\epsilon-greedy}(s)\\ s',r=environment(a)$
再关闭 $ϵ−greedy\epsilon-greedy$ ，根据原策略在状态s’上时选择动作a’：
$a′=π(s′)a'=\pi(s')$
从而生成序列信息段 $< s, a, r, s^{'}, a^{'} >$ 。根据下式对状态动作对 $< s, a >$ 的Q值进行更新：
$Q(s,a)=Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)=Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$
再根据下式对策略 $π\pi$ 进行改进：
$π(s)=argmaxa′′(Q(s,a′′))\pi(s)=argmax_{a''}(Q(s,a''))$
再在 $< s^{'}, a^{'} >$ 的基础上执行以上过程，不断循环。

关系

Q-learning算法衍生自Sarsa，但是在策略评估和策略改进时的策略并不相同。Q-learning算法的出发点是：策略上引入 $ϵ−greedy\epsilon-greedy$ 是为了更好地评估策略本身，而不是为了最终使用，假设对所有的Q值评估精确了，策略在探索和利用中应该是完全倾向于利用的。因此Q-learning算法在评估采样时引入 $ϵ−greedy\epsilon-greedy$ ，在改进策略时关闭 $ϵ−greedy\epsilon-greedy$ 。