强化学习（王树森）

最新推荐文章于 2024-07-27 17:17:49 发布

leukocyten

最新推荐文章于 2024-07-27 17:17:49 发布

阅读量521

点赞数

分类专栏：强化学习

本文链接：https://blog.youkuaiyun.com/qq_43707223/article/details/127888126

版权

强化学习专栏收录该内容

1 篇文章

订阅专栏

基本概念

**策略函数(policy)**是根据观测到的状态做出决策
策略函数 $\pi$ ：S $\times$ A $\rightarrow$ [0,1]是一个条件概率函数：
$\pi$ (a|s) = P(A = a | S = s)
策略函数的输入是状态s和动作a，输出是一个0到1之间的概率值
奖励(reward)是在智能体执行一个动作之后，环境返回给智能体的一个数值
状态转移是指当前状态 s 变成新的状态 s’，状态转移的随机性来源于环境
状态转移函数是环境用于生成新的状态时用到的函数
随即状态转移函数p(s’|s,a)=P(S’=s’,A=a)
意思是：如果观察到当前状态s以及动作a，那么p函数输出状态变成s’的概率
动作的随机性来源于策略函数
状态的随机性来源于状态转移函数
回报(return) *[累计奖励]*是指从当前时刻开始到一回合结束的所有奖励的总和，强化学习的目标是最大化回报，不是最大化当前的奖励
$U_{t}$ = $R_{t}$ + $R_{t+1}$ + $R_{t+2}$ + $R_{t+3}$ + ···
但是在 t 时刻，除了 $R_{t}$ 以外的奖励对 t 时刻回报的重要性是依次降低的，因此 t 时刻的回报需要打一个折扣，即
$U_{t}$ = $R_{t}$ + $γ^{}$ · $R_{t+1}$ + $γ^{2}$ · $R_{t+2}$ + $γ^{3}$ · $R_{t+3}$ + ···