强化学习
文章平均质量分 74
xueyongfu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习基础
1. 价值迭代是贪心更新法2. 策略迭代中,用Bellman等式更新价值函数代价很大3. 对于空间较小的MDP,策略迭代通常很快收敛4. 对于空间较大的MDP,价值迭代更实用(效率更高)5. 如果没有状态转移循环,最好使用价值选代R%28s%29%5Cpi%5Cpi。原创 2023-12-16 20:42:43 · 1678 阅读 · 1 评论 -
Actor-Critic(AC)、A2C、A3C
A3C将actor与环境的交互变成了异步的,每个worker可以分别与环境进行交互,并进行参数更新,更新完之后需要梯度更新到global network,并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络(Q函数,V函数,策略网络)优化成了只需要学习V函数和策略网络。是非常不稳定的,只有当采样丰富的样本时,才可以获得接近真实的G值,但是现实情况往往不能采样足够丰富的样本。Q值:S状态下有若干个动作,每个动作的Q值,就是从这个动作之后所获得的奖励总和的期望值。原创 2023-12-16 00:08:03 · 204 阅读 · 1 评论 -
SARSA、Q-learning
Q-learning时value-based的方法,学习的不是policy,而是critic,critic并不直接决定action,而是评估一个actor有多么的好。通过把state输入到值网络中,从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法,需要进行完整个game,然后计算某个state对应的累计奖励,然后最小化该累计奖励和值网络输出值,从而学习值网络模型。值网络的学习也可以使用Temporal-difference(TD)方法。输入到值网络得到的累计激励,与。原创 2023-12-15 23:03:41 · 543 阅读 · 0 评论
分享