
强化学习
强化学习
Happy_Traveller
这个作者很懒,什么都没留下…
展开
-
Policy-Based Reinforcement Learning(2)
公式(1)用于离散的情形, (2)用于连续的情形。原创 2024-06-10 20:48:13 · 198 阅读 · 0 评论 -
Policy-Based Reinforcement Learning(1)
这里使用梯度上升的方法,对于一个可观测状态s,更新。(这里将action A积分掉)这里如果策略函数。称为策略梯度(Policy Gradient)原创 2024-06-10 20:20:28 · 207 阅读 · 0 评论 -
Value-Based Reinforcement Learning(2)
上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。,做梯度下降是为了让loss减少。原创 2024-05-26 21:30:30 · 192 阅读 · 0 评论 -
Value-Based Reinforcement Learning(1)
Discounted Return(未来的reward,由于未来存在不确定性,所以未来的reward 要乘以。由于存在action,和state随机性,现在想消除随机性,可以求。可以给任意的动作打分,agent可以根据。,表达了action的随机性。(监督回报,用来训练DQN),表达了转移状态的随机性。的打分,做最有利的动作。,那么每一步最好的动作。(DQN给出) ->原创 2024-05-26 20:57:05 · 218 阅读 · 0 评论