
强化学习
文章平均质量分 76
Katniss的名字被占用
这个作者很懒,什么都没留下…
展开
-
【强化学习】强化学习致命三要素deadly triad
如果包含这三个要素,很有可能不稳定性就难以避免,如果只出现两个要素,那么不稳定性就是有可能避免的。当这三个因素同时出现时,系统就存在收敛性问题,我们称之为死亡三角。这个问题原因没有一个确定的答案,但是有一些可能的解释。原创 2023-04-06 14:46:43 · 1552 阅读 · 0 评论 -
【强化学习】DQN与Double DQN
在算法中,不断的减小。原创 2023-04-06 14:05:56 · 1062 阅读 · 0 评论 -
【强化学习】马尔可夫决策过程MDP
MDP=MDP=MDP=,其中:Agent通过rtr_trt学习策略,agent通过学习到的策略针对当前环境状态sts_tst采取相应动作ata_tat,该动作与环境交互后,环境中的状态将转移到新的状态st+1s_{t+1}st+1,同时获得奖励rt+1r_{t+1}rt+1。Agent的目标是最大化累积奖励的期望。策略用原创 2023-02-11 14:04:29 · 964 阅读 · 0 评论 -
【强化学习】model-based和model-free的理解和误区
model-based和model-free的理解和误区原创 2023-01-13 15:54:29 · 1088 阅读 · 1 评论 -
【强化学习】PPO:从On-policy到Off-policy(PPO/TRPO/PPO-Penalty/PPO-Clip)
强化学习中policy gradient的优化,为什么要从从on-policy到off-policy,如何从on-policy到off-policy?原创 2022-06-26 21:21:35 · 4362 阅读 · 0 评论 -
【强化学习】policy gradient的一些tips
强化学习基于policy gredient优化小技巧原创 2022-06-25 16:50:09 · 289 阅读 · 0 评论