
强化学习
文章平均质量分 87
tostq
邮箱:tostq216@163.com
展开
-
强化学习DDPG:Deep Deterministic Policy Gradient解读
DDPG是基于Q-learning的,其由于是取最大可能性的某个确定动作,因此可能会带来Maxinum偏差(简单理解为由于预估分布的存在,所以最大值一般都会偏移期望值),这个问题可能通过double Q-learning进行解决。Twin Delayed DDPG又被称为TD3算法..由于DDPG只能产出确定性动作,因此Soft Actor Critic (SAC) 实现产出概率性动作决策stochastic policy,SAC算法相比于TD3主要有两点不同。原创 2023-06-16 22:26:21 · 1553 阅读 · 0 评论 -
强化学习笔记-03有限马尔可夫决策过程MDP
强化学习,Reinforcement Learning- An introduction,有限马尔可夫决策过程MDP,Bellman equation,Markov Decision Processes原创 2023-02-13 17:06:28 · 506 阅读 · 0 评论