
强化学习
江汉似年
写代码造汽车
展开
-
逆强化学习
3.每次迭代中通过比较actor与teacher的行为来更新reward function,基于新的reward function来更新actor使得actor获得的reward最大。IRL与GAN在原理上相似,actor对应generator,reward function对应 discriminator,真实图片对应专家数据。2.学习的网络有两个,actor和reward。1.teacher的行为被定义成best。原创 2023-10-04 22:32:18 · 545 阅读 · 0 评论 -
对POMDP的认识
知识总结材料来源:https://www.zhihu.com/question/20683006 部分可观察马尔可夫决策过程(partially observable Markov decision processes,POMDP)是环境状态部分可知动态不确定环境下序贯决策的理想模型,其核心点在于,agent无法知道自己所处的环境状态,需要借助于额外的传感器,或者与其他的a...原创 2019-10-18 14:52:05 · 16701 阅读 · 0 评论 -
DDPG强化学习中的loss
Loss = (r + gamma * Q(s')- Q(s))^2其中 :r + gamma * Q(s')代表用未来的状态价值来估算当前的状态价值Q(s) 代表当前的状态价值如果这两个价值相等,说明价值函数能够完美表达长期的价值收益...原创 2020-04-24 14:51:06 · 3564 阅读 · 0 评论