8 Actor Critic

最新推荐文章于 2024-08-06 17:32:05 发布

无知书童

最新推荐文章于 2024-08-06 17:32:05 发布

阅读量178

点赞数

分类专栏： # 深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_28404829/article/details/103112680

版权

深度强化学习专栏收录该内容

10 篇文章

订阅专栏

在这里插入图片描述

Policy Gradient 能够让算法在连续的空间中选择动作。
Value-Based 方法能够实现单步更新，而Policy Gradient是回合更新。
在这里插入图片描述
Critic 部分学习出系统的奖惩值，
由学习到的奖惩值指导Actor的动作。

每次参数更新都存在相关性，导致神经网络只能片面的看待问题。

为解决在连续动作上预测学不到东西的问题

https://www.bilibili.com/video/av16921335?p=25

博客等级

码龄10年

129
原创

65
点赞

300
收藏

54
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 7 Policy Gradient

下一篇：: 9 DDPG

最新评论

4 傅里叶级数的复数形式
流星奶香包: 注意一下，“欧拉公式”中的sinθ公式有误，应该是 sinθ=-i/2[e^(iθ)-e^(-iθ)]。作者此处没有乘以i。
Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN
njz: 你确定这是acl 2018文章，希望能严谨点 https://acl2018.org/programme/papers/
1 三角函数的正交性
duangduangduang136: gch别学咯
Knowledge Base Question Answering via Encodin of Complex Query Graphs
x2213500360: 我对博主在文中提到的几点的看法：首先是查询图生成中，类型链接，意思应该是粗鲁地结合一个词、两个词或者三个词构成提及(mentions)，例如图2a中，US 和 president这两个词构成类型的提及，与这个类型提及相似度高的两个类型是us_president和us_vice_president。其次是类型约束，只接收答案节点IsA谓词的约束。在图2d中给出了例子，答案节点A的类型是us_president，用谓词约束IsA相连，其他的谓词约束不接收意思应该是只考虑谓词是IsA约束。最后的问题：为什么会得到多个 q 向量，问题不是只有一个，难道是局部压缩有多个？每一个q都是由全局信息和不同的局部信息构成的，它的局部信息与语义组件是相对应的。可以认为一个语义组件表示句子中的一部分局部语义信息，这一部分局部语义信息与q向量的局部信息是对应的。但是我也不太懂例子中第二和第三个语义组件对应的局部依赖序列应该是怎么样的，希望有大佬解答。以上都是个人理解，有理解错误的地方还请指出。
2 线性化泰勒级数泰勒公式
Miaaam: 能问问为什么x-x0还在吗

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。