CS294-112 课程笔记
Tokimahi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lecture 6: Actor-Critic Algorithms
improve the policy gradient 在如下计算gradient 的公式中, 只用到了一个trajectory 的数据,但实际情况非常复杂,所以需要使用期望: 所以将后面那个求和项用如下期望替代: baseline 设为的期望 ,表示平均的收益概念。减去baseline之后,变为如下等式: 其中上式的表示 advantage value , 表示这个动作比预期的好(或者坏)多少。 接下来的问题就是,如何产生,,。答案是只要求解, why...原创 2020-06-11 14:25:30 · 337 阅读 · 0 评论 -
lecture 5 : policy gradient introduction
lecture 5 : policy gradient introduction 求时运用了 如下一个技巧: 于是, 由于则变为: 在代码实现的时候,用trajactory的平均来估计,即: 接下来又分析了 vanila policy gradient 方法 的 high varience : 直观上的理解就是,某个概率分布(如图中的r(r), 受数据的偏移影响较大) 为了减少varience, 开始如下分析: ...原创 2020-06-10 22:40:28 · 289 阅读 · 1 评论
分享