对policy Gradient的一种改进算法。利用一个memory buffer存储high reward的trajectory,估计gradient时利用inside buffer和outside buffer两部分的加权和来估计,能有效降低variance
Memory Augmented Policy Optimization for Program Synthesis and Semantic Parsing读书笔记
最新推荐文章于 2022-04-24 22:01:12 发布
对policy Gradient的一种改进算法。利用一个memory buffer存储high reward的trajectory,估计gradient时利用inside buffer和outside buffer两部分的加权和来估计,能有效降低variance