目录
P180
我觉得他这里对回放缓冲区的解释还是有一点问题。应该是这样的。在\((S,A)\)的分布无论是怎么样的时候,只要我们得到了所有状态-动作对的最优状态值,那么(去掉平方的)式\((8.38)\)应该是\(0\),于是为了简单,我们可以就让行为策略是一个均匀分布(就像图8.11那个样子),具有很强的探索性;这里真正的问题在于相邻时刻的状态动作对是不符合独立同分布的,而大多数理论都是基于独立同分布证明的,所以我们要打破相邻样本之间的相关性,于是使用回放缓冲区
我觉得他这里对回放缓冲区的解释还是有一点问题。应该是这样的。在\((S,A)\)的分布无论是怎么样的时候,只要我们得到了所有状态-动作对的最优状态值,那么(去掉平方的)式\((8.38)\)应该是\(0\),于是为了简单,我们可以就让行为策略是一个均匀分布(就像图8.11那个样子),具有很强的探索性;这里真正的问题在于相邻时刻的状态动作对是不符合独立同分布的,而大多数理论都是基于独立同分布证明的,所以我们要打破相邻样本之间的相关性,于是使用回放缓冲区

被折叠的 条评论
为什么被折叠?