这一讲主要在讲policy gradient,
注意,教授经常提到的horizon,就是11−γ1\over1-\gamma1−γ1 , 就是∑tγt (t starts from 0)\sum_t\gamma^t~~(t~starts~from~0)∑tγt (t starts from 0),这个求和的结果是11−γ1\over1-\gamma1−γ1 。(我还不是很明白这个是在干嘛……)
说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。
最后的review保存一下好了

本文深入探讨了强化学习中PolicyGradient的概念,解析其数学基础,包括horizon的定义与计算,及如何利用泰勒级数和拉格朗日进行复杂的推导过程。
1541

被折叠的 条评论
为什么被折叠?



