Score Function Trick及其在机器学习中的应用
1、score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度

就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。
3、SF的期望值是0

这一个性质可以用在有baseline的策略梯度中。
本文介绍了ScoreFunctionTrick的基本概念,包括其在求解最大似然问题中的作用,以及如何通过对其求导得到FisherInformation。此外,还讨论了SF的期望值为0的性质,并解释了这一性质在有baseline的策略梯度中的应用。
Score Function Trick及其在机器学习中的应用
1、score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度

就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。
3、SF的期望值是0

这一个性质可以用在有baseline的策略梯度中。
670
3828

被折叠的 条评论
为什么被折叠?