微信公众号、知乎号(同名):李歪理,欢迎大家关注 前一篇主要讲解的是价值函数的近似,然后根据价值函数来制定策略。本篇中策略P(a|s)将从一个概率集合变成策略函数本身π(s,a),通过借助策略相关的目标函数梯度的引导,寻找与目标函数的极值,进而得到最优策略。 1. 简介 Introduction 上一篇主要内容是如何对价值函数进行近似的参数化表达,包括状态价值函数和动作价值函数: Vθ(s)∼Vπ(s)V_{\theta}(s)\sim V^{\pi}(s)V