策略函数是一个概率密度函数。输入是状态s,输出的概率分布,反映的是接下来采取动作的概率。agent从中做一个随机抽样,如向上是0.7,则可能从中抽取向上的动作。
策略网络,用一个策略网络去拟合近似策略函数。例子:输入是当前状态(可能是一张图片),经过若干卷积层之后生成特征向量,然后经过全连接层把特征向量映射到三维向量(因为游戏里有三个动作),然后用softmax激活函数(该激活函数能将输出全为正数且和为1)将其输出为概率分布,输出的即为每个动作的概率。
动作价值函数:是Ut的条件期望,这个期望把t+1之后的状态s和动作a都消掉了。
只依赖于当前的状态st和动作at。
还依赖于策略函数π,用不同的π得到的
就不一样。
可以评价在状态st的情况下&#