1、Return
Return表示回报,Return是将t时刻的奖励全部都累计加起来,一直到游戏结束的最后一个奖励。
其通常用于评估策略的好坏,或者用于更新代理的策略。
2、价值函数
价值函数(Value Function)是用来估计在特定的策略下,从某个状态开始或在某个状态下采取某个动作所能获得的期望累积回报。价值函数是评估状态、动作或策略好坏的关键工具,它可以帮助代理(agent)做出更好的决策。
价值函数通常分为以下几种类型:
-
状态价值函数(State Value Function): 表示在给定策略π下,从状态s开始并遵循策略π所能获得的期望累积回报。通常表示为 Vπ(s)Vπ(s)。
-
动作价值函数(Action Value Function): 表示在给定策略π下,从状态s开始,采取动作a,并在之后遵循策略π所能获得的期望累积回报。通常表示为 Qπ(s,a)Qπ(s,a)。
-
状态-动作价值函数(State-Action Value Function): 又称为Q函数,它是最常用的价值函数之一,因为它结合了状态和动作的信息。Q函数表示在状态s下采取动作a,并之后遵循策略π所能获得的期望累积回报。
-
优势函数(Advantage Function): 表示采取某个动作相比于其他动作在特定状态下的额外价值。它可以用于比较不同动作的相对价值,通常表示为 Aπ(s,a)=