1.状态动作价值函数
- 状态动作价值函数,通常表示为Q(s,a),计算的是在当前状态s下,采取动作a后,根据策略π选择后续动作,得到的回报的期望。
- 这个函数考虑了当前状态和当前动作,以及后续根据策略选择的动作。
- 每次从状态s出发,采取动作a,得到的回报可能不一样,因为后续的回报取决于环境的随机性和策略π的选择。
2.状态价值函数
- 状态价值函数,通常表示为V(s),计算的是在当前状态s下,根据策略π选择动作,得到的回报的期望。
- 这个函数只考虑了当前状态,以及后续根据策略π选择的动作。
- 每次从状态s出发,选择的初始动作可能不一样,得到的回报可能也不一样,因为动作的选择和后续的回报取决于策略π和环境的随机性。