1. 是什么
智能体利用完整轨迹数据估计出 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)的过程
2. 为什么直接估计Q而不是V
因为策略评估的目的在于改进现有策略 π ( a ∣ s ) \pi(a|s) π(a∣s),而改进策略就涉及到选取最优行为 a , Q ( s , a ) a,Q(s,a) a,Q(s,a)刚好能衡量状态s时,采取各种动作a的价值(累积回报期望)。如果采用 V ( s ) V(s) V(s),则最终还是要由 V ( s ) V(s) V(s)(参考贝尔曼方程)计算出Q(s,a),而由于立即回报矩阵和状态转移数组未知,这一点做不到。因此,干脆直接从Q(s,a)出发进行策略评估和控制。
2. 根据多条完整轨迹计算Q(s,a)
在当前策略 π \pi π下,假设我们获得了K条完整轨迹数据 [ ( s k , 0 , a k , 0 , r k , 1 ) , ⋯ , ( s