强化学习中DQN算法是基于价值学习的。怎么理解基于价值呢? 我是这样理解的:DQN是要学一个最优动作价值函数,而最优动作价值函数是在t时刻动作和环境下的,回报期望最大值。那么价值就是回报期望的意思?
状态价值函数(State-value function),是不是任何一个策略pi,执行下一步所有可能的动作所带来的动作价值的期望。理解为,当前状态下,执行所有可能动作的带来的收益,一定程度上反映了当前状态的优劣?我理解的对不对
解释为什么:首先我们获取到一些观测到真实数据:x1,x2,…,xn。然后在这些观测值中加入一些均值为0的随机噪声Q1,Q2,…,Qn。由于噪声的均值为0,所以对Q的均值求期望,就等于对x求期望。然而,Q最大值的期望却会大于等于x的最大值,且Q最小值的期望也会小于等于x的最小值。