【强化学习——AI问答】在强化学习部分遇到的模糊概念


强化学习中DQN算法是基于价值学习的。怎么理解基于价值呢? 我是这样理解的:DQN是要学一个最优动作价值函数,而最优动作价值函数是在t时刻动作和环境下的,回报期望最大值。那么价值就是回报期望的意思?

在这里插入图片描述


状态价值函数(State-value function),是不是任何一个策略pi,执行下一步所有可能的动作所带来的动作价值的期望。理解为,当前状态下,执行所有可能动作的带来的收益,一定程度上反映了当前状态的优劣?我理解的对不对

在这里插入图片描述


解释为什么:首先我们获取到一些观测到真实数据:x1,x2,…,xn。然后在这些观测值中加入一些均值为0的随机噪声Q1,Q2,…,Qn。由于噪声的均值为0,所以对Q的均值求期望,就等于对x求期望。然而,Q最大值的期望却会大于等于x的最大值,且Q最小值的期望也会小于等于x的最小值。
在这里插入图片描述




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值