Q-Learning中的Q值和奖励R

为什么不用奖励R作为当前Q值,这里解释一下。

核心比喻:下象棋

  • 奖励R:就像是吃掉对方一个棋子
    • 你吃掉一个“兵”,获得一点小奖励。
    • 你吃掉一个“车”,获得一个很大的奖励。
    • 你“将死”了对方,获得一个巨大的、终结比赛的奖励。

奖励R是环境给你的、立即可见的、直接的反馈。

  • Q值:就像是顶尖棋手大脑里对当前棋局(状态)和下一步(动作)的“棋形判断”
    • 它不是一个简单的、眼前的得失。它会综合考虑:“如果我走这步‘马’,虽然可能会丢一个‘兵’(短期负奖励),但我会获得极大的攻势,在十步之后有可能‘将死’对方(巨大的长期收益)。”
    • 或者:“如果我吃这个‘车’(巨大的短期奖励),但我的‘将’会暴露在对方的火力下,导致我五步之后被将死(灾难性的长期后果),那这步棋的整体价值其实非常低。”

Q值是智能体自己对未来总收益的一个预测和评估。

结论:奖励是“眼前小利”,而Q值是“深谋远虑”。

正式区别:奖励R vs Q值

特性奖励RQ值
来源环境给的。是游戏规则设定好的。智能体自己学习和计算出来的。
时间尺度即时的、短期的。只关心下一步的收益。累积的、长期的。关心从现在到游戏结束的所有收益总和。
视角局部的、单一事件的反馈。全局的、战略级的评估。
类比工资/奖金:做完一项工作,立刻拿到钱。职业规划:选择一份工作,不仅看起薪,更看未来发展、股票期权、技能成长等所有未来收益的总和。
依赖性只依赖于当前的动作和状态依赖于当前的动作、状态、以及后续所有的决策
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值