比惩罚深刻的奖励

故事发生在一个法国家庭。一天,孩子放学后,在客厅里玩篮球,忽然,篮球飞向了书架上的一个花瓶,“咚”的一声,花瓶重重地摔到地板上,瓶口摔掉一大块。这不是摆设品,而是祖上传下的波旁王朝时期的古董。

孩子慌忙把碎片用胶水粘起来,胆战心惊地放回原位。

当天晚上,母亲发现花瓶有些“变化”。吃晚餐时,她问孩子:“是不是你打碎了花瓶?”

孩子灵机一动,说:“一只野猫从窗外跳进来,怎么也赶不走,它在客厅上蹿下跳,最后碰倒架子上的花瓶。”

母亲很清楚,孩子在撒谎,每天上班前,她把窗户一扇扇关好,下班回来再打开。

母亲不动声色地说:“是我疏忽了,没有关好窗户。”

就寝前,孩子在床上发现一张便条,母亲让他马上到书房去。

看到孩子忐忑不安地推门进来,母亲从抽屉里拿出一个盒子,把其中一块巧克力递给孩子:“这块巧克力奖给你,因为你运用神奇的想像力,杜撰出一只会开窗户的猫,以后,你一定可以写出好看的侦探小说。”

接着,她又在孩子手里放了一块巧克力:“这块巧克力奖给你,因为你有杰出的修复能力,虽然用的是胶水,但是,裂纹黏合得几乎完美无缺。不过,这是修复纸质物品的胶水,修复花瓶不仅需要黏结力更强的胶水,而且需要更高的专业技术。明天,我们把花瓶拿到艺术家那里,看看他们是怎样使一件工艺品完好如初的。”

母亲又拿起第三块巧克力,说:“最后一块巧克力,代表我对你深深的歉意,作为母亲,我不应该把花瓶放在容易摔落的地方,尤其是家里有一个热衷体育的孩子。希望你没有被砸到或者吓到。”

“妈妈,我……

以后,孩子再也没有撒过谎,每当他想撒谎时,三块巧克力就会浮现在眼前。

 

                                          摘自《泉州晚报》 08.8.3

### 关于DQN中的奖励函数设计与应用 #### 设计原则 在深度强化学习中,特别是对于DQN而言,奖励函数的设计至关重要。奖励函数决定了智能体的学习方向和最终行为模式。为了使智能体能够有效地学习并达到预期效果,奖励函数应当具备以下几个特点: - **即时反馈**:提供及时的信息给智能体,让其知道当前行动的好坏程度。 - **长期规划**:不仅关注短期收益,还要考虑长远利益,这可以通过折扣因子γ来调节未来奖励的重要性[^4]。 #### 应用实例 以医疗领域为例,在疾病诊断辅助系统中实施DQN时,合理的奖励机制可以帮助提高系统的准确性。例如,当模型做出正确诊断建议时给予正向激励;反之,则施加惩罚性的负分值。这种设置有助于引导算法逐渐偏向优解的方向发展[^1]。 ```python def reward_function(action_taken, true_diagnosis): if action_taken == true_diagnosis: return 10 # 正确诊断得到较高分数作为鼓励 elif similar_conditions(action_taken, true_diagnosis): return 2 # 对相似病症给出较低但仍是正面评价 else: return -5 # 明显错误则扣分 ``` 此代码片段展示了一个简单的基于Python编写的奖励函数逻辑结构,其中`similar_conditions()`是一个假设存在的判断两个条件是否相近的功能函数。 #### 特殊情况处理 有时环境中可能存在稀疏甚至缺失的外部奖励信号,这时可以引入内在动机(intrinsic motivation),即不依赖具体任务完成度而是由好奇心驱动探索未知区域或尝试新事物所带来的内部满足感。这种方法可以在一定程度上缓解因缺乏足够外界刺激而导致的学习停滞问题[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值