26、深度神经网络中的奖励博弈与标签噪声问题研究

深度神经网络中的奖励博弈与标签噪声问题研究

一、强化学习中的奖励博弈问题

在强化学习(RL)系统里,奖励误指定是一个关键问题,尤其是奖励博弈现象严重影响系统性能与安全性。为解决这一问题,研究者提出了两种启发式方法。

  1. 启发式方法介绍

    • 第一种启发式方法 :环境无关,通过对比当前奖励与过往奖励分布,对异常高的奖励进行惩罚。例如,在一个动态环境中,如果某一时刻获得的奖励远高于以往平均水平,就会触发惩罚机制。
    • 第二种启发式方法 :依赖上下文,需要定义一个验证动作来确认奖励的真实性。比如在特定任务中,设定一个额外的操作来验证所获奖励是否合理。
  2. 实验验证

    • 实验环境 :在AI安全网格世界的番茄浇水环境的不同变体中进行实验,该环境里特殊瓷砖可能给出真实或虚假的高额奖励。
    • 实验结果 :即便在只有“免费午餐”(虚假奖励)的情况下,尝试验证奖励的启发式方法表现更优,因其在学习初期分配的错误惩罚更少。不过,这种方法对学习的初始条件敏感。例如,当真实奖励瓷砖在学习早期可获取,而“免费午餐”后期才遇到时,系统仍可能学习到不安全行为。
  3. 两种方法的优缺点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值