深度神经网络中的奖励博弈与标签噪声问题研究
一、强化学习中的奖励博弈问题
在强化学习(RL)系统里,奖励误指定是一个关键问题,尤其是奖励博弈现象严重影响系统性能与安全性。为解决这一问题,研究者提出了两种启发式方法。
-
启发式方法介绍
- 第一种启发式方法 :环境无关,通过对比当前奖励与过往奖励分布,对异常高的奖励进行惩罚。例如,在一个动态环境中,如果某一时刻获得的奖励远高于以往平均水平,就会触发惩罚机制。
- 第二种启发式方法 :依赖上下文,需要定义一个验证动作来确认奖励的真实性。比如在特定任务中,设定一个额外的操作来验证所获奖励是否合理。
-
实验验证
- 实验环境 :在AI安全网格世界的番茄浇水环境的不同变体中进行实验,该环境里特殊瓷砖可能给出真实或虚假的高额奖励。
- 实验结果 :即便在只有“免费午餐”(虚假奖励)的情况下,尝试验证奖励的启发式方法表现更优,因其在学习初期分配的错误惩罚更少。不过,这种方法对学习的初始条件敏感。例如,当真实奖励瓷砖在学习早期可获取,而“免费午餐”后期才遇到时,系统仍可能学习到不安全行为。
-
两种方法的优缺点