强化学习中的替代内在奖励机制与多智能体学习
1. 稀疏奖励问题与好奇心奖励
在强化学习中,稀疏奖励问题是一个严重的挑战。当环境很少产生有用的奖励信号时,普通深度强化学习(DRL)的学习方式会受到极大的阻碍。为了解决这个问题,我们可以创建合成奖励信号,也就是好奇心奖励。
好奇心模块会根据环境下一状态的不可预测性来创建合成奖励,鼓励智能体探索环境中更不可预测的部分。例如,在一些游戏环境中,智能体可能很长时间都得不到奖励,这时好奇心奖励就可以引导智能体去探索未知区域。
2. 内在好奇心模块(ICM)
内在好奇心模块(ICM)由三个独立的神经网络组成:
- 编码器 :将高维状态编码为具有高级特征的低维向量,去除噪声和琐碎特征。例如,在处理图像状态时,编码器可以提取出关键的特征信息。
- 前向预测模型 :预测下一个编码状态,其误差提供好奇心信号。如果预测误差大,说明下一状态不可预测,智能体就会获得较高的好奇心奖励。
- 逆模型 :通过接收两个连续的编码状态并预测所采取的动作来训练编码器。
3. 替代内在奖励机制
除了ICM,还有许多其他的替代方法。
- 预测误差(PE)方法 :智能体试图减少预测误差,也就是减少对环境的不确定性。它通过主动寻找新奇事物来实现这一目标,以免被意外情况所困扰。
- 智能体赋能方法 :与最小化预测误差并使环境更可预测不同,赋能策略优化智能体以最大化其对环境的控制
超级会员免费看
订阅专栏 解锁全文
755

被折叠的 条评论
为什么被折叠?



