强化学习的探索空间在哪?道翰天琼认知智能机器人平台API接口大脑为您揭秘。
探索 VS 利用,这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而,在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题,因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化,而探索仍然更像是一个开放性话题。本文讨论几种常见的深度强化学习探索策略。由于这个话题非常庞大,本文并不能涵盖所有的内容。
1
经典探索策略首先介绍几种经典的探索算法,这些算法在多臂老虎机问题或简单的表格型强化学习中颇具成效。
-贪婪:智能体以较小的概率 进行随机探索,在大多数情况以概率 选择当前的最优动作。
置信区间上界(UCB):智能体选择当前最优的动作来最大化置信区间上界 ,其中 是到时间 t 为止与动作 a 有关的平均奖励函数, 是与已执行动作 a 的次数成反比的函数。
玻尔兹曼探索策略:智能体根据学习到的由温度参数 调节的Q值,从玻尔兹曼分布(softmax函数)中选择动作。
汤普森采样:智能体将追踪记录的最优动作概率作为先验分布,然后从这些分布中采样。当神经网络用于函数逼近时,以下策略可以在深度强化训练中使智能体更好地探索:熵损失正则项:在损失函数中加入熵正则项 ,鼓励智能体选择包含多元化动作的策略。基于噪声的探索:在观察、动作甚至在参数空间中添加噪声。
2
探索问题之关键
当环境提供奖励的能力非常有限或者环境有干扰噪声时,模型探索的难度会增大。
1、硬探索问题
“硬探索”问题是指在奖励非常稀少甚至具有欺骗性的环境中进行探索。在这种情况下进行随机探索基本无法找到成功的状态或获得有意义的反馈。蒙特祖玛复仇游戏是硬探索问题的一个具体实例。深度强化学习仍然需要解决雅达利游戏中的一些挑战性难题。许多论文都应用蒙特祖玛复仇游戏的环境对自己的模型进行评估。
2、电视加噪问题
“电视加噪”问题源于2018年论文《Exploration by Random Network Distillation》中的一项实验。实验限定智能体通过观察新颖的画面就能获得奖励,如果播放的电视节目中加入了不可控和不可预测的随机噪声,就能够一直吸引智能体的注意。 该智能体会持续地从含有噪声的电视节目中获得新的奖励,但未能取得任何有意义的进步。图1:实验中,一个智能体因观察新颖的画面而获得奖励。如果迷宫中播放了加噪TC版影片,则会吸引智能体的注意力,使其停止在迷宫中移动(图片来源:OpenAI博客:“基于奖励的强化学习预测研究”)
3
内在奖励作为额外的探索奖励对于解决硬探索问题,一种常用的探索方法是用附加的奖励信号来增加环境奖励,鼓励智能体进行持续的探索。因此,策略的训练由两项组成, ,其中

本文探讨强化学习中的探索与利用平衡,介绍经典探索算法如ε-贪婪、UCB、玻尔兹曼策略及汤普森采样,同时深入讨论深度强化学习环境下如何通过熵损失、噪声注入及内在奖励促进有效探索,特别关注硬探索问题与电视加噪问题。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



