深度强化学习中的状态设计
1. 信息测量与环境设计
在信息时代,我们习惯对事物进行测量,例如汽车喇叭声、静音手机的震动,这些都是系统信息可被测量和表示的例子。良好的环境设计能加速研究和应用,同时需要经过充分测试,以避免用户在与工作无关的问题上浪费时间。
OpenAI Gym 的出现就是为了提供一套标准且强大的环境,它包含大量精心设计状态、动作和奖励的环境。其良好的设计、易用性和宽松的许可,为研究人员提供了测试平台,推动了该领域的发展,成为深度强化学习中事实上的标准环境之一。
虽然状态设计在深度强化学习中很重要,但目前缺乏正式和全面的指导原则。掌握状态设计技能,或至少理解它,对掌握强化学习算法的核心知识是有补充作用的,否则无法解决新问题。
2. 状态完整性
2.1 问题信息的充分性
设计原始状态时,最重要的是判断原始状态是否包含解决问题所需的足够信息。一般来说,先思考人类解决问题需要知道什么信息,再考虑这些信息是否可从环境中获取。
如果信息完整,问题就是完全可观测的,如国际象棋可通过棋盘上所有棋子的位置完全表示;若信息不完整,问题则是部分可观测的,如扑克游戏中玩家无法看到其他玩家的牌。
然而,包含完整信息的状态虽理想,但并非总能实现,可能受理论或实际限制。有时理论上状态是完全可观测的,但由于噪声、环境不完善或其他未考虑因素,实际并非如此。例如在现实机器人场景中,信号从计算机传输到电机需要时间,高精度控制就需考虑这些影响。
2.2 部分可观测状态的影响
当状态部分可观测时,信息不完整的影响差异很大。如果环境中的噪声和延迟不大,智能体可
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



