28、深度强化学习中的状态设计

深度强化学习中的状态设计

1. 信息测量与环境设计

在信息时代,我们习惯对事物进行测量,例如汽车喇叭声、静音手机的震动,这些都是系统信息可被测量和表示的例子。良好的环境设计能加速研究和应用,同时需要经过充分测试,以避免用户在与工作无关的问题上浪费时间。

OpenAI Gym 的出现就是为了提供一套标准且强大的环境,它包含大量精心设计状态、动作和奖励的环境。其良好的设计、易用性和宽松的许可,为研究人员提供了测试平台,推动了该领域的发展,成为深度强化学习中事实上的标准环境之一。

虽然状态设计在深度强化学习中很重要,但目前缺乏正式和全面的指导原则。掌握状态设计技能,或至少理解它,对掌握强化学习算法的核心知识是有补充作用的,否则无法解决新问题。

2. 状态完整性

2.1 问题信息的充分性

设计原始状态时,最重要的是判断原始状态是否包含解决问题所需的足够信息。一般来说,先思考人类解决问题需要知道什么信息,再考虑这些信息是否可从环境中获取。

如果信息完整,问题就是完全可观测的,如国际象棋可通过棋盘上所有棋子的位置完全表示;若信息不完整,问题则是部分可观测的,如扑克游戏中玩家无法看到其他玩家的牌。

然而,包含完整信息的状态虽理想,但并非总能实现,可能受理论或实际限制。有时理论上状态是完全可观测的,但由于噪声、环境不完善或其他未考虑因素,实际并非如此。例如在现实机器人场景中,信号从计算机传输到电机需要时间,高精度控制就需考虑这些影响。

2.2 部分可观测状态的影响

当状态部分可观测时,信息不完整的影响差异很大。如果环境中的噪声和延迟不大,智能体可

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值