深度强化学习中的网络选择与Net API详解
1. 环境类型与网络选择
在深度强化学习中,选择合适的神经网络架构对于解决特定环境问题至关重要。环境可分为马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP),而POMDP又可细分为给定部分历史可完全观测、给定完整历史可完全观测以及永远不可完全观测三种类型。
以DMLab - 30库中的 natlab_varying_map_regrowth 蘑菇觅食任务为例,这是一个POMDP环境。在该任务中,智能体需在自然环境中收集蘑菇,观测状态是基于智能体当前视角生成的RGBD图像。蘑菇大约一分钟后会在相同位置重新生长,因此智能体记住已收集的蘑菇及其时间是有利的。而且,为了推断游戏的内部状态,智能体所需的观测状态数量会随时间步和采取的行动而变化,所以使用完整的观测状态历史有助于智能体不遗漏重要信息。
还有一些永远不可完全观测的环境,例如扑克游戏,即使记住所有已发的牌,也无法知道其他玩家手中的牌;又如在一个大房间中导航到红色球的任务,智能体配备的是灰度相机,无法感知球的颜色,因此永远没有足够的信息来完成任务。
那么,如何为新环境选择合适的网络呢?
- 判断环境类型 :
- 先花时间了解环境,考虑人类会如何解决任务,有条件的话亲自体验环境。
- 基于单个观测状态中的信息,能否在每个时间步决定一个好的行动?如果可以,环境可能是MDP。
- 如果不行,那么为了表现良好,需要记住多少个观测状态?是几个状态还是完整历史?分别对应给定部分历史可完全观测的POMDP或给定完整历史可完全观测的POMDP。
-
超级会员免费看
订阅专栏 解锁全文
1109

被折叠的 条评论
为什么被折叠?



