强化学习:模型学习与多智能体探索
1. 学习世界模型
1.1 使用自助法的集成模型估计不确定性
估计不确定性的另一种方法是使用自助法(bootstrapping)。它比贝叶斯神经网络更容易实现,但理论性稍弱。自助法的操作是,为函数 (f) 训练多个(例如 10 个)神经网络,每个网络使用从原始数据集有放回重采样的数据进行训练。在规划过程中,我们会对这些多个神经网络给出的奖励求平均值,以此来评估动作序列 (A)。
1.2 从复杂观测中学习模型
当面临部分可观测环境(智能体看到的是 (o_t) 而非 (s_t))或高维观测(如图像)时,之前描述的方法实现起来会变得复杂。
- 部分可观测环境 :可以使用长短期记忆(LSTM)模型来表示 (f),LSTM 是循环神经网络(RNN)架构的一种,它能记住过去的观测,有助于揭示环境中的隐藏状态。
- 高维观测 :常见的做法是将高维观测(如图像)编码为紧凑向量,变分自编码器(VAEs)是实现这种表示的常用选择。
- 部分可观测且有图像观测的环境 :需要先将图像转换为编码,使用 RNN 预测对应下一个观测的编码,再通过这个 (f) 进行规划。
2. 统一基于模型和无模型的方法
2.1 Q - 学习回顾
动作值函数的定义为:
[Q(s, a) = E[R_{t + 1} + \gamma \max_{a’} Q(S_{t + 1}, a’) | S_t = s, A_t = a]]
由于状态转移
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



