高斯过程强化学习:原理与应用
一、高斯过程强化学习的定义与分类
高斯过程强化学习是一类利用高斯过程(GPs)来建模和学习强化学习(RL)问题某些方面的算法。大致可分为两类:
1. 基于模型的方法 :使用高斯过程学习强化学习问题背后马尔可夫决策过程(MDP)的转移和奖励模型,然后用估计的 MDP 模型计算真实 MDP 的近似解。
2. 无模型的方法 :不维护 MDP 的显式表示,而是使用高斯过程学习 MDP 的价值函数、状态 - 动作价值函数或其他可用于解决 MDP 的量。本文主要关注无模型方法,因为这是该领域已发表研究的主流。
二、动机与背景
强化学习旨在解决在陌生、不确定和动态环境中实现长期目标的学习问题。通常将环境建模为马尔可夫决策过程(MDP)或部分可观测马尔可夫决策过程(POMDP),将智能体建模为执行动作选择策略的自适应控制器。
马尔可夫决策过程
离散时间 MDP 是一个元组 $(X, U, p_0, p, q, \gamma)$,其中:
- $X$ 和 $U$ 分别是状态和动作空间。
- $p_0(\cdot) \in P(X)$ 是初始状态的概率密度。
- $p(\cdot|x, u) \in P(X)$ 是在当前状态 $x$ 和动作 $u$ 下,后继状态的概率密度。
- $q(\cdot|x, u) \in P(R)$ 是在当前状态和动作下,即时单步奖励的概率分布,用 $R(x, u)$ 表示根据 $q(\cdot|x, u)$ 分布的随机变量。
- $\gamma \in [0, 1]$
超级会员免费看
订阅专栏 解锁全文

2279

被折叠的 条评论
为什么被折叠?



