高斯过程强化学习:原理、算法与应用
1. 高斯过程强化学习定义
高斯过程强化学习是一类强化学习(RL)算法,利用高斯过程(GPs)对问题的某些方面进行建模和学习。这类方法大致可分为两类:
1. 基于模型的方法 :使用GPs学习强化学习问题背后马尔可夫决策过程(MDP)的转移和奖励模型,然后用估计的MDP模型计算真实MDP的近似解。
2. 无模型的方法 :不维护MDP的显式表示,而是使用GPs学习MDP的值函数、状态 - 动作值函数或其他可用于解决MDP的量。本文主要关注无模型方法,因为这是该领域已发表研究的主流。
2. 动机与背景
强化学习旨在解决在陌生、不确定和动态环境中实现长期目标的学习问题。通常将环境建模为MDP(或更一般的部分可观测MDP,即POMDP),将智能体建模为实现动作选择策略的自适应控制器。
2.1 马尔可夫决策过程
离散时间MDP可表示为一个元组 $(X, U, p_0, p, q, \gamma)$,其中:
- $X$ 和 $U$ 分别是状态和动作空间。
- $p_0(\cdot) \in P(X)$ 是初始状态的概率密度。
- $p(\cdot|x, u) \in P(X)$ 是基于当前状态 $x$ 和动作 $u$ 的后继状态的概率密度。
- $q(\cdot|x, u) \in P(R)$ 是基于当前状态和动作的即时单步奖励的概率分布,用 $R(x, u)$ 表示根据 $q(\cdot|x, u)$ 分布的随机变量。
- $\gamma \in [0, 1]$ 是
超级会员免费看
订阅专栏 解锁全文
3694

被折叠的 条评论
为什么被折叠?



