高斯过程强化学习与泛化边界解析
1. 高斯过程强化学习基础
1.1 线性方程组表示
在高斯过程强化学习中,有一组线性方程可简洁表示为:
[
R_{t - 1} = H_tV_t + N_t \tag{7}
]
这里的各个符号在具体的模型中有特定的含义,它们共同构成了后续分析的基础。
1.2 一般马尔可夫回报过程(MRPs)
考虑将折扣回报 (D) 分解为其均值 (V) 和零均值残差 (\epsilon_V):
[
D(z) = E[D(z)] + (D(z) - E[D(z)]) \triangleq V(z) + \epsilon_V(z) \tag{8}
]
这种分解很有用,它分离了折扣回报过程 (D) 中固有的两种不确定性来源。对于已知的马尔可夫决策过程(MDP)模型,(V) 是一个(确定性)函数,(D) 中的随机性完全归因于 MDP 和策略对生成的轨迹中的内在随机性,由 (\epsilon_V) 建模。另一方面,在一个转移和奖励都是确定性但未知的 MDP 中,(\epsilon_V) 是确定性的(恒为零),(D) 中的随机性仅归因于外在的贝叶斯不确定性,由随机过程 (V) 建模。
将式 (8) 代入式 (2) 并重新排列,得到:
[
R(z) = V(z) - \gamma V(z_0) + N(z, z_0)
]
其中 (z_0 \sim p(\cdot | z)) 且
[
N(z, z_0) \triangleq \epsilon_V(z) - \gamma \epsilon_V(z
超级会员免费看
订阅专栏 解锁全文
638

被折叠的 条评论
为什么被折叠?



