强化问题的渐近可学习性
1. 引言
在强化学习问题中,我们不依赖 POMDP 假设,也不讨论环境的状态,仅关注观测值。每个(策略,环境)对 (π, μ) 会生成一个输入/输出序列 (z_{πμ}^1 z_{πμ}^2 \cdots)。从数学角度看,历史 (z_{πμ}^{1:k}) 是一个随机变量,其概率为:
[P[z_{πμ}^{1:k} = z_{1:k}] = π(y_1) \cdot μ(x_1|y_1) \cdot \cdots \cdot π(y_k|z_{<k}) \cdot μ(x_k|z_{<k}y_k)]
由于价值最大化策略通常可选择为确定性策略,所以我们后续考虑确定性策略 (p)。假设 (\mu \in C) 是真实但未知的环境,(\nu \in C) 是一般环境。
2. 基本设定
2.1 平均价值随机变量
对于环境 (\nu) 和策略 (p),定义随机变量(上下平均价值):
- 上平均价值:(V^-(\nu, p) := \limsup_{m} \left(\frac{1}{m} r_{p\nu}^{1..m}\right))
- 下平均价值:(V^+(\nu, p) := \liminf_{m} \left(\frac{1}{m} r_{p\nu}^{1..m}\right))
其中 (r_{1..m} := r_1 + \cdots + r_m)。若存在常数 (V) 使得 (V^-(\nu, p) = V^+(\nu, p) = V) 几乎必然成立,则称极限平均价值存在,记为 (V(\nu, p) := V)。
超级会员免费看
订阅专栏 解锁全文
486

被折叠的 条评论
为什么被折叠?



