41、强化问题的渐近可学习性

最新推荐文章于 2025-11-10 16:01:27 发布

assembly8low

最新推荐文章于 2025-11-10 16:01:27 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习理论前沿探析文章标签：强化学习价值稳定性自我优化策略

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/153553387

机器学习理论前沿探析专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化问题的渐近可学习性

1. 引言

在强化学习问题中，我们不依赖 POMDP 假设，也不讨论环境的状态，仅关注观测值。每个（策略，环境）对 (π, μ) 会生成一个输入/输出序列 (z_{πμ}^1 z_{πμ}^2 \cdots)。从数学角度看，历史 (z_{πμ}^{1:k}) 是一个随机变量，其概率为：
[P[z_{πμ}^{1:k} = z_{1:k}] = π(y_1) \cdot μ(x_1|y_1) \cdot \cdots \cdot π(y_k|z_{<k}) \cdot μ(x_k|z_{<k}y_k)]
由于价值最大化策略通常可选择为确定性策略，所以我们后续考虑确定性策略 (p)。假设 (\mu \in C) 是真实但未知的环境，(\nu \in C) 是一般环境。

2. 基本设定

2.1 平均价值随机变量

对于环境 (\nu) 和策略 (p)，定义随机变量（上下平均价值）：
- 上平均价值：(V^-(\nu, p) := \limsup_{m} \left(\frac{1}{m} r_{p\nu}^{1..m}\right))
- 下平均价值：(V^+(\nu, p) := \liminf_{m} \left(\frac{1}{m} r_{p\nu}^{1..m}\right))
其中 (r_{1..m} := r_1 + \cdots + r_m)。若存在常数 (V) 使得 (V^-(\nu, p) = V^+(\nu, p) = V) 几乎必然成立，则称极限平均价值存在，记为 (V(\nu, p) := V)。