1、假设我们从初始值函数估计 V(x) = 0 开始,其中 x 属于集合 X。(i) 首先考虑我们仅获得单个状态 x 的样本回报的情况。证明在这种情况下,使用 αk = 1/(k + 1) 的增量蒙特卡罗算法(公式 3.6)等价于计算 x 的样本均值蒙特卡罗估计。即,在处理完样本回报 g1, …, gK 后,我们有 VK(x) = (1/K) * ∑(i = 1 到 K) gi。(ii) 现在考虑源状态从分布 ξ 中抽取的情况,其中对于所有 x,ξ(x) > 0,并且设 Nk(xk) 是在第 k 次之前(不包括第 k 次)状态 xk 被更新的次数。证明与样本均值蒙特卡罗估计相匹配的合适步长是 αk = 1/(Nk(xk)+1)。
(i) 已知初始值函数估计 $ V(x) = 0 $ 对于所有 $ x \in X $,增量蒙特卡罗算法更新规则为
$$ V(x_k) \leftarrow (1 - \alpha_k)V(x_k) + \alpha_k g_k $$
这里 $ \alpha_k = \frac{1}{k + 1} $。
当 $ k = 1 $ 时,
$$ V_1(x) = \left(1 - \frac{1}{2}\right) \times 0 + \frac{1}{2} \times g_1 = \frac{g_1}{2} $$
当 $ k = 2 $ 时,
$$
V_2(x) = \left(1 - \frac{1}{3}\right)V_1(x) + \frac{1}{3} \times g_2
= \frac{2}{3} \times \frac{g_1}{2} + \frac{1}{3} \times g_2
= \frac{g_1 + g_2}{3}
$$
以此类推,假设
$$ V_k(x) = \frac{1}{k} \sum_{i=1}^{k} g_i $$
当 $ k+1 $ 时,
$$
V_{k+1}(x)
= \left(1 - \frac{1}{k + 2}\right)V_k(x) + \fra

最低0.47元/天 解锁文章
24

被折叠的 条评论
为什么被折叠?



