连续动作博弈中的学习与参数选择
1. 连续动作博弈学习理论基础
在连续动作博弈学习的相关理论中,有一些重要的结论和不等式推导。对于任意 (n \geq n_0),由于 (m \geq N_2) 且离散测度的总变差收敛等价于弱收敛,根据引理 3.6.5 可知,存在 (n_0 = n_0(\epsilon)),使得对于任意 (n \geq n_0) 和 (\delta < \frac{1}{n}),有:
(\left|\int_{A} f(x)\pi_{disc}^{\delta,n}(dx) - \int_{A} f(x)\pi_{c}^{\delta,n}(dx)\right| \leq \frac{\epsilon}{4})
结合另一个不等式,可进一步推出对于任意 (n \geq n_1(\epsilon) = \max(n_0, n_0)) 和 (\delta < \frac{1}{n}),有:
(\left|\int_{A} f(x)\Pi_{\delta}(dx) - \int_{A} f(x)\pi_{c}^{\delta,n}(dx)\right| \leq \frac{\epsilon}{2})
再根据引理 3.6.6,存在 (\delta_0(\epsilon)),使得对于任意 (\delta \leq \delta_0) 和 (n \geq 2),有:
(\left|\int_{A} f(x)\pi_{c}^{\delta,n}(dx) - \int_{A} f(x)\Pi^{ }(n)(dx)\right| \leq \frac{\epsilon}{2})
综合上述不等式,对于任意 (\epsilon > 0),
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



