扩展:Q-Learning 收敛性证明

下面给出 Q-learning 收敛性的一个严谨证明(针对有限状态—动作集合、贴现因子0<\gamma<1、有界奖励)。证明路线遵循“压缩映射 + 随机逼近(stochastic approximation)/ODE 法”,并兼顾异步坐标更新的事实。所用到的关键工具是:Bellman 最优算子是 \ell_\infty 范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理

1. 设定与假设:

注:实际常见的“GLIE”策略(渐近贪心且每个 (s,a) 无穷次被探索)可保证 (A1)。

2. Bellman 最优算子与不动点:

3. 将 Q-learning 写成“异步随机逼近”

4. 极限 ODE 与全局渐近稳定:

5. 随机逼近收敛定理的应用

6. 用更“可计算”的不等式再看一眼(误差的超鞅收缩)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值