强化学习步长参数递归自适应与中国医疗改革机制模拟
1 强化学习步长参数递归自适应
1.1 强化学习加速方法
在强化学习加速方面,有许多相关的工作。例如,Ahmadi等人尝试将领域知识应用于特征集的选择,以此来加速学习过程。抽象特征和状态空间也是加速和扩展学习的主要方法。RASP(递归自适应步长参数)可以与这些工作相结合,增强对环境变化的适应性。
1.2 待解决问题
目前仍存在一些未解决的问题。比如,应将RASP - MSE应用于TD学习和多智能体学习,因为这些学习过程可能不遵循随机游走假设。此外,需要利用高阶导数来计算最佳步长,而不是逐步改变步长。
1.3 引理与定理证明
1.3.1 引理2证明
引理2:(\xi^{\langle k\rangle} {t + 1} = \alpha^2\sum {\tau = 0}^{\infty}\tau(1 - \alpha)^{\tau - 1}\xi^{\langle k - 2\rangle} {t - \tau})
证明过程如下:
设(\eta {t + 1} = \alpha^2\sum_{\tau = 0}^{\infty}\tau(1 - \alpha)^{\tau - 1}\xi^{\langle k - 2\rangle} {t - \tau} = \alpha^2\left[1(1 - \alpha)^0\xi^{\langle k - 2\rangle} {t - 1} + 2(1 - \alpha)^1\xi^{\langle k - 2
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



