8、递归最小二乘法与二次预测在连续多步问题中的应用

递归最小二乘法与二次预测在连续多步问题中的应用

在强化学习领域,XCSF(一种基于分类器系统的算法)的性能提升一直是研究的重点。本文将探讨递归最小二乘法(Recursive Least Squares,RLS)更新算法和二次预测在连续多步问题中的应用,并通过实验分析它们对XCSF性能的影响。

1. 算法复杂度对比

在更新所需的时间方面,Widrow - Hoff更新规则仅涉及n次标量乘法,时间复杂度为O(n);而递归最小二乘法需要进行矩阵乘法,时间复杂度为O(n²)。因此,递归最小二乘法在内存和时间需求上都比Widrow - Hoff规则更复杂。

2. 超越线性预测

通常在XCSF中,分类器预测是作为线性函数计算的,从而演化出动作值函数的分段线性近似。不过,XCSF可以很容易地扩展到多项式近似。
- 单变量状态空间 :在时间步t,分类器预测最初计算为$cl.p(s_t) = w_0x_0 + w_1s_t$,其中$x_0$是常量输入,$s_t$是当前状态。我们可以在XCSF演化的近似中引入二次项,即$cl.p(s_t) = w_0x_0 + w_1s_t + w_2s_t^2$。为了学习新的权重集,我们将通常的XCSF更新算法(如RLS或Widrow - Hoff)应用于输入向量$x_t = \langle x_0, s_t, s_t^2 \rangle$。
- 多变量状态空间 :当涉及更多变量,即$s_t = \langle s_t(1), \ldots, s_t(n) \rangle$时,我们定义$x_t = \langle x_0, s_t(1), s_t^2(

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值