Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems,2024, Huaiyuan Jiang , Bin Zhou , Senior Member, IEEE, and Guang-Ren Duan , Fellow, IEEE
对离散时间线性系统的最优控制问题,重新考虑和重述了λ−PI\lambda-PIλ−PI算法。给出传统λ−PI\lambda-PIλ−PI新的特性,改进传统该算法证明其收敛性。基于现有算法,初始条件放宽。根据新的矩阵秩条件提出数据驱动的可行性。
λ−PI\lambda-PIλ−PI平衡PI和VI算法,以off-policy针对LQR问题。改进λ−PI\lambda-PIλ−PI,增加修正回路,可保证迭代过程中迭代矩阵序列有界,使其与传统的PI和λ−PI\lambda-PIλ−PI相比,放宽了初始条件。即初始控制器不需要是可容许的。
选取λ\lambdaλ与算法收敛性分析的关系,给出初始条件选取方法。基于数据驱动和模型算法的等价性,以统一条件验证提出数据驱动算法的可行性。
传统λ−PI\lambda-PIλ−

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



