30、通用折扣与平均奖励的比较

通用折扣与平均奖励的比较

在强化学习领域,智能体与环境的交互循环中会获得相应的奖励。本文将深入探讨从第 1 个循环到第 m 个循环的平均奖励(平均价值 U)与从第 k 个循环到无穷的未来折扣奖励(折扣价值 V)之间的关系。我们会考虑任意(非几何)折扣序列和任意奖励序列(非马尔可夫决策过程环境)。

1. 引言

在强化学习的设定中,智能体与环境按循环进行交互。在第 k 个循环中,智能体执行动作 $a_k$,然后进行观察 $o_k$ 并获得奖励 $r_k$,之后进入下一个循环 $k + 1$。为简化问题,我们假设智能体和环境都是确定性的。

通常,我们关注能让智能体获得高奖励的动作序列,也就是计划或策略。衡量性能最简单合理的方法是总奖励之和,等价于平均奖励,即平均价值 $U_{1m} := \frac{1}{m} \sum_{i = 1}^{m} r_i$,这里的 m 通常被认为是智能体的寿命。然而,这个方法存在一些问题:
- 寿命 m 往往事先未知,例如系统的运行时间常取决于其表现。
- 该方法对奖励获得的时间不敏感,无论奖励是早期还是晚期获得,只要值相同就无差异。当考虑 $m \to \infty$ 时,这种不敏感性可能会导致严重问题。例如,一个智能体在首次执行动作 $a_k = b$ 之前没有奖励,之后获得奖励 $\frac{k - 1}{k}$。对于有限的 m,从动作 a 切换到 b 的最优 k 值为 $k_{opt} = m$。当 $m \to \infty$ 时,$k_{opt} \to \infty$,这意味着追求奖励最大化的智能体实际上总是执行动作 a,最终奖励为零,尽管本可以获得接近 1 的奖励。

另一种方法是采用移动视野。在第

【永磁同步电机】基于模型预测控制MPC的永磁同步电机非线性终端滑模控制仿真研究(Simulink&Matlab代码实现)内容概要:本文围绕永磁同步电机(PMSM)的高性能控制展开,提出了一种结合模型预测控制(MPC)非线性终端滑模控制(NTSMC)的先进控制策略,并通过SimulinkMatlab进行系统建模仿真验证。该方法旨在克服传统控制中动态响应慢、鲁棒性不足等问题,利用MPC的多步预测和滚动优化能力,结合NTSMC的强鲁棒性和有限时间收敛特性,实现对电机转速和电流的高精度、快速响应控制。文中详细阐述了系统数学模型构建、控制器设计流程、参数整定方法及仿真结果分析,展示了该复合控制策略在抗干扰能力和动态性能方面的优越性。; 适合人群:具备自动控制理论、电机控制基础知识及一定Matlab/Simulink仿真能力的电气工程、自动化等相关专业的研究生、科研人员及从事电机驱动系统开发的工程师。; 使用场景及目标:①用于深入理解模型预测控制滑模控制在电机系统中的融合应用;②为永磁同步电机高性能控制系统的仿真研究实际设计提供可复现的技术方案代码参考;③支撑科研论文复现、课题研究或工程项目前期验证。; 阅读建议:建议读者结合提供的Simulink模型Matlab代码,逐步调试仿真环境,重点分析控制器设计逻辑参数敏感性,同时可尝试在此基础上引入外部扰动或参数变化以进一步验证控制鲁棒性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值