Model-Free Optimal Tracking Control via Critic-Only Q-Learning

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, 2016,Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

对非仿射非线性离散时间系统,提出model-free最优跟踪控制问题。仅有评价网络的QLearning方法,根据真实系统数据学习最优跟踪控制,因此避免了求解HJB方程。Qlearning算法基于增广系统,仅使用一个神经网络近似Qfunction。考虑神经网络的近似误差证明了CoQL方法的收敛性。采用梯度下降法。CoQL是基于off-policy和仅有评价结构的方法。
为避免显式使用期望控制,利用期望参考轨迹的误差系统和指令生成器以获得增广系统,并且引入折扣因子,不需要内部动力学,采用在线策略迭代方法对线性或非线性连续系统实现最优跟踪轨迹控制 “H. Modares and F. L. Lewis, “Linear quadratic tracking control of partially-unknown continuous-time systems using reinforcement learning”,在具有输入限制的非线性离散系统“B. Kiumarsi and F. L. Lewis, “Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems,”,在无完整系统模型,利用输入输出数据求解线性离散系统的最优跟踪控制问题”B. Kiumarsi, F. L. Lewis, M.-B. Naghibi-Sistani, and A. Karimpour, “Optima

### 实现高度动态四足运动的技术细节 在现代机器人研究中,为了使四足机器人能够执行复杂且快速的动作,通常采用全身脉冲控制和模型预测控制(MPC)[^1]相结合的方法。 #### 全身脉冲控制的作用机制 全身脉冲控制关注于如何有效地管理接触力分布来完成特定的任务目标。这种策略允许机器人根据当前状态调整其肢体间的相互作用力,从而更好地适应环境变化并保持稳定。对于高速奔跑或跳跃这样的高动态行为来说尤为重要,因为它可以确保即使在不平坦的地面上也能维持良好的性能表现[^2]。 ```python def whole_body_impulse_control(contacts, desired_forces): """ 计算基于期望接触力的关节扭矩. 参数: contacts (list): 当前所有活动触地点列表 desired_forces (dict): 各个触点对应的理想施加力量字典 返回值: joint_torques (dict): 关节名称到所需产生的扭距映射表 """ # 基础逻辑框架示意代码片段 pass ``` #### 模型预测控制的应用场景 另一方面,MPC则被用来规划未来一段时间内的最优轨迹,并提前考虑到可能遇到的各种约束条件。具体而言,在每一步迭代过程中都会重新评估最新的传感器数据,进而更新接下来几秒内最合适的动作序列。这种方法特别适合处理那些具有不确定性和外部扰动的情况,比如突然改变方向或是跨越障碍物等挑战性任务[^3]。 ```matlab function [u_optimal] = mpc_controller(x_current, u_last, t_horizon) % MPC_CONTROLLER 使用给定的时间范围t_horizon计算从当前位置x_current出发的最佳输入向量u_optimal, % 考虑到最后一次使用的命令u_last作为初始猜测. % ...省略实际求解过程... end ``` 当这两种技术结合起来应用于像MIT Cheetah系列这样的高性能仿生机械时,则能显著提升它们应对各种复杂地形的能力,同时还能保证较高的能量效率[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值