13、强化学习在自动化决策与反馈控制中的应用

强化学习在自动化决策与反馈控制中的应用

1. 背景

自适应控制自 20 世纪 60 年代起,就成为现代工程系统反馈控制中应用广泛的技术之一,在航空航天、工业过程、车辆控制和通信等领域都有可靠应用。最优控制同样应用广泛,它能设计出最小化能源、燃料消耗、性能时间等指标的反馈控制器。

传统的最优控制器通常是离线设计的,需要通过求解如 Hamilton–Jacobi–Bellman(HJB)方程(例如 Riccati 方程)来实现,这要求对系统动力学有全面的了解。而非线性系统的最优控制策略则需求解通常难以解决的非线性 HJB 方程。与之不同,自适应控制器通过实时测量系统轨迹上的数据,在线学习控制未知系统,但一般无法达到用户指定性能函数的最优。

自然界中存在着对未知系统最优控制器的实时学习现象。大多数生物为了在资源有限的环境中生存,会以最优方式行动,通过与环境互动、观察和评估奖励刺激来调整行为。受生物学习机制的启发,机器学习和人工智能领域发展出了强化学习技术。

强化学习涉及一个与环境交互的智能体,它会根据环境的反馈修改自身的行动或控制策略。其核心思想是减少预期未来奖励与实际性能之间的预测误差,且与自适应控制和最优控制在理论上密切相关。

强化学习中的一种方法基于 actor - critic 结构。在这种结构中,actor 组件向环境施加动作或控制策略,critic 组件评估该动作的价值,然后根据评估结果改进控制策略。这种结构的学习机制包括策略评估和策略改进两个步骤。

2. Markov 决策过程与随机性

Markov 决策过程(MDP)为研究强化学习提供了一个框架,许多动态决策问题都可以纳入 MDP 的范畴

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值