作者:禅与计算机程序设计艺术
1.简介
强化学习(Reinforcement learning)是机器学习的一个领域,通过与环境互动获取奖励并尝试通过影响环境来最大化长期回报的技术。它通常被用于开发与任务相关的智能体(agent),其可以从一个初始状态(initial state)开始,通过执行动作(action)来影响环境,然后接收反馈(feedback)并更新自身策略(policy)。本文将讨论一种基于Actor-Critic(演员-评论家)方法的连续控制问题的强化学习。
Actor-Critic方法是一个最优控制的方法,其中智能体同时学习两个策略,即执行动作的行为模型(actor)和评估行为好坏的策略(critic)。该方法是一种在线学习的方法,智能体可以在不断的训练过程中适应环境的变化。因此,Actor-Critic方法对于解决连续控制问题特别有效。
本文假设读者对强化学习、Actor-Critic方法、连续控制问题有一定了解。如对以上任何概念、名词不熟悉,建议先阅读其他材料。
2.背景介绍
连续控制问题是指智能体与环境交互以控制其所处环境中的物理系统(例如,电机或飞机)的实时变量(例如,空气温度、位置等)。一般来说,连续控制问题是指在给定时间步长内,智能体必须输出连续值,而不是离散值,例如,在游戏中,动作可以是移动方向加速度等。
在连续控制问题中,智能体需要在输入当前状态s(例如,机器人的位置、速度、图像等)和目标状态g(例如,最终目的地、设定的航路等)的情况下,输出动作a,即使是在状态空间或动作空间连续的情况下。目标状态可以是静态的(例如,智能体必须到达某个位置),也可以是动态的(例如,智能体必须