机器人智能学习与控制技术:从强化学习到脑机接口
1. 机器人强化学习中的动作与状态空间
在机器人的强化学习领域,动作和状态空间的定义至关重要。输入动作是三维的,而输出值是一维的。状态空间 (S_t) 和动作空间 (A_t) 定义如下:
[
S_t = [x_e, y_e, z_e, x_t, y_t, z_t, s_m]
]
[
A_t = [\delta x, \delta y, \delta z]
]
其中,((x_e, y_e, z_e)) 是末端执行器的位置,((x_t, y_t, z_t)) 表示装配对象的目标位置,(s_m) 由状态机生成,((\delta x, \delta y, \delta z)) 是末端执行器的位移。我们通过 Tanh 层对动作输出进行归一化。
2. 基于演示的奖励机器
2.1 任务分解与状态机
强化学习中的任务分解能将任务拆分为子任务,使智能体可以独立且并行地高效学习。状态机可以根据当前信息语义化地定义机器人的状态,同时定义状态转移的条件,实现对机器人任务的更高级描述,并将高级任务描述转化为机器人的基本运动语言。
2.2 奖励机器的作用
奖励机器是用于高级任务奖励描述的强化学习方法,它允许智能体从低级任务学习到高级任务,还能计算势函数并塑造密集奖励函数。
2.3 奖励机器的构建方法
我们提出了一种基于演示构建奖励机器(RM)的方法,鼓励深度确定性策略梯度(DDPG)智能体实现目标。RM 以环境的抽象描述为输入,输出奖励函数,可用于定义时间扩展的任务和行为。具体
超级会员免费看
订阅专栏 解锁全文
795

被折叠的 条评论
为什么被折叠?



