强化学习与医学图像分析:方法、实验与成果
1. 强化学习控制模式与奖励函数
在强化学习中,为解决人形智能体在板上的平衡问题,设计了 6 种不同的控制模式,每种模式对智能体关节的控制约束和动作数量有所不同:
- FA - 自由模式加所有关节 :智能体可无限制地控制所有关节,无约束,是基线控制模式,动作总数为 23。
- FL - 自由模式加下半身 :智能体可独立控制下半身关节,上半身关节固定,动作总数为 10。
- PA - 平行模式(机器人配置)加所有关节 :智能体的脚需保持与地面平行,可控制上下半身关节,下半身动作采用平行方案传播,动作总数为 19。
- PL - 平行模式(机器人配置)加下半身 :智能体的脚保持与地面平行,仅控制下半身关节,上半身关节固定,动作总数为 6。
- PLS - R - 平行模式(机器人配置)加下半身 + 肩部滚动关节 :智能体的脚与地面平行,可控制下半身关节和肩部滚动关节,其余上半身关节固定,动作总数为 8。
- PLS - RP - 平行模式(机器人配置)加下半身 + 肩部滚动关节 + 肩部俯仰关节 :智能体的脚与地面平行,可控制下半身、肩部滚动和肩部俯仰关节,其余上半身关节固定,动作总数为 10。
不同控制模式下,动作空间和观察空间的维度也不同,具体如下表所示:
| 模式名称 | 观察空间维度 | 动作空间维度 |
| — | — | — |
| FA
超级会员免费看
订阅专栏 解锁全文
2180

被折叠的 条评论
为什么被折叠?



