机器人相关技术:连续动作强化学习与立体视觉人员检测
1. 连续动作的两阶段关系强化学习
1.1 相对距离计算与权重分配
首先,通过公式 (d = \sqrt{a^2 + a’^2 - 2aa’ \cos(\theta)}) 计算机器人 (R) 和 (R’) 之间的相对距离 (d)。计算出该值后,使用核函数为其分配权重 (w)。这个权重会与 (R’) 机器人的 (r) - 动作的速度和角度值相乘,得到加权后的速度和角度值,再将其与 (R) 机器人的速度和角度值相加。此过程会应用于从数据库中读取的每个 (r) - 状态描述与 (R) 相同的记录,并且每当机器人到达新的 (r) - 状态时都会重复。
1.2 实验设置
- 机器人配置 :实验在模拟环境(Player/Stage)和真实机器人(ActivMedia GuiaBot)上进行。两种机器人都配备了 180° 前置 SICK 激光传感器和 4 个后置声纳(-170°,-150°,150° 和 170°),激光范围为 8.0m,声纳范围为 6.0m。
- 任务类型 :实验任务包括在环境中导航和跟踪物体。
- 策略生成 :在图 5 所示的地图 1 中进行策略生成过程。对于每个任务,在该地图中生成 15 条轨迹。导航任务中,使用相关方法计算机器人和目标的全局位置;跟踪任务中,使用第二个机器人,通过激光传感器计算其方向和角度。对每组轨迹应用 BC 方法抽象 (r) - 状态并诱导相关 (r) - 动作,然后使用 (rQ) - 学习学习策略。生成策略时
超级会员免费看
订阅专栏 解锁全文
1171

被折叠的 条评论
为什么被折叠?



