42、机器人相关技术:连续动作强化学习与立体视觉人员检测

机器人相关技术:连续动作强化学习与立体视觉人员检测

1. 连续动作的两阶段关系强化学习

1.1 相对距离计算与权重分配

首先,通过公式 (d = \sqrt{a^2 + a’^2 - 2aa’ \cos(\theta)}) 计算机器人 (R) 和 (R’) 之间的相对距离 (d)。计算出该值后,使用核函数为其分配权重 (w)。这个权重会与 (R’) 机器人的 (r) - 动作的速度和角度值相乘,得到加权后的速度和角度值,再将其与 (R) 机器人的速度和角度值相加。此过程会应用于从数据库中读取的每个 (r) - 状态描述与 (R) 相同的记录,并且每当机器人到达新的 (r) - 状态时都会重复。

1.2 实验设置

  • 机器人配置 :实验在模拟环境(Player/Stage)和真实机器人(ActivMedia GuiaBot)上进行。两种机器人都配备了 180° 前置 SICK 激光传感器和 4 个后置声纳(-170°,-150°,150° 和 170°),激光范围为 8.0m,声纳范围为 6.0m。
  • 任务类型 :实验任务包括在环境中导航和跟踪物体。
  • 策略生成 :在图 5 所示的地图 1 中进行策略生成过程。对于每个任务,在该地图中生成 15 条轨迹。导航任务中,使用相关方法计算机器人和目标的全局位置;跟踪任务中,使用第二个机器人,通过激光传感器计算其方向和角度。对每组轨迹应用 BC 方法抽象 (r) - 状态并诱导相关 (r) - 动作,然后使用 (rQ) - 学习学习策略。生成策略时
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值