41、用于真实服务机器人的两阶段关系强化学习与连续动作

用于真实服务机器人的两阶段关系强化学习与连续动作

1. 引言

如今,服务机器人在各种场景中得到了广泛应用,如家庭和办公室。然而,它们的全面应用和接受程度取决于其学习新任务的能力。强化学习(RL)被认为是机器人学习任务的一个不错选择,但传统的 RL 技术存在一些问题:
1. 机器人传感器产生大量数据。
2. 搜索空间大。
3. 使用离散动作。
4. 无法重用先前学习的策略。

为了解决这些问题,本文提出了 TS - RRLCA(两阶段关系强化学习与连续动作)方法。该方法分为两个阶段,第一阶段将机器人传感器的低级信息转换为关系表示,生成具有离散动作的关系控制策略;第二阶段通过快速局部加权回归(LWR)将离散动作策略转换为连续动作策略。

2. 相关工作

近年来,人们对机器人控制任务的适应性越来越感兴趣。一些方法使用关系表示来转移学习知识并利用训练示例加速学习,但它们仅考虑离散动作。还有一些方法通过用户命令优化自主控制策略或通过远程操作学习状态 - 动作对,但同样使用离散动作且无法转移学习知识。另外,一些策略通过近似状态空间上的连续函数来实现连续动作,但计算成本高且训练时间长。

3. 自然地标表示

机器人执行任务时,传感器会返回大量数据。TS - RRLCA 使用基于[6,10]的过程来生成更有意义的信息。通过激光传感器读数可以识别三种自然地标:不连续性、角落和墙壁,还可以通过声纳识别障碍物。自然地标用一个四元组 (DL, θL, A, T) 表示,其中 DL 和 θL 分别是地标到机器人的相对距离和方向,T 是地标类型,A 是独特属性。

同时,激光读数数据还用于

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值