41、用于真实服务机器人的两阶段关系强化学习与连续动作

最新推荐文章于 2025-11-10 13:49:17 发布

原创最新推荐文章于 2025-11-10 13:49:17 发布 · 30 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#服务机器人 # 强化学习 # 关系表示

探秘MICAI 2009：人工智能的前沿进展专栏收录该内容

82 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

用于真实服务机器人的两阶段关系强化学习与连续动作

1. 引言

如今，服务机器人在各种场景中得到了广泛应用，如家庭和办公室。然而，它们的全面应用和接受程度取决于其学习新任务的能力。强化学习（RL）被认为是机器人学习任务的一个不错选择，但传统的 RL 技术存在一些问题：
1. 机器人传感器产生大量数据。
2. 搜索空间大。
3. 使用离散动作。
4. 无法重用先前学习的策略。

为了解决这些问题，本文提出了 TS - RRLCA（两阶段关系强化学习与连续动作）方法。该方法分为两个阶段，第一阶段将机器人传感器的低级信息转换为关系表示，生成具有离散动作的关系控制策略；第二阶段通过快速局部加权回归（LWR）将离散动作策略转换为连续动作策略。

2. 相关工作

近年来，人们对机器人控制任务的适应性越来越感兴趣。一些方法使用关系表示来转移学习知识并利用训练示例加速学习，但它们仅考虑离散动作。还有一些方法通过用户命令优化自主控制策略或通过远程操作学习状态 - 动作对，但同样使用离散动作且无法转移学习知识。另外，一些策略通过近似状态空间上的连续函数来实现连续动作，但计算成本高且训练时间长。

3. 自然地标表示

机器人执行任务时，传感器会返回大量数据。TS - RRLCA 使用基于[6,10]的过程来生成更有意义的信息。通过激光传感器读数可以识别三种自然地标：不连续性、角落和墙壁，还可以通过声纳识别障碍物。自然地标用一个四元组 (DL, θL, A, T) 表示，其中 DL 和 θL 分别是地标到机器人的相对距离和方向，T 是地标类型，A 是独特属性。

同时，激光读数数据还用于