MARS: Multi-Agent Robotic System with Multimodal Large Language Models for Assistive Intelligence

在这里插入图片描述

一、文章主要内容总结

该研究针对智能家居中残障人士辅助机器人的需求,提出了一种基于多模态大型语言模型(MLLMs)的多智能体协作系统MARS(Multi-Agent Robotic System),旨在解决现有系统在风险感知规划、用户个性化适配及语言计划落地执行等方面的不足。

系统核心架构包含四大智能体模块,形成“感知-推理-规划-评估”的闭环流程:

  1. 视觉感知智能体:融合CLIP和DeepLab v3等模型,提取环境图像的全局语义特征、目标分割及空间信息,生成结构化场景描述;
  2. 风险评估与推理智能体:基于预定义风险分类表(涵盖障碍物、可达性、碰撞风险等6大类),结合语义推理量化风险严重程度、紧急性及优先级;
  3. 规划智能体:将风险任务映射为机器人可执行的动作序列(如障碍物清除、路径引导),并考虑动作可行性与执行成本;
  4. 评估与优化智能体:从辅助用户体验、任务效率、透明度、伦理社会适配四大维度评估计划,通过闭环反馈迭代优化。

实验方面,在自建多场景数据集(含室内简单/复杂场景、漫画风格场景)及跨域数据集(如LLM-SAP、Home Fire Dataset)上验证,结果表明MARS在风险感知规划、多智能体协同执行等方面优于现有主流多模态模型(如LLaVA

### MOKA 开放世界机器人操作概述 MOKA 是一种创新性的框架,旨在使机器人能够在开放环境中执行复杂的操纵任务。该框架利用基于标记的视觉提示技术来指导机器人的动作[^1]。 #### 基于标记的视觉提示机制 为了实现在未知环境下的有效交互,MOKA 使用特定设计的视觉标记作为引导信号。这些标记被放置在目标物体周围或表面上,提供给机器人清晰可见的位置指示和操作指令。当摄像头捕捉到带有编码信息的图像时,算法会解析其中蕴含的数据并转换成具体的运动命令。这种方法不仅提高了识别精度,而且简化了训练模型所需的数据集构建过程。 ```python def parse_visual_prompt(image): """ 解析来自图像中的视觉标记,并返回相应的操作指令。 参数: image (numpy.ndarray): 输入RGB图像 返回: dict: 包含位置和其他必要参数的操作指令字典 """ markers = detect_markers_in_image(image) instructions = {} for marker_id, position in markers.items(): instruction = decode_marker(marker_id) instructions.update({ 'position': position, **instruction }) return instructions ``` #### 实现细节与优势 - **鲁棒性**: 即便是在光照变化较大或者存在遮挡的情况下,精心设计的标记依然能够保持较高的检测成功率; - **灵活性**: 可以轻松调整不同场景下的需求,只需改变所使用的标记样式即可适应新的应用场合; - **效率高**: 减少了对大规模标注数据的需求,在一定程度上降低了开发成本和技术门槛; 通过上述方式,MOKA 成功实现了让机器人理解复杂多变的真实世界的潜力,为自动化领域带来了全新的可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值