研究背景与意义
随着家庭智能化需求升级,传统机器人系统面临多模态指令理解和动态环境适应的双重挑战。上海人工智能实验室(上海AI实验室)联合多所高校,基于松灵Ranger mini3.0移动机器人底盘,研发了VLM驱动的任务规划框架AlignBot,实现了用户个性化需求与机器人任务执行的高效对齐。
核心技术创新
1.多模态适配器:LLaVA-7B微调
语义理解增强:通过1,500+多模态数据集(涵盖80种物品、20类任务)分阶段训练,提升对物体状态(如抽屉开闭)、用户偏好(如无糖饮食)的识别精度。
结构化指令生成:将用户提醒分类为个性化偏好、纠正性指导和情境辅助等,并转化为GPT-4o可解析的指令格式。
2.动态案例检索机制
历史案例匹配:基于TF-IDF和余弦相似度筛选任务相关案例,通过ε-Greedy策略平衡探索与利用。
优先级动态更新:结合梯度机制优化历史案例权重,提升长时任务规划的鲁棒性。
3.硬件支持:松灵Ranger mini3.0底盘
灵活移动平台:松灵Ranger mini3.0提供高精度导航与复杂地形适应能力,支持家庭多场景无缝切换。
高效执行系统:搭载UFACTORY XArm机械臂,集成ACT算法(复杂动作控制)与AnyGrasp方法(智能抓取),实现“规划-执行”闭环。
实验验证与成果
在模拟家庭环境的实验室中展开,构建了厨房、客厅和桌面场景,涵盖20种日常任务,涉及6类物体,80多个独特物品。任务涵盖了简单和复杂的不同种类。志愿者参与了与GPT-4o的互动,并对生成的任务计划和线索进行评估。
实验结果:
AlignBot的任务成功率达到86.8% ,相比之下,普通GPT-4o基线的成功率仅为21.6%。在指令生成质量方面,微调后的LLaVA平均用户评分为2.75分(满分3分),远高于其他基线。这充分证明了AlignBot在对接用户提醒、生成准确任务计划和高质量线索方面的卓越能力。
硬件性能亮点:
在“台面物品收纳”任务中,松灵Ranger mini3.0实现厘米级定位精度,配合机械臂完成抽屉开闭、物品分类等复杂动作,成功率提升4倍。
动态负载测试显示,底盘在满载(5kg)状态下仍保持稳定移动,适应地毯、瓷砖等多种地面材质。
基于松灵Ranger mini3.0的VLM的任务规划系统,打造家庭智能助手新标杆
应用价值与展望
AlignBot在优化家用机器人任务规划与用户提醒对接方面迈出了重要一步。它通过创新的微调策略和基于案例的学习方法,提升了机器人任务规划的准确性。未来,随着技术的不断进步,AlignBot有望进一步提升性能,在更多场景中发挥作用,让家用机器人真正成为我们生活中的贴心伙伴,为我们带来更加便捷、智能的生活体验。