视觉语言导航VLN都有哪些主流方法论?
具身智能之心 具身智能之心 2025年04月01日 08:03 上海
机器人导航,具身智能的半壁江山
具⾝智能是赋予人工智能与物理世界交互能⼒的学科,其中的能力可以拆解为抓取跟移动两项技能。机器⼈如何理解语⾔指令、感知周围环境,规划运动策略是具⾝智能研究中的核心命题。视觉语⾔导航(VLN)任务囊括了这三个方面,是其中的代表性方向。
VLN要求机器人在陌生的3D环境中,根据自然语言指令,利用视觉信息探索环境并导航至目标位置。不同于传统导航,VLN并非单纯依赖传感器或预设路径,而是通过多模态融合完成复杂任务。从2018年R2R基准被提出以来,VLN吸收了预训练大模型,自动驾驶,3D视觉等方向的前沿技术与思想,评测效果不断提升,多种评测基准不断 涌现。DeepMind, 密歇根的SLED实验室和中山大学的人机物实验室都在这个领域有深⼊研究。如今,VLN仍在指令与视觉信息推理,环境信息表征,实际环境部署上存在许多挑战,技术上有许多可待突破的空间。
机器人导航在工业中的应用主要集中于物流配送和服务机器人。过去仓储系统内的配送传统依赖路径规划和传感器,以亚马逊机器⼈和京东X无人车为代表的公司正在探索视觉语⾔导航技术,增强机器⼈对复杂环境的适应能力。在终端配送场景,社交导航和视觉语言导航是解决机器人应对动态环境和⼈类交互的核心技术,美团的无人配送车和美国Starship Technologies的园区配送车正在这个方向发力。此外,在医疗、酒店和餐厅等场景,服务机器⼈可以自主完成药品、文件和餐食的配送,提高资源流动效率并优化运营。中国的嘉楠科技、云迹科技、擎朗智能、达闼科技,以及美国的Aethon公司是这些领域的头部玩家。随着⼈形机器人的发展,将视觉语言导航技术部 署到⼈形机器人上成为重要趋势,包括宇树科技、智元机器人和特斯拉在内的公司正在尝试。未来,我们将看到搭载视觉语言导航系统的人形机器⼈在家庭服务、护理服务和物流配送等领域获得更广泛的应用。
视觉语言导航的前世今生
如何能让机器人正确理解人类语言并结合视觉,做出正确导航决策,是学术界长久的思考。如何让机器人在未知环境中完成任务并理解自然语言,是工业界长期以来的研究重点。VL