以VLN为代表的人形导航:包含NaVILA、NaVid等
文章平均质量分 95
视觉与语言导航(VLN)
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NavFoM——打造VLN基础模型:通过安装在机器人上的摄像头和人类下达的指令,预测移动轨迹(可跨任务、跨本体)
如果前两周去长三角,见的更多是客户的话,那么本周在北京出差的这几天,见的更多是合作伙伴,比如千寻、智元、北京人形等等说到导航,这两天 则又看到了本文正要解读的NavFoM,个人觉得,该工作的创新不少,值得多读几遍。原创 2025-09-27 00:50:36 · 4884 阅读 · 1 评论 -
InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)
本文介绍了InternVLA-N1双系统视觉语言导航模型,该系统通过System2(基于多模态大语言模型的像素目标规划器)进行中长期规划,System1(基于扩散的轻量级视觉导航策略)执行实时路径规划。为解决双系统同步延迟和二维像素坐标歧义问题,模型引入了异步推理机制和潜在token表征,并通过世界模型增强潜在规划能力。研究团队还开发了高效仿真数据生成流程,构建了包含5300万图像和80万指令的大规模数据集InternData-N1。该模型在动态环境中展现出更强的鲁棒性和连续性导航能力。原创 2025-09-19 22:25:01 · 4952 阅读 · 2 评论 -
NavA3——双VLM架构下的先“推理解析”后“定位导航”:理解任意指令,导航至任意地点,查找任意目标
本文提出NavA3分层框架,通过全局和局部策略解决具身导航任务中的高层次指令理解问题。全局策略利用Reasoning-VLM解析指令并推断目标物体及其可能位置;局部策略采用NaviAfford模型在目标区域进行精确物体定位。该系统基于三维场景重建和语义标注,支持复杂空间关系理解,在长时序导航任务中展现出卓越性能。实验表明NavA3能有效处理"我想要一杯咖啡"等自然指令,实现精准导航,具备跨机器人平台的适应能力。原创 2025-08-21 17:35:25 · 3724 阅读 · 0 评论 -
CorrectNav——基于VLM构建带“自我纠正飞轮”的VLN:通过「视觉输入和语言指令」预测导航动作,且从动作和感知层面生成自我修正数据
本文介绍了一种高效的视觉语言导航(VLN)模型CorrectNav,它通过创新的"自我修正飞轮"训练范式显著提升了导航成功率。该方法将训练过程中的错误轨迹转化为改进机会,通过四个步骤循环优化:错误检测、偏差定位、生成修正数据(动作/感知层面)、模型再训练。实验显示,CorrectNav在VLN-CE基准测试中分别达到65.1%和69.3%的成功率,超越现有最优模型8.2%和16.4%。相比依赖额外模块的纠错方法,该方案将纠错能力隐式集成到模型中,更适用于实际机器人部署,在动态避障和长指令原创 2025-08-21 00:10:53 · 2788 阅读 · 0 评论 -
VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE
摘要:2017年研究者基于Matterport3D数据集开发了仿真环境Matterport3D Simulator,并构建了Room-to-Room(R2R)基准数据集,推动视觉与语言导航(VLN)研究发展。R2R包含21,567条自然语言导航指令,覆盖90个真实建筑场景,建立了导航成功率、路径长度和导航误差三大评估指标。该数据集解决了此前研究中数据孤立的问题,为VLN领域提供了首个标准化评估基准。模拟器采用离散化动作空间设计,支持RGB-D观测,并保留了真实场景的视觉丰富性。R2R与后续RxR数据集共同成原创 2025-08-20 21:24:31 · 2788 阅读 · 0 评论 -
TrackVLA与其plus升级版——开放世界下的四足具身视觉跟踪EVT(智能跟随):集目标识别与轨迹规划为一体的VLA,不怕高动态与遮挡
TrackVLA是一种新型视觉-语言-动作模型,将目标识别与轨迹规划整合到统一框架,解决具身视觉跟踪(EVT)任务中的误差累积问题。该模型采用联合训练方式,利用85.5万条视频识别和机器人跟踪样本,通过语言建模头和扩散头分别处理识别与规划任务。相比传统将感知与规划解耦的方法,TrackVLA在高度动态环境中展现出更优性能,支持自然语言输入,并实现了识别与规划的协同优化,为机器人跟随等应用提供了新思路。原创 2025-08-05 18:58:25 · 3686 阅读 · 0 评论 -
LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)
摘要: LOVON是一种新型足式机器人系统,通过整合大语言模型(LLM)的任务规划、开放词汇视觉检测和语言到运动模型(L2MM),实现了复杂长时任务的自主执行。该系统创新性地采用拉普拉斯方差滤波技术缓解运动抖动问题,并设计了功能执行逻辑确保任务鲁棒性。实验表明,LOVON在仿真和真实机器人平台(如Unitree Go2)上能有效完成开放词汇目标搜索与导航任务,解决了传统方法在长时序、动态环境中的局限性。该研究为足式机器人在非结构化环境中的高级自主性提供了新思路。原创 2025-08-01 16:32:19 · 3094 阅读 · 0 评论 -
Uni-NaVid(NaVid升级版)——基于视频和指令规划动作:通过在线Token合并和前瞻性预测,试图一统4类导航任务
摘要:Uni-NaVid是一种基于视频的视觉-语言-动作(VLA)模型,旨在统一多种具身导航任务。该模型通过在线Token合并机制高效处理实时视频流,支持5Hz推理频率,适用于连续环境导航。研究构建了包含四类导航任务(视觉语言导航、目标导航、具身问答和跟随任务)的360万样本数据集,并提出新的语言引导人类跟随基准。相比依赖专用模块的现有方法,Uni-NaVid能直接生成底层动作,解决了传统方法在任务泛化和实际部署中的局限性。项目代码基于LLaMA-VID和NaVid框架开发。原创 2025-10-06 00:41:21 · 4923 阅读 · 0 评论 -
NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步:无需地图/里程计/深度信息
因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid虽然NaVid目前已经不是VLN sota了,但其首次展示了VLM在无需地图、里程计或深度输入的情况下,能够实现优秀的导航性能且对后来的很多VLN工作——比如NaVILA 都有比较大的启发、借鉴意义,且VLN论文中 其实提供了 “不少更好理解NaVILA” 的背景知识或基础,比如VLN-CE总之,如果相对VLN有相对完整深入的理解,NaVid是必看工作之一加之导航在人形落地中的重要性,故 一方面,原创 2025-07-27 00:29:02 · 4520 阅读 · 3 评论 -
NaVILA源码解析:从其VLA部分到其low-level部分(涵盖legged-loco、经典RL框架rsl_rl)
本文详细解析了NaVILA/legged-loco代码库的技术实现,重点包括: 机器人配置系统:深入剖析了Go1/Go2四足机器人和G1/H1人形机器人的基础与视觉增强配置,特别是H1机器人在复杂地形中的视觉感知实现差异。 核心MDP组件:解析了分层控制架构(10Hz导航决策+50Hz运动执行)、三种导航动作实现(基础、VLM、GPT增强)以及多维度奖励函数设计(稳定性、能效、目标导向等)。 强化学习框架: 完整实现PPO算法(包含GAE、KL自适应学习率、裁剪机制等核心特性) 支持多种Actor-Crit原创 2025-07-25 14:39:31 · 3812 阅读 · 3 评论 -
NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(LiDAR点云构建高度图)
如此前的博客所说,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享但可以持续解读我们所创新改造或的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而其中有一个订单涉及到行走之外的导航、避障,项目组在确定解决方案的过程中,看到了NaVILA这个工作,故本文来解读下。原创 2025-04-15 17:49:10 · 7991 阅读 · 13 评论
分享