在具身智能领域，VLA和VLN是否应该统一到一个模型里面更为合理？

最新推荐文章于 2025-11-21 15:34:47 发布

原创

最新推荐文章于 2025-11-21 15:34:47 发布 · 1.4k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #人工智能 #深度学习

合适，有优点也有缺点。

在具身智能领域，把VLA和VLN整合到一个模型里确实是个很有潜力的方向。

机器人导航本质上是机器人动作的一部分，如果能让模型同时处理导航和机械臂操作，机器人可能会变得更聪明灵活。

先上优点：

1. 多任务学习效率更高

统一模型能同时处理导航、机械臂操作等多种任务，避免为每个任务单独训练模型的重复工作。

比如 HybridVLA 模型，把自回归和扩散策略结合到一个大语言模型里，既保留了语言推理能力，又能生成连续动作序列，在模拟环境中完成复杂操作的成功率比传统方法高很多让模型在不同任务之间共享特征和参数，训练效率大幅提升，还能减少硬件资源的消耗。

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

arxiv.org/abs/2503.10631

2. 泛化能力更强

单一模型处理多种任务时，能学习到更通用的模式，更容易适应新环境或新任务。

而 UniVAD 模型虽然是用于异常检测的，但它的统一架构思想表明，跨领域任务的联合训练可以提升模型对未知场景的适应能力。

UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CyberSoma

关注关注

39
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CVPR 2025 | MoManipVLA：通用移动操作VLA策略迁移！

CV_Autobot的博客

03-28

990

尽管 MoManipVLA 在多任务上取得显著进展，但其仍依赖预训练模型的质量、存在搜索空间非凸局部最优问题以及长时任务规划不足，未来将通过引入全局优化方法、基于学习的搜索策略和集成任务规划模块等手段加以改进。实验结果显示，在仅 50 个样本的微调下，真实环境任务的成功率已达到 40%，证明了该方法在数据稀缺场景下的有效性。然而，现有的 VLA 研究主要聚焦于固定底座操作，由于缺乏对移动底座动作的预测能力，使其难以直接应用于移动操作场景。然而，现有的移动操作框架缺少大规模预训练，导致整体泛化性低下。

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步：无需地图/里程计/深度信息

结构之法算法之道

07-27

4282

因为我司准备于25年7月底复现下NaVILA，而在研究NaVILA的过程中，注意到了这个NaVid 虽然NaVid目前已经不是VLN sota了，但其首次展示了VLM在无需地图、里程计或深度输入的情况下，能够实现优秀的导航性能且对后来的很多VLN工作——比如NaVILA 都有比较大的启发、借鉴意义，且VLN论文中其实提供了 “不少更好理解NaVILA” 的背景知识或基础，比如VLN-CE 总之，如果相对VLN有相对完整深入的理解，NaVid是必看工作之一加之导航在人形落地中的重要性，故一方面，

参与评论您还未登录，请先登录后发表或查看评论

基于大模型的具身智能系统综述

zengxiaojian2的博客

01-24

1722

得益于近期具有世界知识的大规模预训练模型的迅速发展，基于大模型的具身智能在各类任务中取得了良好的效果，展现出强大的泛化能力与在各领域内广阔的应用前景。鉴于此，对基于大模型的具身智能的工作进行了综述，首先，介绍大模型在具身智能系统中起到的感知与理解作用；其次，对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结；然后，对不同具身智能系统架构进行介绍，并总结了目前具身智能模型的数据来源，包括模拟器、模仿学习以及视频学习；

具身智能从0到1

Bin_Dut的博客

11-13

2015

一文带你了解具身智能

医疗保健领域具身智能的综述：技术、应用和机遇

yorkhunter的博客

01-20

1568

25年1月来自中南大学、UIUC、UPenn、上海AI实验室、新加坡国立、西湖大学和香港科技大学广州分校的论文“A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities”。全球医疗保健系统在效率、可访问性和个性化方面面临着持续的挑战。现代人工智能 (AI) 已显示出通过精确的预测模型解决这些问题的前景；然而，由于其与临床工作流程的有限整合，其影响仍然受到限制。在多模态大型语言模型和世界模型等现代人

NavFoM——打造VLN基础模型：通过安装在机器人上的摄像头和人类下达的指令，预测移动轨迹(可跨任务、跨本体)

结构之法算法之道

09-27

4480

51c大模型~合集179

whaosoft~aiotの开发板商城

09-07

1241

然而，在更具挑战性的评估和实际使用中，准确度会固定在 100% 以下，因为有些问题的答案由于各种原因（例如信息不可用、小型模型的思维能力有限或需要澄清的歧义）而无法确定。OpenAI 举了个例子，当向不同的广泛使用的聊天机器人询问 Adam Tauman Kalai（论文一作）的博士论文标题时，它们自信地给出了三个不同的答案，但没有一个是正确的。例如，当被要求回答毛利语问题时，一个不懂毛利语的小型模型可以直接回答「我不知道」，而一个认识一些毛利语的模型则必须确定其置信度。同样的原则也适用于预训练。

林倞教授详解具身智能未来趋势：人机物高效融合

人工智能学家

03-26

941

虽然单卡性能大约相当于英伟达 H100 的 50%～60%，但通过大规模集群化，整合了数万张卡，形成全球最大规模的算力集群，并利用先进的网络互联技术，实现全国多个计算中心的高效协同和弹性调度。其一是多模态大模型的全面崛起。因此，如何将大模型的概率计算与小规模、专门化的模型或算法（例如用于优化求解和规则应用的技术）有效结合，以达到高效且精准的任务执行效果，是当前需要解决的一个重要问题。在这一平台上，我们构建了高层次的任务模型，该模型通过与大语言模型的交互来理解场景上下文，解析任务要求，并进一步指导执行过程。

51c自动驾驶~合集58

whaosoft~aiotの开发板商城

06-09

1537

在处理超长上下文（如 64K 和 128K）任务时，CCA-LLM 的 EM 得分超越了标准自注意力机制，同时推理速度也显著提升——在 128K 上下文长度下，推理速度达到标准自注意力方法的 7.9 倍，展现出其在高效长文本建模方面的突出优势。b) 树形优势值估计 (Tree-based): 在长思维链场景下，MC 估计的代价很高，团队提出了一种高效的树形估计方法：将采样轨迹组织成树形结构，通过自底向上的奖励聚合计算状态价值（V 值），同一个父节点的子节点形成一个组，在组内计算每个段的优势值。

51c自动驾驶~合集42

whaosoft~aiotの开发板商城

12-20

2504

现有激光雷达语义分割的SOTA方法通常包含专门为机械旋转激光雷达设计的归纳偏置。这限制了模型在其他类型激光雷达技术中的通用性，并使超参数调整变得更加复杂。为了解决这些问题，上海交通大学团队提出了一种通用的框架SFPNet，用稀疏焦点机制代替窗口注意力机制，以适应市场上流行的各种类型的激光雷达。SFPNet能够提取多层上下文信息，并使用门控机制动态聚合不同层次的信息。作者还提出了一种针对工业机器人应用场景的新型混合固态激光雷达语义分割数据集S.MID。

51c自动驾驶~合集47

whaosoft~aiotの开发板商城

01-19

1872

我自己的原文哦~ https://blog.51cto.com/whaosoft/13083194性能爆拉30%！英伟达：时空一致下的生成重建大一统新方案~从自车的驾驶轨迹中生成真实的视觉图像是实现自动驾驶模型可扩展训练的关键一步。基于重建的方法从log中生成3D场景，并通过神经渲染合成几何一致的驾驶视频，但它们对昂贵标注的依赖限制了它们在野外驾驶场景中的泛化能力。另一方面，生成模型可以以更通用的方式合成动作条件驾驶视频，但往往难以保持3D视觉的一致性。本文介绍了DreamDrive，这是一种结合生成

变径管道机器人-管道检测

yunxin461127的博客

11-20

661

变径管道机器人作为管道检测领域的创新成果，正以其独特的设计、先进的技术和卓越的性能，为管道检测工作带来了革命性的变化。它不仅解决了传统检测方法在面对复杂管道环境时的诸多难题，还极大地提高了检测效率和准确性，为保障管道系统的安全运行发挥了关键作用。

机器人控制器程序需求分析

谢谢大家的关注和点赞！这里只有纯纯的知识干货，没有一句废话。希望能实实在在帮到大家～要是觉得有用，别忘了给我点支持哟，你

11-20

166

本文提出了一套完整的机器人控制系统方案，包含四大核心功能模块：1）多模式切换管理，支持运行/示教/调节/空挡四种工作模式；2）运动控制模块，提供直线/圆弧等运动API及2-10ms实时控制周期；3）脚本解析与执行系统，集成Squirrel脚本引擎；4）安全监控体系，包含硬件/软件双重急停保护、状态实时监控及事件记录功能。系统采用C++跨平台设计，兼容Windows/x86Linux/ARM64Linux系统，并通过标准化接口预留支持多种通讯协议扩展，为机器人设备提供高精度、高安全性的控制解决方案。

走向“可持续智能生物系统”：AI 与机器人可持续性的统一伦理框架解读

nmdbbzcl的博客

11-20

635

回到最初的问题：当我们谈论“AI 与机器人的可持续性”时，到底在谈什么？Tamborini 的这篇论文给出的回答是：我们不应该满足于把可持续性当成一个可以在宣传材料中反复出现的形容词，也不应该把它视为可以通过某几条“最佳实践清单”就能落实的技术指标。相反，我们需要把可持续性理解为一个在生态价值、技术实践理性和社会正义之间保持张力的多层次结构，而 AI 和机器人作为“智能生物系统”的一部分，必须在这一结构中被整体审视。

AAAI 2026 Oral | 清华SpatialActor：解耦语义与几何的机器人操控新框架

2501_93430156的博客

11-20

904

精确的空间理解是机器人与物理世界交互的基础。然而，现有方法常面临困境：基于点云的方法因稀疏采样损失细粒度语义；基于图像的方法将语义与几何特征纠缠，在真实世界常见的深度噪声干扰下，其性能会显著下降。此外，这些方法大多关注高层几何结构，忽略了对精确操控至关重要的低层空间线索。为解决这些问题，我们提出，一个为机器人操控设计的解耦表示框架。SpatialActor 的核心思想是将语义和几何信息彻底分离，并进一步将几何信息分解为高层结构与低层线索。

2025年接待服务机器人选型指南：技术对比与场景适配方案

最新发布

sjxs_007的博客

11-21

385

猎户星空豹小秘2搭载自研Orion-14B大模型，在CMMLU学科评测中得分70.6，超越LLaMA2-13B的38.4分和Baichuan2-13B的61.3分，支持320K超长文本处理，可一次性读入整本小说内容。更重要的是，机器人累计的访客行为数据可用于优化办公布局、评估营销活动，92%的访客认为配备机器人的企业更具创新力，品牌形象得到显著提升。配合高扭力轮毂电机（扭矩提升50%），可在企业大堂、展厅通道等复杂环境中平稳行走，10米主动迎宾，2米接待引导，确保访客跟随过程顺畅自然。

六维力传感器和关节力传感器国产替代正当时：机器人“触觉神经”的角逐

机器人产业研究员

11-21

375

国产六维力传感器迎来爆发期，技术突破推动百亿市场成型摘要：六维力传感器作为机器人"触觉神经"的核心部件，正随着人形机器人商业化加速迎来爆发式增长。国内企业通过技术攻关，已突破0.1%FS高精度、10kHz响应频率等关键技术指标，部分产品实现核心部件100%国产化。目前国内市场年销量超8000套，预计2030年人形机器人领域市场规模将达138亿元。蓝点触控等领军企业已占据80%市场份额，并与多家头部机器人厂商建立合作。随着标准化生产推进和产能扩张，传感器单价有望从1-4万元降至千元级别，

高精度动捕手套驱动数据闭环，破解机器人“不可能三角”

virdync001的博客

11-20

265

mHand Pro动捕手套，以其高精度、低延迟、强兼容的产品优势，为灵巧手训练提供了完整的解决方案。该手套集成16个惯性传感器，配备抗磁干扰算法，可精准捕捉手指弯曲、手掌翻转等细微动作，误差控制在毫米级。同时，其开放的SDK接口与跨平台兼容性，为开发者提供了高效、灵活的数据接入路径

就是具身智能的vla

10-12

视觉-语言-动作（VLA）模型是具身智能中的关键技术。具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标，而VLA模型能够处理视觉、语言和动作信息，使智能体理解人类指令并在环境中执行相应任务[^1]。在具身智能领域，VLA有多种主流方案，例如强化学习和模仿学习方案等。对于初学者而言，VLM/VLA具身算法的世界可能显得庞杂而深奥，需要理解其要解决的基本问题、认识评价标准、探索主流算法以及洞察发展重点等方面来进行学习入门。当前，随着具身智能 - 产业协同创新中心的成立，预计2025 - 2026年将出现更多跨行业应用案例[^1][2][3]。在研究方面，有众多关于VLA的进展，如具身VLA后训练提出潜空间引导的VLA跨本体泛化方法，VLA统一架构有新突破，自回归世界模型引领具身智能等。也有一些相关项目和资源，如UniVLA项目、ATE框架代码、具身智能综述等可供获取研究[^3]。 ```python # 这里可以简单模拟一个VLA处理流程的伪代码示例 def vla_process(visual_input, language_input): # 视觉编码 visual_encoded = visual_encoder(visual_input) # 语言编码 language_encoded = language_encoder(language_input) # 融合编码信息 fused = fusion(visual_encoded, language_encoded) # 动作解码 action = action_decoder(fused) return action # 简单定义各模块函数，仅作示意 def visual_encoder(input): return input * 2 def language_encoder(input): return input + 1 def fusion(visual, language): return visual + language def action_decoder(fused): return fused * 3 # 示例输入 visual_input = 5 language_input = 3 result = vla_process(visual_input, language_input) print(result) ```