IROS‘25冠军方案:X-VLA重磅开源,全面刷新机器人SOTA!

点击下方卡片,关注“具身智能之心”公众号

作者丨JinLiang Zheng

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布全新通用跨本体具身基座模型:X-VLA。X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型(公开数据、代码与参数),以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,同时,基于X-VLA的解决方案在IROS-AGIBOT World Challenge上大放异彩,夺得冠军。总体而言,X-VLA为具身智能领域提供了一个性能强劲、完全开源的新基线与技术范式。

  • 项目主页:https://thu-air-dream.github.io/X-VLA/

  • 代码:https://github.com/2toinf/X-VLA.git

  • 作者:Jinliang Zheng*, Jianxiong Li*, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan

核心亮点

  • 性能突破:率先实现超长时序灵巧操作任务(如自主叠衣)的全流程开源,攻克长期复杂自主作业难题。

  • 极致高效:仅0.9B超轻量参数,即在五大仿真基准上实现SOTA性能,达成卓越的效费比。

  • 创新技术:打破大规模异构数据训练难题,通过Soft-Prompt与定制化训练范式,构建出高效通用的跨本体基座模型。

  • 开源开放:完整公开模型参数、代码与训练数据,助力具身智能社区复现与创新。

IROS-2025 AGIBOT World Challenge

AGIBOT World Challenge 由智元机器人与 OpenDriveLab 联合主办,吸引了来自 全球五大洲、23 个国家/地区的 431 支顶尖战队参与。全球 11 支最具竞争力的队伍通过了线上赛的筛选,参加了 IROS 杭州举办的 Manipulation 现场比赛,围绕抓取、折叠、烹饪、倒水等六大真实物理任务展开激烈角逐。

X-VLA 团队基于自主提出的 X-VLA 方法参赛,在多任务、多场景的真实物理操作中展现出卓越的泛化能力与鲁棒性,最终脱颖而出,荣获 全球第一名

核心方法

1. 高效模型设计

  • 面向本体泛化的Soft-Prompt机制:为克服不同机器人平台在自由度、相机观测视角等本体参数上的差异,本研究引入了可学习的Soft-Prompt。该机制动态地将具身本体的硬件配置信息编码为一种连续表征,使模型在预训练中能够解耦任务策略与具体执行器,从而显著增强模型对异构机器人平台的适应能力,并提升混合数据训练的稳定性与效率。

  • 基于功能分工的多模态编码策略:针对机器人任务中多源视觉输入的异质性,我们提出了分治编码方案。任务相关的主视角图像由高性能视觉-语言模型编码,以提取高层语义特征;而主要提供低层次空间反馈的辅助视角,则通过轻量化的网络进行局部特征提取。该策略在保证信息完整性的前提下,优化了计算资源的分配,提升了模型的信息处理通量。

  • 基于flow-macthing的生成式动作解码器:模型主干采用标准Transformer架构,以确保良好的扩展性与通用性。动作生成模块摒弃了传统的确定性输出策略,转而采用先进的flow-matching,以概率生成的方式建模机器人动作序列。该方法显著增强了动作轨迹的平滑性与对不确定环境的鲁棒性,为长时序任务的成功执行奠定了坚实基础。

2. 大规模高质量异构数据预训练

  • 平衡化数据采样:定制数据采样策略,确保异构数据集的均衡训练,避免模型偏斜。

  • 多模态数据清洗与时空对齐流水线:我们对原始机器人操作数据实施了严格预处理,包括:将不同空间下的动作数据统一映射至标准任务空间;对高频率采集的数据进行时序层面的对齐与重采样。此流程极大提升了状态-动作序列在时间上的一致性逻辑与整体质量。

  • 以语义-动作对齐为导向的数据遴选标准:我们确立了严格的数据质量门槛,核心是筛选视觉帧清晰、语言指令描述精准且与后续动作序列高度关联的数据样本。此举从源头上确保了模型学习到的是有明确因果关系的“行为知识”,而非浅层的虚假关联。

3. 定制后训练流程与技巧

  • 分层分组的自适应学习率调整:鉴于模型中不同组件(如预训练冻结的VLM、新引入的Soft-Prompt、主干Transformer等)的参数规模与收敛特性各异,我们为其施加了分组别、差异化的学习率调度策略。该设计既保护了预训练获得的基础知识,又允许关键适配层快速调整,从而在保证训练稳定性的同时,大幅优化了收敛效率。

  • 面向异构模块的渐进式 warm-up 策略:对于模型中新引入的可学习参数(如Soft-Prompt),我们在训练初始阶段采用线性递增的学习率热身机制,使其参数空间得以平稳初始化,再逐步融入全局优化过程。该策略有效避免了训练初期因梯度剧变导致的不稳定性,尤其适用于异构模块的协同训练。

实验结果

高效预训练:可扩展的架构优势

可扩展的架构优势X-VLA 的预训练缩放定律(Scaling Laws)曲线呈现出优异的线性增长趋势。这表明,随着模型参数以及训练数据规模的同步扩大,其在测试集的开环测试性能呈现稳定、可预测的提升。这一现象验证了所提出的 Soft-Prompt 机制与简洁Transformer架构的强大可扩展性,为构建更大规模的具身智能基座模型奠定了坚实基础。

高效后训练:数据与算法的协同优化

得益于高质量的预训练基座,X-VLA 在后训练(微调)阶段展现出极高的数据效率与稳定性。针对不同的下游任务(如自主叠衣),只需使用中小规模的场景专属数据进行微调,模型便能快速适应并达到SOTA性能。这源于预训练阶段学习到的通用视觉-语言-动作表征,以及后训练中采用的定制化学习率策略与慢启动机制,它们共同确保了知识从通用域到特定任务的高效、稳定迁移。

  • 仿真基准测试结果

在包括LIBERO、SIMPLER等在内的权威仿真环境中,X-VLA均取得了SOTA性能,显著优于现有同类模型。

  • 实机实验测试结果

在真实的机器人平台上,X-VLA在大量简单抓取和桌面操作任务中展现了强大性能,并成功完成了无限时长的自主叠衣任务,展示了其应对复杂长程任务的卓越能力。

在自媒体领域,内容生产效率与作品专业水准日益成为从业者的核心关切。近期推出的Coze工作流集成方案,为内容生产者构建了一套系统化、模块化的创作支持体系。该方案通过预先设计的流程模块,贯穿选题构思、素材整理、文本撰写、视觉编排及渠道分发的完整周期,显著增强了自媒体工作的规范性与产出速率。 经过多轮实践验证,这些标准化流程不仅精简了操作步骤,减少了机械性任务的比重,还借助统一的操作框架有效控制了人为失误。由此,创作者得以将主要资源集中于内容创新与深度拓展,而非消耗于日常执行事务。具体而言,在选题环节,系统依据实时舆情数据与受众偏好模型生成热点建议,辅助快速定位创作方向;在编辑阶段,则提供多套经过验证的版式方案与视觉组件,保障内容呈现兼具美学价值与阅读流畅性。 分发推广模块同样经过周密设计,整合了跨平台传播策略与效果监测工具,涵盖社交网络运营、搜索排序优化、定向推送等多重手段,旨在帮助内容突破单一渠道局限,实现更广泛的受众触达。 该集成方案在提供成熟模板的同时,保留了充分的定制空间,允许用户根据自身创作特性与阶段目标调整流程细节。这种“框架统一、细节可变”的设计哲学,兼顾了行业通用标准与个体工作习惯,提升了工具在不同应用场景中的适应性。 从行业视角观察,此方案的问世恰逢其时,回应了自媒体专业化进程中对于流程优化工具的迫切需求。其价值不仅体现在即时的效率提升,更在于构建了一个可持续迭代的创作支持生态。通过持续吸纳用户反馈与行业趋势,系统将不断演进,助力从业者保持与行业发展同步,实现创作质量与运营效能的双重进阶。 总体而言,这一工作流集成方案的引入,标志着自媒体创作方法向系统化、精细化方向的重要转变。它在提升作业效率的同时,通过结构化的工作方法强化了内容产出的专业度与可持续性,为从业者的职业化发展提供了坚实的方法论基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
**项目概述** 本项目为一项获得高度评价的毕业设计成果,其核心内容为基于Python与Flask框架构建的轻量化Web应用防火墙(WAF)系统。项目资源完整,包含可运行的源代码、详尽的技术文档及配套数据资料,整体设计经过严格测试与评审,具备较高的学术与实践价值。 **技术特点与验证** 系统采用Python与Flask框架实现,注重代码的简洁性与执行效率,在保障基础防护功能的同时降低了资源消耗。项目代码已在macOS、Windows 10/11及Linux等多类主流操作系统中完成功能测试,运行稳定且符合预期目标。 **适用对象与用途** 本资源适用于计算机科学与技术、软件工程、人工智能、通信工程、自动化及相关专业领域的在校师生、科研人员或行业开发者。项目可作为毕业设计、课程作业、课题研究或项目原型开发的参考材料,也为初学者提供了深入理解WAF机制与Flask应用开发的实践案例。使用者可根据自身需求对代码进行扩展或调整,以适配不同的应用场景。 **项目背景与认可度** 该设计在毕业答辩过程中获得导师的充分肯定,评审分数达到95分,体现了其在设计完整性、技术规范性与创新性方面的优势。项目资料经过系统整理,便于学习者进行复现与二次开发。 **使用建议** 建议具备一定编程基础的用户参考本项目,进一步探索Web安全防护机制或进行功能拓展。项目内容注重逻辑严谨性与结构清晰度,适合用于教学演示、技术研讨或个人学习。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值