CVPR 2025 丨京东科技大比分领先,斩获机器人双臂操作仿真挑战赛冠军!

大模型的发展为机器人行业注入了新的希望,斯坦福“炒虾机器人”项目更是导火索,点燃了具身智能赛道的全球热潮。在这一背景下,具身操作作为具身智能落地应用中最具价值的技术方向,正成为学术界与产业界都关注的核心。在 2025 年 CVPR 机器人双臂操作仿真挑战赛中,京东科技团队“JD-TFS”以大比分领先,超越地平线、蔚来、清华、哈工大等国内外知名企业和高校,在第一阶段、第二阶段双双夺得冠军。


CVPR 2025 挑战赛:逼近真实场景的极限考验

2025 年 6 月,全球计算机视觉与人工智能领域顶级会议 CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)在美举办,本次大会聚焦“生成式人工智能时代的多智能体具身系统”,其中 RoboTwin 双臂协作竞赛作为三大核心赛事之一,备受学界关注。比赛采用 RoboTwin 仿真平台和 Cobot-Magic 实体平台,分为模拟赛和线下赛两个阶段,注重解决模拟和现实世界环境中机器人操作的复杂性问题。

挑战赛聚焦于机器人双臂操作任务,涵盖合成数据生成、端到端模型框架设计与训练、视觉-触觉多模态感知与轨迹控制等关键技术。挑战赛目标是在随机物体摆放的仿真环境中取得尽量高的操作成功率:仿真赛第一阶段任务集包括叠木块、摆放手机、摆放鞋子、摆放鼠标等;

机械臂完成收纳鞋子任务

仿真赛第二阶段比赛难度成指数级上升,以 “根据语言指令完成鞋子收纳” 任务为例,其复杂性体现在多重环境变量与跨模态控制的耦合挑战中。在随机桌面高度、桌面纹理、随机光照的复合环境中,机器人需从放置了许多无关物体的杂乱桌面里定位到鞋子,同时解析 “将鞋子放在盒子里” 的自然语言指令。随着比赛阶段的进行,任务设定越来越接近机器人真实工作场景,也越来越困难。

机械臂在真实场景实现抓-移-放技能

京东科技能够在两阶段比赛中领先大比分夺冠,与京东长期的大模型技术积累,和应用场景中的创新探索密不可分。此次大赛中,京东科技通过在模型和数据维度的双重创新,为机械臂在真实场景中的更精度应用奠定了扎实基础。

技术破局:AnchorDP3 模型与数据构建的双重创新

模型层面,在 3D diffusion policy 基础上,京东科技团队提出了一种具有高精度、高成功率的 3D 视觉运动策略 AnchorDP3,主要利用以任务操作对象为中心的 3D 视觉表征,完成多背景多物体的数据采集和训练。模型系统架构如下:

模型架构图

AnchorDP3 是以 3D diffusion policy 为基础进行模块化设计,模型采用简化的 PointNet 实现对点云信息特征提取,并通过统一的扩散动作专家生成相应的任务动作序列。其中,语言指令模块采用轻量化 BERT 实现对不同任务的理解,通过与其对应的点云特征提取模块融合,实现小参数量可灵活扩展的多任务多头输入;同时将所有任务混合,实现端到端的具身操作多模态模型训练。

数据集构建部分,结合数据采集效率以及模型测试效果分别从三方面着重进行优化:

1)对于动作专家 action 输出,京东科技团队将连续的动作输出变为来源于专家策略的离散关键点,即所有到达预抓取姿态之前的帧,其输出的目标动作均被设定为该预抓取姿态。并通过随机抽观测的方式,保证数据均衡,这种方法显著扩展了仿真中收集的轨迹数据集,从千条级别提升至数十万条,极大地增强了对各种随机设置的覆盖能力。

稀疏关键点数据集的构造方式

2)与传统数据采集丢弃失败数据不同,对于失败轨迹如何有效的处理也是数据构建的关键。考虑到不同物体抓取状态以及任务执行时抓取不牢等失败 case,结合 Dagger 方法,通过随机扰动方式使机器人自主收集从失败中恢复到成功执行的数据,使得模型能够学习如何从失败状态下完成到任务成功执行完成的能力。

3)在数据构建过程中,京东科技团队将机器人的关节坐标和末端执行器坐标同时作为模型的动作输出,该策略优势在于,关节坐标提供对机械臂运动的直接控制,而末端执行器坐标则确保任务目标的准确性和灵活性。通过同时输出这两种坐标,模型能够更好地理解和执行复杂的抓取任务,提高任务成功率。

依托京东供应链布局,京东科技推动机器人产业发展

2024 年 4 月,京东科技发布了国内首个双臂移动机器人操作数据集,为行业提供了重要的数据基准与方法参考。此外,应用场景是具身智能落地的关键动力,机械臂在物流场景中已被广泛应用,承担分拣操作等工作。在机器人 To C 应用方面,京东的供应链基础具备显著优势。京东 Joy Inside 将京东大模型驱动的对话智能体植入硬件本体,进入交互终端硬件。今年 618,京东 Joy Inside 接入了众擎、商汤元萝卜、灵童、魔法原子、文曲星、萤石、folotoy 等一众头部机器人品牌,联合多个品牌焕新登场,打造全新“机器人天团”的硬核阵容。

本次 CVPR 挑战赛,不仅为京东提供了一个面向合成数据训练的高质量平台,也成为京东将具身智能研究与具身操作应用真正融合的桥梁。京东作为机器人产业界的重要推动者之一,不仅在学术竞赛的比拼中摘得桂冠,还有扎实的供应链基础,在具身智能方向有丰富的应用场景,未来京东还将持续吸纳具有潜力的优秀人才,为机器人产业释放更多动能。

### CVPR 中涉及双臂机器人的研究与应用 CVPR(Computer Vision and Pattern Recognition)作为计算机视觉领域的重要会议,近年来吸引了大量关于机器人技术的研究成果。以下是基于所提供的引用内容以及相关背景知识整理的内容。 #### 关于双臂机器人导航能力的提升 在农业自动化背景下,双臂机器人需要具备强大的环境感知能力和灵活的操作技能。一篇名为《Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints》的文章探讨了一种改进版的关键点检测方法,用于提高机器人在作物冠层下导航的能力[^1]。这种方法通过识别植物结构中的关键特征点,使机器人能够更精确地定位并规划路径,这对于双臂协作完成采摘或其他精细任务尤为重要。 #### 综合基准测试框架的设计 为了全面评估双臂机器人的性能表现,《引入了一个综合基准》,该基准涵盖了多种复杂的操作场景。具体而言,这一系列任务不仅考察单个机械臂的动作精度,还特别关注两个机械臂之间如何实现高效配合[^2]。例如,在模拟环境中设置了一些高难度项目,像搬运不规则形状物品或者组装零部件等都需要依赖精准的时间同步机制才能顺利完成。这种类型的评测体系有助于研究人员发现现有算法存在的不足之处,并据此优化设计方案。 #### 大规模数据驱动的学习方式 面对传统监督学习模式下样本数量有限的问题,“PAD 框架”的提出提供了一条新思路——即允许系统同时从真实世界的物理交互记录以及互联网上的公开视频资源中汲取经验教训[^3]。借助迁移学习技术和自监督预训练模型的帮助,即使是在缺乏标注良好的专用数据库支持的情况下也能有效促进策略网络参数调整过程收敛速度加快的同时保持较高的泛化水平。 ```python # 示例代码展示如何加载不同来源的数据集进行联合训练 from torch.utils.data import DataLoader, ConcatDataset import torchvision.datasets as datasets def load_datasets(robot_dataset_path, video_dataset_path): robot_data = datasets.ImageFolder(root=robot_dataset_path) video_data = datasets.VideoClips(video_dataset_path) combined_data = ConcatDataset([robot_data, video_data]) dataloader = DataLoader(combined_data, batch_size=64, shuffle=True) return dataloader ``` 上述Python脚本片段展示了如何将来自实验室采集得到的小型本地图片文件夹形式存储起来供实验使用的机器人专属图像资料库同那些广泛存在于Web平台上面向大众分享出来的短视频剪辑集合组合在一起形成更大规模的整体输入源供给后续神经网络架构内部各层次节点间权重更新迭代运算所需素材依据。 --- #### 总结 综上所述,当前围绕着CVPR展开有关双臂机器人方面的探索主要集中在三个方面:一是增强其自主移动过程中对外界障碍物规避反应敏捷度;二是构建起一套科学合理的衡量标准用来定量描述整体作业质量高低优劣情况;三是充分利用外部海量多媒体信息弥补自身积累不够充分所带来的局限影响因素制约作用效果最大化体现出来等方面取得显著进展成就值得肯定鼓励继续深入挖掘潜力空间无限广阔前景光明灿烂辉煌未来可期!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

优快云资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值