点击下方卡片,关注“自动驾驶之心”公众号
面向现实世界的机器人感知评测任务,五大赛道,全链路挑战,全球征集解决方案!
🌍 为什么需要 RoboSense?
在机器人系统不断迈向真实世界的进程中,感知系统的稳定性、鲁棒性与泛化能力正成为制约其部署能力的关键因素。面对动态人群、恶劣天气、传感器故障、跨平台部署等复杂环境条件,传统感知算法往往面临性能大幅下降的挑战。
为此,RoboSense Challenge 2025 应运而生。该挑战赛旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究,鼓励跨模态融合与任务泛化方向的创新探索。
该赛事由新加坡国立大学、南洋理工大学、香港科技大学、香港科技大学(广州)、密歇根大学机器人研究院、加州大学欧文分校、上海人工智能实验室等多家研究机构联合主办,并作为 IROS 2025 官方认证竞赛项目,于大会期间在中国杭州线下展示与颁奖。
🌐 报名通道与联系方式
比赛主页:https://robosense2025.github.io
Toolkit & 代码资源:https://github.com/robosense2025
官方邮箱:robosense2025@gmail.com
微信交流群二维码见官网
🔬 挑战价值
RoboSense Challenge 2025 的设计涵盖了机器人感知系统在多个关键维度的挑战能力,着重体现以下技术特性:
任务覆盖广泛:从语言指令到空间导航、从模态对齐到平台迁移,全面测试系统感知与理解能力;
数据开放透明:提供多源多模态的真实场景数据,支持研究复现与对比实验;
评测机制科学:采用统一评测平台与标准协议,确保过程公正、结果可复现;
工程可实施性强:鼓励端到端系统开发,兼顾学术研究与落地部署的需求。
🧩 五大真实世界挑战任务
1️⃣ 语言驱动的自动驾驶(Driving with Language)
随着大语言模型(LLM)与多模态基础模型的发展,语言驱动的自动驾驶正成为下一代人机交互方式的重要方向。本赛道旨在评估机器人是否能够通过自然语言指令进行感知理解与行动决策,从而实现从“看得见”到“听得懂、动得对”的闭环智能。
任务目标:
构建一个端到端的多模态驾驶模型,输入为视觉序列与自然语言指令(如“前方有障碍,请靠右变道”),输出为规划轨迹或控制命令,实现语言-感知-规划的深度耦合。
挑战难点:
多模态融合建模:需要将图像序列与语言嵌入融合后用于下游规划任务,传统 early/late fusion 方法在时序建模与语义对齐方面仍存在瓶颈;
语言泛化能力:需对不同长度、风格与层级的语言指令具备鲁棒解析与泛化能力;
鲁棒性评估:场景中存在强干扰(模糊、雨天、光照不均、遮挡),模型应具备在弱感知条件下进行语义理解与稳定决策的能力;
评测维度立体:涵盖感知(多项选择)、理解(VQA)、预测(轨迹合理性)与规划(语言一致性)等四层指标。
推荐研究方向:
使用 VLM 进行语义感知(如 QwenVL, LLaVA-1.5);
结合 Chain-of-Thought prompting 或 Visual Planning Tree 进行中间推理;
引入语义注意力或语言引导的 ROI 提取模块提升感知关注区域的对齐性。
Baseline模型:
Qwen2.5-VL
模型训练需求(预估):
4 x NVIDIA A100 GPU,迭代周期 ~12h
Baseline性能:
Perception-MCQs@Accuracy = 75.5,Perception-VQA@LLMScore = 27.8 Prediction-MCQ@Accuracy = 59.2,Planning-VQAs@LLMScore = 30.8
评测服务器:
https://www.codabench.org/competitions/9285
2️⃣ 社交导航(Social Navigation)
传统的导航模型多聚焦于静态障碍物规避或目标追踪,而现实生活中,机器人在办公楼、商场、地铁等环境中需要与人类共享空间,社会接受度、安全性与路径合理性成为关键指标。本赛道聚焦于机器人在动态人群环境中的“社交智能”。
任务目标:
实现一个基于 RGB-D 输入的移动机器人导航模型,使其在不影响人类行为的情况下完成目标导航任务,并符合人类的社会行为规范。
挑战难点:
动态行为建模:如何从视觉输入中提取人类轨迹趋势、意图与互动潜力;
社交规则编码:如“避让老人”、“不从人群中央穿行”、“与人保持安全距离”等非显式规则如何被编码进策略模型;
不确定性处理:面对路径冲突、遮挡变化、多主体聚散等不可预测性因素,需引入轨迹分布预测与多解融合机制;
评测维度:除了成功率(Success Rate)与路径效率(SPL),还包括路径社会性指标 PSC(Proxemic Social Compliance)与碰撞统计 H-Coll。
推荐研究方向:
使用 Transformer-based 社交轨迹预测模块;
引入行为分类器进行风险区域判断;
多主体地图编码与图神经网络对多目标的结构建模。
Baseline模型:
Falcon
模型训练需求(预估):
4 x NVIDIA RTX 3090 GPU,迭代周期 < 48h
Baseline性能:
Success Rate = 55.84,SPL = 51.30,PSC = 89.47,H-Coll = 41.58
评测服务器:
https://eval.ai/web/challenges/challenge-page/2557
3️⃣ 传感器布局优化(Sensor Placement)
感知系统的部署可靠性在自动驾驶系统中至关重要,传感器如 LiDAR 在车体上的不同安装位置、角度与高度会显著影响数据视场、密度与稳定性,进而影响模型性能。本任务首次系统评估模型对传感器配置扰动的鲁棒性。
任务目标:
训练一个 3D 感知模型,在多个 LiDAR 安装条件下保持一致性能,支持检测与语义分割子任务,具备强部署适应性与结构稳定性。
挑战难点:
视角差异建模:来自不同位置的 LiDAR 点云在视角遮挡、密度稀疏性与激光反射强度上存在显著差异;
模型结构适应性:如何设计对布置差异不敏感的表示空间,或如何在训练中动态适应布置配置;
评测细粒度:除主干精度指标外,还关注误检抖动、预测点分布一致性与多角度重建一致性。
推荐研究方向:
使用结构对齐模块(如姿态归一化、BEV投影标准化);
引入 Point-to-Ray Alignment Loss 对抗视角漂移;
使用 Domain Generalization 方法处理 Layout-Induced Shift。
Baseline模型:
BEVFusion-L
模型训练需求(预估):
1 x NVIDIA RTX 4090 GPU,迭代周期 ~16h; 或 8 x NVIDIA RTX 4090 GPU,迭代周期 ~2h
Baseline性能:
mAP = 48.8%,NDS = 47.5%
评测服务器:
https://www.codabench.org/competitions/9284
4️⃣ 跨模态无人机导航(Cross-Modal Drone Navigation)
无人机的图像检索与搜索任务在城市巡检、灾害响应、地图构建中广泛应用。本任务聚焦于“从语言出发,检索空中图像”,即输入一句自然语言描述,系统需在大规模地面图像中检索对应的俯视图区域。
任务目标:
训练一个跨模态检索模型,在语言与空地视角图像之间建立准确的语义映射,实现快速检索定位。
挑战难点:
空-地视角转换问题:高度变化带来纹理缩放、建筑遮挡与空间反转,使语义对齐复杂化;
模态鸿沟问题:语言描述与图像内容之间存在抽象层级、实体指向与语义颗粒度的不匹配;
语义错配鲁棒性:需提升模型对模糊指令、抽象描述与场景变化的泛化能力。
推荐研究方向:
使用双塔结构或共享编码器架构建模 Language-to-Vision 映射;
引入多尺度 Patch-Level 匹配与 Attention Alignment;
应用 CLIP Contrastive Loss 对语言与图像建立统一空间。
Baseline模型:
GeoText-1652
模型训练需求(预估):
2 x NVIDIA RTX 4090 GPU,迭代周期 ~12h
Baseline性能:
R@1 = 13.6,R@5 = 24.6,R@10 = 31.2
评测服务器:
https://www.codabench.org/competitions/9219
5️⃣ 跨平台三维目标检测(Cross-Platform 3D Object Detection)
当前主流 3D 检测模型多以车辆为训练平台,然而真实部署中,机器人平台种类繁多,包括空中平台(无人机)、地面平台(四足机器人)等,其运动方式、视场结构与点云密度均存在显著差异。
任务目标:
训练一个在车辆平台上表现良好的 3D 检测模型,使其在不同平台上仍保持高性能,无需大规模再训练,实现跨平台部署能力。
挑战难点:
Domain Gap 显著:不同平台采集数据在点密度、运动模糊、视场偏移等维度差异显著,训练分布与测试分布差异极大;
平台感知对抗机制缺失:传统检测模型未考虑运动模式、视角仿射变化的适应策略;
标注受限:目标平台缺少标注数据,需借助少量目标域数据或无监督机制提升泛化能力。
推荐研究方向:
跨平台 Domain Adaptation;
使用 Platform-Aware Feature Normalization 或视角对齐模块;
引入 Consistency Regularization 与 Pseudo-Labeling 实现半监督或自监督训练。
Baseline模型:
ST3D & ST3D++
模型训练需求(预估):
1 x NVIDIA RTX 3090 GPU,迭代周期 < 24h
Baseline性能:
R40 Car AP@0.5 = 33.7%
评测服务器:
https://www.codabench.org/competitions/9179
🏆 奖项设置
为鼓励创新与参与,主办方设立如下奖项:
🥇 一等奖:$5000 + 官方证书
🥈 二等奖:$3000 + 官方证书
🥉 三等奖:$2000 + 官方证书
🏅 创新奖:每赛道最多 2 项(奖金 + 证书)
🎖 参与奖:所有完成有效提交的队伍可获得官方参赛证明
注:奖池奖金由赞助商提供,其金额为五个赛道共享,总奖金池高达 10,000+ 美元!所有进入第二阶段并完成有效提交的队伍均可获得参赛证明。
📅 时间安排
2025年6月15日:挑战赛正式启动,评测平台开放
2025年8月15日:第一阶段结果提交截止
2025年9月15日:第二阶段结果与可复现代码提交
2025年10月19日:IROS 2025 杭州主会场颁奖典礼与成果展示
赛事主办方
赛道组织者
程序委员会
结语
RoboSense Challenge 2025 面向未来机器人系统的关键痛点,提出了一套具有挑战性与研究价值并重的评测框架。该竞赛不仅旨在评估现有方法的上限,更希望激发跨领域研究者探索更鲁棒、更通用的感知解决方案。
期待全球团队积极参与,共同推动机器人感知走出实验室,真正迈向复杂多变的现实世界。
572

被折叠的 条评论
为什么被折叠?



