多目标跟踪SOTA!OVTR:华科最新开集端到端跟踪框架~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今日论文盘点:

  • 端到端开集多目标跟踪算法OVTR;

  • 无需显式世界模型引导的Planner算法;

  • 机器人抓取新算法DexGrasp Anything;

OVTR

  • 论文标题:OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

  • 论文链接:https://arxiv.org/abs/2503.10616

  • 论文代码:https://github.com/jinyanglii/OVTR

核心创新点:

1. 端到端开放词汇多目标跟踪框架(OVTR)

  • 提出首个基于Transformer的端到端开放词汇多目标跟踪模型,联合建模运动、外观和类别信息,消除传统方法中对复杂后处理(如显式关联匹配、锚框生成)的依赖,显著提升推理速度(3.4 FPS vs. 3.1 FPS)并简化流程。

2. 类别信息传播策略(Category Information Propagation, CIP)

  • 设计跨帧迭代的类别信息流,将当前帧预测的类别嵌入(通过OFA分支输出)作为先验传递至后续帧,解决开放场景中类别感知不稳定的问题。实验表明,CIP策略在TAO验证集上将关联精度(AssocA)提升3.8%,基类分类精度(ClsA₆)提升13.1%。

3. 双分支解码器结构(Dual-Branch Decoder)

  • 对象特征对齐分支(OFA):通过CLIP图像编码器对齐查询特征(Aligned Queries),提取与视觉语义一致的实例级表征。

  • 类别文本交互分支(CTI):结合CLIP文本嵌入进行跨模态注意力交互,增强开放词汇分类能力。双分支设计在TAO数据集上将整体性能(TETA)提升6.4%,基类分类精度(ClsA₆)提升20.6%。

4. 解码器注意力隔离策略

  • 类别隔离(Category Isolation):基于KL散度构建类别差异矩阵,抑制不同类别查询间的注意力交互,减少分类干扰。

  • 内容隔离(Content Isolation):隔离检测查询(Detect Queries)与跟踪查询(Track Queries)的跨内容交互,缓解初始检测与持续跟踪的语义鸿沟。联合应用两类策略后,关联精度(AssocA)提升5.3%,TETA提升3.4%。

5. 零样本跨域泛化能力

  • 在未使用目标域数据微调的情况下,OVTR在KITTI数据集上实现零样本迁移,MOTA指标(71.8 vs. 69.8)和IDF1(78.3 vs. 75.6)显著优于OVTrack,验证其对开放场景的强适应性。

本文内容均出自『自动驾驶之心知识星球』,欢迎加入交流。这里已经汇聚了近4000名自动驾驶从业人员,每日分享前沿技术、行业动态、岗位招聘、大佬直播等一手资料!欢迎加入~

World Modeling Makes a Better Planner

  • 论文标题:World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

  • 论文链接:https://arxiv.org/abs/2503.10480

核心创新点:

1. 双偏好优化框架(Dual Preference Optimization, D²PO)

  • 提出了一种联合优化机制,通过偏好学习同时增强状态预测(state prediction)动作选择(action selection)。该方法将直接偏好优化(DPO)扩展至具身任务规划领域,使视觉语言大模型(LVLM)在训练阶段内化环境动态,从而提升规划能力。通过自然语言表征状态变化,模型无需显式世界模型引导即可在推理阶段生成高效动作序列。

2. 基于树搜索的自动数据生成

  • 设计了一种广度优先树搜索(breadth-first tree search)机制,结合环境反馈与模型评分,自动探索可行轨迹并构建多模态逐步偏好数据(multimodal stepwise preference pairs)。该方法通过混合评分(环境可行性 + GPT-4o语义评分)筛选动作,支持无人工标注的规模化数据收集,解决了传统方法对专家演示和人工标注的依赖。

3. 世界建模与规划能力的协同增强

  • 首次将世界模型(world model)目标融入LVLM训练,通过预测动作引发的状态转移(  =  ( , )),使模型显式学习物理交互的因果链。实验表明,该方法显著减少了依赖错误(dependency error)、功能误用(affordance error)和冗余动作(inefficient error),在7B参数规模下任务成功率(SR)相对基线提升31.4%,路径效率(PL)提升33.0%,并展现出对未见场景的强泛化能力。

4. 仿真到现实的通用性设计

  • 提出VoTa-Bench评测基准,扩展文本型LoTa-Bench为多模态任务,通过第一视角视觉输入和开放域动作生成,更贴合真实机器人部署需求。该方法在AI2-THOR仿真环境中验证了框架的鲁棒性,为后续现实场景迁移奠定了基础。

DexGrasp Anything

  • 论文题目:DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

  • 论文链接:https://arxiv.org/abs/2503.08257

  • 项目链接:https://dexgraspanything.github.io/

核心创新点:

1. 物理感知的扩散生成框架

提出了一种基于扩散模型的灵巧抓取生成方法(DexGrasp Anything),通过在训练阶段(Physics-Aware Training)和采样阶段(Physics-Guided Sampler)深度整合三类物理约束:

  • 表面拉力(Surface Pulling Force, SPF):确保手部内表面与物体表面接近,优化接触质量;

  • 外部穿透排斥力(External-penetration Repulsion Force, ERF):防止手与物体的几何穿透;

  • 自穿透排斥力(Self-Penetration Repulsion Force, SRF):约束手部关节间距,避免手指自碰撞。

该框架通过后验采样迭代优化生成过程,显著提升抓取姿势的物理合理性与成功率(Suc.1/Suc.6指标提升约10-20%)。

2. 最大规模灵巧抓取数据集(DGA Dataset)

  • 构建了包含340万抓取姿势的DexGrasp Anything Dataset (DGA),覆盖15,698个物体,整合多源数据(仿真、真实采集、人类手部抓取)并采用“模型在环”生成策略(Model-in-the-Loop)。通过严格物理验证(如位移稳定性、穿透距离限制),其数据规模与多样性远超现有数据集(如DexGraspNet、GRAB),支持模型在零样本场景下的强泛化能力。

3. LLM增强的语义表征提取

  • 提出结合大语言模型(LLM)的物体表征提取模块,通过语义提示(如物体类别与形状描述)生成语义-几何融合特征,并利用跨注意力机制注入扩散模型。实验表明,该设计(Ours w/ LLM)进一步优化了复杂物体的抓取生成质量(如成功率提升3-5%),尤其在语义相关的抓取策略选择中表现突出。

EmbodiedVSR

  • 论文标题:EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks

  • 论文链接:https://arxiv.org/abs/2503.11089

核心创新点:

1. 动态场景图引导的零样本空间推理框架(EmbodiedVSR)

  • 动态场景图建模:通过实时检测与深度估计,构建并持续更新结构化场景图( ),显式建模对象状态动态(位置、功能属性)、几何约束关系及动作引发的环境状态转移,解决传统静态场景图无法适应动态交互的缺陷。

  • 物理约束链式思维推理(Physics-Constrained CoT):将推理过程分解为原子步骤,每一步通过场景图的物理一致性规则(如几何可行性、力学支持关系)验证,确保多步操作中空间约束的持续性跟踪,避免传统CoT的几何脱节问题。

  • 零样本泛化能力:通过神经-符号组件的参数无关交互,结合预训练模型的抽象推理能力与动态场景图的物理锚定,无需任务特定微调即可实现复杂长视界任务的可靠推理。

2. 面向具身智能的评测基准(eSpatial-Benchmark)

  • 动态交互场景覆盖:基于RoboMIND重构的eSpatial-RoboMIND和LEGO装配任务驱动的eSpatial-Lego,引入动作条件化对象状态、物理稳定性约束及多维空间关系标注(相对位置、颜色细粒度区分、堆叠几何边界等),填补传统静态视觉问答(VQA)与可执行空间认知间的评估鸿沟。

  • 任务驱动评估协议:通过可配置的LEGO结构组装任务,严格评测模型对物理属性理解、空间依赖解析、结构稳定性推理及层级化操作序列生成的能力,耦合推理有效性于可执行动作生成中。

3. 系统集成与验证

  • 机器人操作闭环验证:在Tien Kung人形机器人平台部署EmbodiedVSR,实现基于动态场景图的LEGO结构重建任务,验证80%的操作成功率与100%的装配描述准确率,证明框架在真实物理交互场景的实用性。

  • 模块化协同设计:通过检测模型(OVD)与深度估计提供精确感知输入,结合大语言模型(LLM)的关系推理能力,解决单一模块的泛化局限(如检测模型混淆、纯LLM提示的几何幻觉),实现感知-推理-执行的端到端协同优化。

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫码加入~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值