CVPR2025满分工作—TSP3D!作者提出了一种用于3D视觉Grounding的高效多级卷积架构。由于两阶段或基于point的架构,传统方法难以满足实时推理的要求。受多层完全稀疏卷积架构在3目标检测中的成功启发,清华&南洋理工的团队想按照这一技术路线构建一个新的3D视觉基础框架。然而,由于在3D视觉基础任务中,3D场景表示应该与文本特征进行深度交互,由于大量的体素特征,基于稀疏卷积的架构对于这种交互效率低下。为此TSP3D提出了文本引导剪枝(TGP)和基于补全的addition(CBA),通过逐步区域剪枝和目标补全,以有效的方式深度融合3D场景表示和文本特征。具体来说,TGP迭代地稀疏化3D场景表示,从而通过交叉注意力有效地将体素特征与文本特征交互。为了减轻修剪对精细几何信息的影响,CBA通过体素完成自适应地修复过度修剪的区域,计算开销可以忽略不计。与之前的单级方法相比,我们的方法实现了最高的推理速度,比之前的最快方法提高了100%的FPS。即使与两阶段方法相比,TSP3D也达到了最先进的精度,领先+1.13Acc@0.5在ScanRefer上分别使用+2.6和+3.2导联,在NR3D和SR3D上分别使用。
论文链接:https://arxiv.org/abs/2502.10392
代码链接:https://github.com/GWxuan/TSP3D

今天自动驾驶之心很荣幸邀请到清华大学自动化系IVG实验室在读博士-郭文轩,为大家分享CVPR中稿的这篇工作!今晚七点半,锁定自动驾驶之心直播间~
>>直播和内容获取转到→自动驾驶之心知识星球
国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到300+自动驾驶公司与科研机构的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案,更有行业动态和岗位发布!欢迎扫描加入

【自动驾驶之心】技术交流群
自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。我们成立了一系列的技术交流群,涉及:端到端自动驾驶、大模型、车道线检测、2D/3D目标跟踪、2D/3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、点云处理、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等多个方向!
备注:学校/公司+方向+昵称(快速入群方式)
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取