作者 | 深蓝学院 来源 | 深蓝AI
点击下方卡片,关注“自动驾驶之心”公众号

>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
AI技术日新月异,但真正的“硬核突破”在哪里?是让机器人更灵巧地完成复杂任务,还是让AI在工业决策上超越人类专家?抑或是为看似“黑盒”的模型找到坚实的理论根基?
这些令人兴奋的前沿挑战,正是上海交通大学严骏驰教授团队的主攻方向。作为IAPR/IET Fellow、国家优青,他带领的这支顶尖团队,近期在CVPR、ICLR、NeurIPS等舞台上交出了一份惊艳的答卷,用一系列开创性工作回应了这些时代之问。
严骏驰教授,上海交通大学人工智能学院教授,IAPR/IET Fellow,CCF优博/杰出会员。科技部2030新一代人工智能重大项目负责人、国家自然科学基金委优青、交叉学部重大研究计划重点项目负责人、教育部资源建设深度学习首席专家。发表CCF-A类第一/通讯作者论文过200篇(CVPR24最佳论文候选、AAAI21最具影响力论文),引用超21000次。

本文将精选并解读其团队近期重磅论文,旨在为读者呈现一场思想盛宴,一窥其最新的研究图景。
CVPR 24最佳论文候选 | Grounding and Enhancing Grid-based Models for Neural Fields

推荐理由:首次提出了基于网格的神经场模型的系统性理论框架,通过引入网格切线核(GTK)概念,深入分析了这类模型的近似和泛化行为,并基于该理论框架开发出性能卓越的MulFAGrid模型。
论文内容:该论文针对当前基于网格的神经场模型缺乏系统性分析这一问题,提出了一个创新的理论框架 LinnkTheCVF。该框架指出这些模型的近似和泛化行为由网格切线核(GTK)决定,这是基于网格模型的内在属性 CVPR 2024 Open Access Repository。作者基于Rademacher复杂度推导出泛化界限,用于衡量训练好的基于网格模型在未见数据上的性能表现 CVPR 2024 Open Access Repository。
基于提出的理论框架,作者开发了一种名为乘法傅立叶自适应网格(MulFAGrid)的新型基于网格模型 LinnkTheCVF。MulFAGrid通过联合优化核参数和网格特征的自适应学习方案,在"欠拟合"和"过拟合"极端之间取得平衡,实现更精确的预测 CVPR 2024 Open Access Repository。同时,MulFAGrid支持规则网格和不规则网格两种形式 CVPR 2024 Open Access Repository。
在多个任务上的实验验证了该方法的有效性。在2D图像拟合任务上,MulFAGrid达到了56.19的PSNR,超越了之前的基于网格模型。在3D有符号距离场重建任务中,达到了0.9995的IoU和4.51的法向角误差。在神经辐射场(NeRF)基准测试中,MulFAGrid以显著优势超越了之前的基于网格模型,PSNR高达30.12。
论文主页:
https://sites.google.com/view/cvpr24-2034-submission/home
ICLR 2025 | CR2PQ:Continuous Relative Rotary Positional Query for Dense Visual Representation Learning

推荐理由:提出了一种名为CR2PQ的连续相对旋转位置查询方法,首次解决了密集视觉对比学习(DRL)中跨视图像素/patch对应的关键问题,通过将离散位置嵌入转换为连续表示,实现了显著的性能提升。
论文内容:该论文深入研究了密集视觉对比学习中的自对比和跨对比机制,识别出关键问题在于将离散位置嵌入转换为连续表示。现有方法主要依赖于对同一视图进行变化的自对比,这限制了输入的多样性并阻碍了下游性能。为解决跨视图对应问题,作者提出了连续相对旋转位置查询(CR2PQ)方法,实现了patch级别的表示学习。
在COCO数据集上的广泛实验证明了该方法的有效性。与之前的最先进方法PQCL相比,CR2PQ在300个预训练epoch后,在检测和分割任务上分别获得显著改进。更重要的是,CR2PQ展现了更快的收敛速度,仅用40个预训练epoch就比SOTA方法获得了10.4% mAP^bb和7.9% mAP^mk的显著提升。
论文主页:https://openreview.net/forum?id=3l6PwssLNY
ICLR 2025 | BTBS-LNS:Binarized-Tightening, Branch and Search on Learning LNS Policies for MIP

推荐理由:提出了一种名为BTBS-LNS的二进制紧缩分支搜索方法,首次有效解决了基于策略学习的大邻域搜索(LNS)在混合整数规划(MIP)问题中的局限性,实现了与商业求解器Gurobi竞争甚至更优的性能。
论文内容:学习求解大规模混合整数规划(MIP)问题是一个新兴研究主题,基于策略学习的大邻域搜索(LNS)已成为热门范式。然而,即使在训练阶段,LNS策略的探索空间通常也很有限,使得学习到的策略有时会在搜索早期错误地固定一些潜在重要变量,在某些情况下导致局部最优。此外,许多方法只假设处理二进制变量。论文提出了三个关键技术:1) "二进制紧缩"技术,通过二进制编码和边界紧缩来处理整数变量的广泛范围;2) 基于注意力的三方图,用于捕获MIP实例中变量和约束之间的全局相关性;3) 额外的分支网络作为全局视图,在每个搜索步骤中识别和优化错误固定的后门变量。
实验显示该方法在开源求解器SCIP和LNS基线方法上表现出色。更重要的是,它与商业求解器Gurobi (v9.5.0)竞争激烈,有时甚至表现更好,特别是在Hans Mittelmann选择的MIPLIB2017基准测试中,在300秒截止时间内,该方法比Gurobi提供了10%更好的原始间隙。
论文主页:https://openreview.net/forum?id=siHHqDDzvS
ICLR 2025 | Learning Structured Universe Graph with Outlier OOD Detection for Partial Matching

推荐理由:提出了一种结构化宇宙图学习方法结合异常值OOD检测,首次系统性地区分并解决了偏匹配问题中的点遮挡和标注错误两个不同根本原因的挑战,在计算机视觉关键点匹配任务中实现了显著的性能提升。
论文内容:偏匹配是一种图匹配问题,其中只有两个图的部分可以对齐。这个问题在计算机视觉应用中特别重要,因为在标注关键点时经常出现点遮挡或标注错误等挑战。以往的工作往往将点遮挡和标注错误混淆,尽管它们有着不同的根本原因。论文提出了两个组件来解决这些挑战:(1) 学习一个结构化宇宙图来连接两个输入图,有效解决点遮挡问题;(2) 设计基于能量的分布外检测,在匹配前从输入图中去除标注错误。
研究团队在Pascal VOC和Willow Object数据集上评估了该方法,重点关注涉及点遮挡和随机异常值的场景。实验结果表明,该方法在所有测试场景中都持续优于最先进的方法,突出了方法的准确性和鲁棒性。
论文主页:https://openreview.net/forum?id=dmjQLHufev
SIGKDD 2025 | BiQAP:Neural Bi-level Optimization-based Framework for Solving Quadratic Assignment Problems

推荐理由:提出了一种名为BiQAP的神经双层优化框架,首次通过修改输入实例来挖掘深度网络在纯数值二次分配问题(QAP)上的潜力,这与以往专注于特征提取的方法形成正交互补,实现了在多个基准测试上的优异性能。
论文内容:二次分配问题(QAP)因其广泛应用和计算挑战而持续受到关注。尽管机器学习在QAP领域有着丰富的文献,但大多数工作通常在图像匹配的设置下解决问题,其中深度网络在提取有用特征方面发挥重要作用。然而,它们在纯数值QAP实例上的能力仅限于节点嵌入,通常使用普通的图神经网络。因此论文开发了一个双层无监督框架,具体包括:(1)内层优化:尝试通过熵正则化求解修改后的实例,可使用Sinkhorn算法迭代求解,而不会通过在训练期间截断梯度来影响反向传播;(2)外层优化:处理原始QAP的二次目标函数。
论文主页:
https://dl.acm.org/doi/abs/10.1145/3711896.3736859
NeurIPS 2024 | Fast T2T:Optimization Consistency Speeds up Diffusion-based Training to Testing for Combinatorial Optimization

推荐理由:提出了一种名为Fast T2T的优化一致性方法,首次实现了扩散模型在组合优化中的快速单步求解,通过优化一致性训练协议显著加速了基于扩散的训练到测试框架,仅用一步生成和一步梯度搜索就能超越需要数百步的最先进扩散方法,实现数十倍的加速。
论文内容:扩散模型最近作为神经求解器的强大骨干推进了组合优化(CO)领域的发展。然而,它们需要在多个噪声级别进行去噪的迭代采样过程产生了巨大的开销。该论文在前作T2T (Training-to-Testing) 框架基础上进行了重大改进。(1)优化一致性训练协议:学习从不同噪声级别到给定实例最优解的直接映射,通过最小化来自不同生成轨迹和时间步相对于最优解的样本之间的差异,实现高质量的最少步骤生成。(2)基于一致性的梯度搜索:在测试阶段引入新颖的基于一致性的梯度搜索方案,在噪声注入和去噪步骤的交替期间,在目标梯度指导下更新潜在解概率,实现对训练期间学习的解空间的更有效探索。(3)训练到测试桥接:有效连接历史实例训练和新实例求解之间的差距。
论文仅用一步生成和一步梯度搜索就能超越需要数百步的SOTA扩散对应方法,实现数十倍的加速,在旅行商问题(TSP)和最大独立集(MIS)问题求解上进行的广泛实验证明了Fast T2T的优越性,在有限时间预算下的求解能力甚至超越了LKH求解器。
论文主页:https://openreview.net/forum?id=xDrKZOZEOc /
NeurIPS 2024 | Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation

推荐理由:提出了一种名为CLOVER的闭环视觉运动控制框架,首次将经典闭环控制系统的理念成功应用于机器人操作,通过生成式期望和反馈机制解决了长时域机器人任务中的误差累积和鲁棒性问题,在CALVIN基准上相比开环方法提升8%,实际机器人长时域操作任务完成长度提升91%。
论文内容:尽管近年来机器人学和具身AI取得了显著进展,但将机器人部署用于长时域任务仍然是一个巨大挑战。大多数先前的技术采用开环理念,缺乏实时反馈,导致误差累积和不理想的鲁棒性。少数方法尝试利用像素级差异或预训练视觉表示建立反馈机制,但其效果和适应性受到限制。受经典闭环控制系统启发,CLOVER框架包含三个核心组件:文本条件视频扩散模型生成视觉计划作为参考输入,为机器人提供未来状态的视觉子目标;可测量嵌入空间用于准确的错误量化,通过测量连续帧之间的距离来检测不可达的计划;反馈驱动控制器根据反馈改进动作并在需要时启动重新规划。由于闭环属性,CLOVER对视觉干扰和对象变化具有鲁棒性,在子目标不可行时自动重新规划,达到目标时适应下一个目标。该框架在仿真和真实机器人任务中都验证了有效性,在CALVIN基准上达到最先进性能,比之前的开环对应方法提升8%,真实世界长时域操作中完成任务的平均长度提升91%。
论文主页:https://openreview.net/forum?id=1ptdkwZbMG
NeurIPS 2024 | Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy

推荐理由:提出了一种名为AdaptiveDiffusion的无训练自适应扩散方法,首次通过有界差分近似策略在去噪过程中自适应减少噪声预测步骤,在保持生成质量不变的同时实现2-5倍的显著加速,为交互式应用提供了实用的解决方案。
论文内容:扩散模型最近在高质量图像和视频合成方面取得了巨大成功。然而,扩散模型中现有的去噪技术通常基于逐步噪声预测,这导致高计算成本,对交互式应用造成了令人望而却步的延迟。该方法考虑在保持最终去噪结果与原始完整步骤相同的情况下尽可能跳过更多噪声预测步骤的潜力。跳跃策略由三阶潜在差分指导,该差分指示去噪过程中时间步之间的稳定性,包含三阶潜在差分估计器来确定是否重用来自先前时间步的噪声预测进行当前时间步的去噪。作者严格分析了跳跃去噪过程中引入的误差,定义并证明了一个定理,建立了依赖于相邻潜在向量之间差异的误差上界。该方法无需训练即可直接在现有预训练扩散模型上应用,基于三阶潜在差分值自适应近似各种提示的最优跳跃策略,为图像和视频生成模型提供统一的跳跃策略。在图像和视频扩散模型上的广泛实验表明,该方法可以显著加速去噪过程,同时生成与原始过程相同的结果,实现高达平均2-5倍的加速而无质量降低,在文本到图像、图像到视频和文本到视频生成任务上都取得了优异性能。
论文主页:https://arxiv.org/abs/2410.09873
TPAMI 2024 | Encode, Train and Interpret for Continuous-Time Dynamic Graph Learning

推荐理由:提出了一种名为EasyDGL的易用流水线,首次实现了连续时间动态图学习中编码、训练和解释的统一框架,通过时间点过程调制的注意力架构和图傅里叶域的扰动分析,为动态图分析提供了强大的拟合能力和可解释性。
论文内容:动态图在各种现实应用中出现,通常欢迎在连续时间域中直接建模动态以获得灵活性。该论文旨在设计一个易于使用的流水线(称为EasyDGL,这也是由于其通过DGL工具包的实现),由三个具有强拟合能力和可解释性的关键模块组成。(1)编码模块:时间点过程(TPP)调制的注意力架构,为观察到的具有边添加事件的图的耦合时空动态赋予连续时间分辨率。(2)训练模块:由基于图上观察事件的任务无关TPP后验最大化和具有动态图掩码策略的任务感知损失组成的原则化损失,涵盖的任务包括动态链路预测、动态节点分类和节点流量预测。(3)解释模块:通过图傅里叶域中可扩展的基于扰动的定量分析来解释模型输出(例如表示和预测),这可以更全面地反映学习模型的行为。
论文在公共基准上的广泛实验结果显示了EasyDGL在时间条件预测任务上的优越性能,特别是证明了EasyDGL能够有效量化模型从演化图数据中学习的频率内容的预测能力。
论文主页:
https://ieeexplore.ieee.org/document/10636764/ /
总结
从CVPR的最佳论文候选,到ICLR、NeurIPS的连番告捷,严骏驰教授团队的这轮“学术爆发”,清晰地勾勒出未来AI研究的几个关键趋势:理论与实践的深度融合、AI对传统科学计算的颠覆性重塑,以及迈向更鲁棒、更高效、更自主的智能系统。
他们的工作,不仅是在顶级会议上发表论文,更是在为整个行业提供可复现、可落地的“弹药”。这些研究成果,很可能在不久的将来,演变为我们身边更聪明的机器人、更强大的设计工具和更高效的商业解决方案。
这就是顶尖科研的魅力所在:它源于对极限的挑战,归于对世界的改变。期待严骏驰教授团队未来带来更多惊喜!
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
5632

被折叠的 条评论
为什么被折叠?



