
论文解读 IEEE TPAMI
文章平均质量分 94
持续分享顶刊论文解读
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
小白学视觉
跟着小白一起学视觉
展开
-
TPAMI 2025 | 从类别翻转分布角度改进对抗训练
对抗训练已被提出并被广泛认为是一种非常有效的抵御对抗噪声的方法。然而,不同类别上的标签翻转模式仍需更深入的探索,以发现潜在问题并助力进一步提升模型的鲁棒性。在这项工作中,作者通过统计调查对类别翻转分布进行建模,发现该分布揭示了两个缺点:模型对每个类别的数据预测中都存在极易产生误导的类别,且不同类别间的翻转趋势差异显著。基于这些观察,作者提出了一种类别翻转感知对抗训练(CFAT)方法。原创 2025-06-03 09:30:00 · 14 阅读 · 0 评论 -
TPAMI 2025 | 多空间神经辐射场(MS-NeRF)
现有的神经辐射场(Neural Radiance Fields, NeRF)方法在处理反射物体时存在不足,常常导致渲染结果模糊或失真。作者提出了一种多空间神经辐射场(MS-NeRF),它通过在并行子空间中使用一组特征场来表示场景,从而使神经网络能更好地理解反射和折射物体的存在。这种多空间方案是对现有NeRF方法的一种增强,在训练和推断额外空间输出时仅需少量的计算开销。原创 2025-06-02 07:38:48 · 216 阅读 · 0 评论 -
TPAMI 2025 | 基于图循环网络的文本理解预训练
近年来,基于Transformer的预训练模型取得了很大进展,Transformer架构也成为自然语言处理中最重要的骨干架构之一。最近的研究表明,Transformer内部的注意力机制可能并非必要,并且诸如卷积神经网络、多层感知机和状态空间模型等Transformer替代方案也已得到研究。基于Transformer的模型主要有两个局限性:第一,由于其全注意力机制,时间复杂度为二次方,导致计算成本较高。第二,它们依赖于诸如[CLS]这样的特殊标记来编码整个文本,这限制了其句子级别的表达能力。原创 2025-06-02 07:37:34 · 15 阅读 · 0 评论 -
TPAMI 2025 | 基于隐式形状与外观先验的少样本全头部重建
近年来,采用基于坐标的神经表示的学习技术在多视图3D重建任务中取得了显著成果。然而,这些方法通常需要大量的输入视图(通常几十个)和计算密集型的优化过程才能发挥作用。在本文中,作者专门针对少样本全3D头部重建问题解决这些限制。作者通过将概率形状和外观先验纳入基于坐标的表示中,使得在仅使用少量输入图像(甚至低至单张图像)时也能实现更快的收敛和更好的泛化。在测试阶段,作者利用这一先验,通过可微渲染器指导有符号距离函数的拟合过程。原创 2025-06-01 09:30:00 · 26 阅读 · 0 评论 -
TPAMI 2025 | 全连接Transformer用于多源图像融合
多源图像融合将来自多个图像的信息合并为一个数据,从而提高成像质量。这一主题在学术界引起了极大的兴趣。尽管现有的基于自注意力的Transformer方法可以捕捉空间和通道相似性,但如何整合来自不同来源的信息仍然是一个巨大的挑战。在本文中,作者首先讨论了所提出的广义自注意力机制背后的数学概念,其中现有的自注意力被视为基本形式。该机制采用多重线性代数来推动一种新颖的全连接自注意力(FCSA)方法的发展,以充分利用多源图像之间的局部和非局部特定领域相关性。此外,作者提出了一种多源图像表示,并将其作为优化问题中的非局原创 2025-06-01 09:30:00 · 20 阅读 · 0 评论 -
TPAMI 2025 | 用于极端标签分类的多头编码
现实世界中实例的类别数量通常极为庞大,并且每个实例可能包含多个标签。为了利用机器学习区分这些海量标签,极端标签分类(XLC)应运而生。然而,随着类别数量的增加,分类器中的参数数量和非线性运算也随之增加,这就导致了分类器计算过载问题(CCOP)。为了解决这个问题,作者提出了一种多头编码(MHE)机制,用多头分类器取代传统的分类器。在训练过程中,MHE将极端标签分解为多个短的局部标签的乘积,每个头在这些局部标签上进行训练。在测试时,预测标签可以直接从每个头的局部预测中计算得出,这从几何意义上减少了计算量。原创 2025-05-31 17:13:31 · 14 阅读 · 0 评论 -
TPAMI 2025 | 探索多模态图像融合中的协同高阶交互作用
多模态图像融合旨在通过整合和区分来自多个源图像的跨模态互补信息,生成融合图像。虽然具有全局空间交互的交叉注意力机制前景看好,但它仅捕捉二阶空间交互,忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态之间协同效应的挖掘。为了弥合这一差距,作者引入了协同高阶交互范式(SHIP),旨在从两个基本维度系统地研究多模态图像之间的空间细粒度和全局统计协作:1)空间维度:作者通过逐元素乘法构建空间细粒度交互,这在数学上等同于全局交互,然后通过迭代聚合和演化互补信息来促进高阶形式,提高效率和灵活性。原创 2025-05-31 17:12:21 · 24 阅读 · 0 评论 -
TPAMI 2025 | Instruct-ReID++:迈向通用的指令引导行人重识别
近年来,行人重识别(ReID)因其广泛的实际应用而发展迅速,并出现了多种设定,如传统ReID、换装ReID和可见光 - 红外ReID。然而,当前研究主要集中在单一特定任务上,这限制了模型在现实场景中的适用性。本文旨在通过引入一种新颖的instruct - ReID任务来解决这一问题,该任务将6种现有的ReID任务统一在一个模型中,并根据提供的视觉或文本指令检索图像。instruct - ReID是对通用ReID设定的首次探索,通过分配不同的指令,现有的6种ReID任务可以被视为其特殊情况。为了便于在这个新的原创 2025-05-29 09:30:00 · 22 阅读 · 0 评论 -
TPAMI 2025 | 稀疏非局部条件随机场及其应用
条件随机场(CRF)在传统和深度学习计算机视觉中对空间一致性进行建模。最常见的CRF称为成对CRF,因为它连接像素对。成对CRF有两种类型:稀疏型和密集型。稀疏CRF连接相邻像素,其连接数量与图像大小呈线性关系。密集CRF连接所有像素对,其连接数量与图像大小呈二次方关系。虽然密集CRF是更通用的模型,但它的效率远低于稀疏CRF。实际上,在实践中仅使用高斯边缘密集CRF,而且即便如此也需进行近似处理。作者提出了一种新的成对CRF,称为稀疏非局部CRF。与密集CRF一样,它具有非局部连接,因此比稀疏CRF更通用原创 2025-05-29 09:30:00 · 21 阅读 · 0 评论 -
TPAMI 2025 | 双边人岗匹配的拟度量学习
在在线招聘中,将雇主提供的合适岗位与合格的求职者相匹配是一项至关重要的任务。通常,求职者和雇主在招聘市场中都有特定的期望,这使得他们分别倾向于类似的岗位和求职者。度量学习为捕捉求职者与岗位之间的相似性传播提供了一种有前景的方法。然而,现有的度量学习技术依赖于对称距离度量,无法对招聘场景双向选择过程中双边用户(即求职者和雇主)的非对称关系进行建模。此外,用户(如求职者)的行为在很大程度上受到其对应方(如雇主)的行动和反馈的影响。而现有的人岗匹配方法主要探索同构且无向的图,很难捕捉到这些影响。为了解决这些问题,原创 2025-05-28 09:30:00 · 31 阅读 · 0 评论 -
TPAMI 2025 | 基于度量一致图集的时间一致曲面重建
作者提出了一种从随时间演变的点云序列中无监督重建时间一致的表面序列的方法。该方法能在各帧之间产生密集且具有语义意义的对应关系。作者将重建的表面表示为由神经网络计算的地图集,这使得能够在各帧之间建立对应关系。使这些对应关系具有语义意义的关键在于确保在对应点处计算的度量张量尽可能相似。作者设计了一种优化策略,使得该方法对噪声和全局运动具有鲁棒性,无需先验对应关系或预对齐步骤。因此,该方法在几个具有挑战性的数据集上的表现优于当前最先进的方法。假设输入为3D点云的时间序列P1PKP1...PK。原创 2025-05-28 09:30:00 · 95 阅读 · 0 评论 -
TPAMI 2025 | 重温基于正交梯度投影的持续学习中平坦度感知优化
markdown杨恩能、沈立、王振一、刘世伟、郭贵冰、王星伟、陶大程持续学习(CL)的目标是从一系列不断到来的新任务中学习,而不会忘记先前学到的旧任务。为避免对旧任务的灾难性遗忘,基于正交梯度投影(OGP)的CL方法将新任务的梯度限制为与旧任务所张成的空间正交。这种严格的梯度约束会限制新任务的学习能力,导致新任务的性能降低。在本文中,作者首先为基于OGP的CL方法建立了一个统一框架。然后,从损失曲面的新视角重新审视基于OGP的CL方法,发现当放宽投影约束以提高新任务的性能时,损失曲面的不平坦会导致对旧任务的原创 2025-05-27 09:30:00 · 29 阅读 · 0 评论 -
TPAMI 2025 | 基于语言引导意图转换的可迁移无意动作定位
非故意动作定位(UAL)是一项具有挑战性的任务,需要对动作意图线索进行推理,以检测现实世界视频中非故意动作发生的时间位置。以往的研究通常将该任务视为密集二分类问题,没有充分探索意图线索与非故意动作之间的关系,导致推理时在开放集场景下的表现不尽人意。在本文中,作者通过引入语言引导的意图转换,提出了一种可迁移的非故意动作定位框架,明确将非故意动作定位表述为一个开放集定位问题。原创 2025-05-27 09:30:00 · 21 阅读 · 0 评论 -
TPAMI 2025 | 基于积分概率度量期望的连续敏感属性公平表示学习
人工智能公平性,也称为算法公平性,旨在确保算法在运行时不会对任何个人或群体存在偏见或歧视。在各种人工智能算法中,公平表示学习(FRL)方法近年来受到了广泛关注。然而,现有的FRL算法存在局限性:它们主要是为分类敏感属性设计的,因此无法应用于连续敏感属性,如年龄或收入。在本文中,作者提出了一种针对连续敏感属性的FRL算法。首先,作者引入了一种称为积分概率度量期望(EIPM)的度量,用于评估连续敏感属性表示空间的公平程度。作者证明,如果表示的分布具有较低的EIPM值,那么在该表示之上构建的任何预测头都会变得公平原创 2025-05-26 08:06:30 · 20 阅读 · 0 评论 -
TPAMI 2025 | 基于狄利克雷多项分布精确计算的过分散数据高效分析
使用合适的统计分布对计数数据进行建模,有助于分析数据所传达的模式。然而,如果未能解决过度离散等关键问题,可能会危及此类分析的有效性。在本文中,作者通过使用定点迭代算法最大化似然,采用狄利克雷多项分布(DM)对过度离散的计数数据进行建模。这一过程通过估计DM分布参数实现,同时对近期的Languasco-Migliardi(LM)和Yu-Shaw(YS)方法进行比较,这两种方法旨在解决评估对数似然时众所周知的计算难题。作者使用来自民意调查、图像和物联网网络流量等不同领域的多个数据集进行实验。原创 2025-05-26 08:05:29 · 16 阅读 · 0 评论 -
TPAMI 2025 | 高斯导航:用于视觉导航的高斯溅射
在具身视觉中,实例图像目标导航(IIN)要求智能体在未知环境中定位目标图像中描绘的特定物体。IIN的主要挑战在于,需要在不同视角下识别目标物体,同时忽略潜在的干扰因素。现有的基于地图的导航方法通常使用鸟瞰图(BEV),这种地图缺乏场景的详细纹理表示。因此,虽然BEV地图在语义层面的视觉导航中很有效,但在实例层面的任务中却存在困难。为此,作者提出了一种新的IIN框架——用于视觉导航的高斯溅射法(GaussNav),该框架基于3D高斯溅射法(3DGS)构建了一种新的地图表示。原创 2025-05-24 09:30:00 · 32 阅读 · 0 评论 -
TPAMI 2025 | 对流扩散方程:一种具有理论验证的神经网络框架
微分方程已显示出与网络结构的内在联系,通过连续方程连接离散的网络层。大多数现有方法侧重于常微分方程(ODE)与特征变换之间的相互作用,主要作用于输入信号。在本文中,作者研究了神经网络的偏微分方程(PDE)模型,将神经网络视为对分类器最后一层提供的基础模型进行操作的函数。受尺度空间理论的启发,作者从神经网络和偏微分方程的角度,在可解释且直观的假设下,从理论上证明了这种映射可以用对流扩散方程来表示。这个经过理论认证的框架涵盖了各种现有的网络结构和训练技术,为神经网络提供了数学基础和新的见解。此外,基于对流扩散方原创 2025-05-24 09:30:00 · 20 阅读 · 0 评论 -
TPAMI 2025 | 基于高时间分辨率事件相机的连续时间目标分割
事件相机是一种新型的受生物启发的传感器,其单个像素独立且异步地工作,将强度变化作为事件生成。利用事件的微秒级分辨率(无运动模糊)和高动态范围(适用于极端光照条件),在各种应用中直接从稀疏和异步的事件流中分割物体具有很大的潜力。然而,与视频对象分割中丰富的线索不同,从稀疏的事件流中分割完整的物体具有挑战性。在本文中,作者提出了第一个从事件流中进行连续时间物体分割的框架。给定初始时刻的物体掩码,作者的任务旨在分割事件流中任何后续时刻的完整物体。具体来说,作者的框架由基于新型ResLSTM的循环时间嵌入提取(RT原创 2025-05-23 09:30:00 · 41 阅读 · 0 评论 -
TPAMI 2025 | 争夺像素:一种用于弱监督语义分割的自博弈算法
弱监督语义分割(WSSS)方法依赖于指示物体存在的图像级标签,标签与感兴趣区域(ROI)之间缺乏明确的对应关系,这带来了重大挑战。尽管如此,与全监督分割相比,WSSS方法因其低得多的标注成本而受到关注。作者利用强化学习(RL)自博弈,提出了一种新颖的WSSS方法,将ROI的图像分割游戏化。作者将分割表述为两个智能体之间的竞争,它们竞相选择包含ROI的图像块,直到所有此类图像块被耗尽。原创 2025-05-23 09:30:00 · 62 阅读 · 0 评论 -
TPAMI 2025 | 长亘2:多时态遥感生成式变化基础模型
深度学习视觉模型极大地推动了我们对地球表面时间动态变化的理解,而这类模型的训练通常需要大量带标注的多时相图像。然而,大规模地收集、预处理和标注多时相遥感图像并非易事,因为这既昂贵又需要大量专业知识。在本文中,作者提出了基于生成模型的可扩展多时相变化数据生成器,这种生成器成本低廉且自动化,能够缓解数据方面的难题。作者的主要思路是模拟随时间变化的随机改变过程。原创 2025-05-22 09:30:00 · 31 阅读 · 0 评论 -
TPAMI 2025 | C2P-Net:用于房间布局估计的综合深度图到平面深度转换方法
房间布局估计旨在利用透视或全景图像推断室内场景的整体空间结构。由于布局由室内主要平面决定,该问题本质上需要对这些平面进行重建。一些研究通过学习像素级或实例级平面参数,从透视图像中重建室内平面。然而,直接学习这些参数存在易受遮挡影响和位置依赖的问题。在本文中,作者引入了综合深度图到平面深度(C2P)的转换方法,将平面深度重建问题转化为对综合深度图和平面可见性置信度的预测。基于提出的平面深度参数化表示,C2P转换适用于全景图像和透视图像。原创 2025-05-22 09:30:00 · 16 阅读 · 0 评论 -
TPAMI 2025 | BridgeNet:通过桥接特征实现多任务密集预测的全面有效特征交互
多任务密集预测旨在通过一个统一的网络同时处理多个逐像素预测任务,以实现对视觉场景的理解。然而,当前方法的跨任务特征交互存在表征层次不完整、特征参与部分的语义区分性不足以及成对任务交互过程效率低下等问题。为解决这些尚未充分研究的问题,作者提出了一种新颖的BridgeNet框架,该框架提取全面且具有区分性的中间桥接特征,并基于这些特征进行交互。具体而言,首先应用任务模式传播(TPP)模块,确保为后续交互准备好具有高度语义的特定任务特征;原创 2025-05-21 09:30:00 · 18 阅读 · 0 评论 -
TPAMI 2025 | 基于高光谱热测量的吸收式被动测距成像
被动式高光谱长波红外测量能获取丰富的环境信息。远处物体的材料和温度决定了热辐射光谱,而距离、气温和气体浓度则决定了该光谱在传播到传感器过程中的变化。作者提出一种基于计算分离这些现象的被动式距离成像方法。以往的方法假设物体温度高且发射率高,当物体温度与气温相差不大时,测距就更具挑战性。作者的方法在明确考虑大气发射的情况下,联合估计距离和物体固有属性,不过假设反射光可忽略不计。通过使用大气吸收的参数模型和对发射率估计进行平滑正则化,缓解了反演的不确定性问题。原创 2025-05-21 09:30:00 · 22 阅读 · 0 评论 -
TPAMI 2025 | 深入挖掘梯度在基于展开的加速磁共振成像重建中的应用
目前主要有两种方法可用于加速磁共振成像(MRI)重建:并行成像和压缩感知。为了进一步加快采样过程,近年来这两种方法的结合得到了广泛研究。然而,现有的MRI重建方法往往忽视对图像高频信息的挖掘,导致重建结果中精细细节的恢复效果欠佳。为解决这一问题,作者对图像梯度进行了深入分析,并提出了一种基于最大后验(MAP)估计的新型MRI重建模型。作者首先通过理论分析,为全采样的MR图像建立了最大梯度幅值累积偏差(CDMG)先验,然后将这种显式的CDMG先验与隐式深度先验相结合,形成先验概率项。这种先验的结合在物理约束和原创 2025-05-20 21:41:55 · 295 阅读 · 0 评论 -
TPAMI 2025 | 一种用于评估多模态大语言模型创造性的因果感知范式
近来,大量基准测试被开发用于评估大语言模型(LLMs)的逻辑推理能力。然而,评估LLMs同样重要的创造性能力却颇具挑战,这是由于创造性具有主观性、多样性以及数据稀缺的特性,在多模态场景中更是如此。在本文中,作者探讨了评估多模态大语言模型(MLLMs)创造性的完整流程,重点关注合适的评估平台和方法。首先,作者发现了Oogiri游戏,这是一项由创造力驱动的任务,要求参与者针对文本、图像或两者的组合给出幽默、具有联想思维且出人意料的回应。原创 2025-05-20 21:40:34 · 29 阅读 · 0 评论 -
TPAMI 2025 |通过以对象为中心的体素化和神经渲染实现动态场景理解
从无监督视频中学习以对象为中心的表示具有挑战性。与以往大多数专注于分解二维图像的方法不同,作者提出了一种名为DynaVol-S的三维生成模型,用于动态场景,该模型能够在可微体渲染框架内实现以对象为中心的学习。其核心思想是执行以对象为中心的体素化,以捕捉场景的三维特性,从而推断各个空间位置上每个对象的占用概率。这些体素特征通过规范空间变形函数进行演化,并在具有组合神经辐射场(Neural Radiance Field, NeRF)的逆向渲染管道中进行优化。原创 2025-05-16 09:30:00 · 151 阅读 · 0 评论 -
TPAMI 2025 | 具有投影共识约束的分布式核主成分分析框架(二)
为了便于阅读,作者首先给出证明的概要。定理3的证明基于误差分解技术。具体来说,目标被分解为三个分量:L({αj(t+1)},{zj(t+1)},ηj(t+1))−L({αj(t)},{zj(t)},{ηj,p(t)})=E1+E2+E3\begin{align*}&\mathcal{L}(\{\alpha_j^{(t + 1)}\},\{z_j^{(t + 1)}\},\eta_j^{(t + 1)})-\mathcal{L}(\{\alpha_j^{(t)}\},\{z_j^{(t)}\},\{\e原创 2025-05-16 09:30:00 · 23 阅读 · 0 评论 -
TPAMI 2025 | 用于时间序列分类和聚类的广义时间规整不变字典学习
字典学习是一种对时间序列数据进行模式识别和分类的有效工具。在众多字典学习技术中,动态时间规整(DTW)常用于处理时间延迟、缩放、变换以及许多其他类型的时间不对齐问题。然而,由于在对齐时间序列数据时的离散性,DTW容易出现过拟合或信息丢失的情况。为解决这一问题,本文提出了一种广义时间规整不变字典学习算法。该方法的特点是采用广义时间规整算子,它由连续基函数的线性组合构成,有助于实现连续的时间规整。将所提出的算子与字典学习相结合,构建为一个优化问题,并采用块坐标下降法联合优化规整路径、字典和稀疏系数。优化结果随后原创 2025-05-15 09:30:00 · 30 阅读 · 0 评论 -
TPAMI 2025 | 用于人物图像生成的增强多尺度交叉注意力机制
本文中,作者提出了一种基于交叉注意力机制的新型生成对抗网络(GAN),用于极具挑战性的人物图像生成任务。交叉注意力机制是一种新颖直观的多模态融合方法,它通过计算不同模态的两个特征图之间的注意力/相关矩阵来实现。具体而言,作者提出了新型的XingGAN(或CrossingGAN),该网络由两个生成分支组成,分别捕捉人物的外观和形状特征。此外,作者还提出了两种新型交叉注意力模块,有效传递和更新人物的形状和外观嵌入,以实现相互促进,这是现有基于GAN的图像生成工作未曾考虑的。为了进一步学习不同尺度和子区域中不同人原创 2025-05-14 09:30:00 · 39 阅读 · 0 评论 -
TPAMI 2025 | 基于感知流形曲率预测和提升深度神经网络的公平性
摘要:为应对长尾分类的挑战,研究人员提出了多种减少模型偏差的方法,其中大多数方法假设样本较少的类别是弱类别。然而,最近的研究表明,尾部类别并不总是难以学习,并且在样本平衡的数据集上也观察到了模型偏差,这表明存在其他影响模型偏差的因素。在这项工作中,作者首先建立了一个分析模型公平性的几何视角,然后系统地提出了一系列用于度量深度神经网络中感知流形的几何度量方法。随后,作者全面探索了感知流形的几何特征对分类难度的影响,以及学习过程如何塑造感知流形的几何特征。一个意外的发现是,在训练过程中,类别准确率与感知流形的分原创 2025-05-13 09:30:00 · 94 阅读 · 0 评论 -
TPAMI 2025 | 通过事件勾勒生成过程学习异质网络节点表示及其在链接预测中的应用
异质信息网络(HIN)作为描述现实世界系统中交互关系的重要工具脱颖而出。近年来,HIN上的表示学习备受关注,因为结构化且紧凑的输出嵌入为网络分析和图机器学习任务提供了极大便利。现有HIN表示学习方法在监督训练或直接邻近度重建方面表现出色,在节点聚类和分类等任务中取得了令人满意的性能,但它们往往忽略了HIN生成过程中由众多事件所表征的关键特征。因此,这些方法无法保留节点之间的高阶交互,也难以预测HIN中的潜在链接。为解决这些局限,作者提出了一种基于异质信息网络事件的对比学习方法(CLEH)。原创 2025-05-12 09:30:00 · 178 阅读 · 0 评论 -
TPAMI 2025 | 用于场景图生成去偏的因果调整模块
虽然最近用于场景图生成(SGG)的去偏方法表现出色,但这些方法往往将模型偏差仅归因于关系的长尾分布,忽略了由不均衡的对象和对象对分布所导致的更深刻原因。在本文中,作者运用因果推断技术对这些观察到的不均衡分布之间的因果关系进行建模。作者的观点在于,因果推断能够捕捉复杂分布之间不可观测的因果效应,这对于追溯模型偏差的根源至关重要。具体而言,作者引入了基于中介变量的因果链模型(MCCM),该模型除了对对象、对象对和关系之间的因果关系进行建模外,还纳入了中介变量,即共现分布,以完善因果关系。随后,作者提出了因果调整原创 2025-05-11 19:15:35 · 34 阅读 · 0 评论 -
TPAMI 2025 | 用于平衡行人属性识别的异构特征重采样
在行人属性识别(PAR)中,“属性”这一宽泛术语涵盖从人体软生物特征到穿着配饰,甚至各种主观身体描述。因此,“属性”的广泛涵盖意味着,PAR不应过度专注于具有独特特征的有限属性,而应从更基础的角度入手。鉴于大多数属性在现实世界数据集中的代表性严重不足,作者将PAR简化为一个在显著数据不平衡下的多标签识别视觉任务。为此,作者引入特征重采样分离学习(FRDL),以将标签平衡学习与属性共现的难题解耦。具体而言,FRDL能够平衡某个属性的采样分布,而不会对其他共现属性的标签先验产生偏差。作为一种补充方法,作者还提出原创 2025-05-10 09:30:00 · 35 阅读 · 0 评论 -
TPAMI 2025 | 具有投影共识约束的分布式核主成分分析框架(一)
本文研究了分布式环境下的核主成分分析(Kernel PCA,KPCA),在这种环境中,数据在本地节点以完整特征分布式观测,且不允许有融合中心。与线性主成分分析相比,核函数的使用给分布式共识优化的设计带来了挑战:局部投影方向依赖于数据。因此,分布式线性主成分分析中的共识约束不再有效。为克服这一问题,作者提出了投影共识约束,并获得了一种有效的分布式共识框架,其中局部解被期望为全局解在局部数据集列空间上的投影。作者还推导了一种基于交替方向乘子法的完全非参数、快速且收敛的算法,该算法每次迭代都是解析的,并且通信效率原创 2025-05-10 09:30:00 · 43 阅读 · 0 评论 -
TPAMI 2025 | 自动驾驶中鸟瞰视图感知稳健性的基准测试与提升
最近,鸟瞰视图(BEV)表示在车载3D感知方面展现出巨大的潜力。然而,尽管这些方法在标准基准测试中取得了令人瞩目的成果,但它们在各种条件下的稳健性仍未得到充分评估。在本研究中,作者提出了RoboBEV,这是一个广泛的基准测试套件,旨在评估BEV算法的弹性。该套件包含多种不同类型的相机损坏情况,每种情况都在三个严重程度级别上进行了研究。作者的基准测试还考虑了在使用多模态模型时发生的完全传感器故障的影响。原创 2025-05-09 09:30:00 · 45 阅读 · 0 评论 -
TPAMI 2025 | 基于时延后悔的概念神经网络用于动态流学习
动态流学习强调对传入数据进行高速、单遍、实时的响应,这给标准机器学习范式带来了新的挑战。特别是现有的(深度)神经网络在对数据流进行学习时表现不佳,因为它们通常需要访问大量的训练数据。因此,为了解决现有神经网络在平稳环境下高速数据流中的局限性,作者通过结合概念和两种不同的在线更新策略,提出了一种名为概念神经网络(ConceptNN)的新型动态神经网络。首先,作者构建了一个新的概念空间,其中每个概念由两个部分组成:特征向量(视为概念的内涵)及其权重信息(从概念的外延导出),用于训练初始神经网络。在训练过程中,样原创 2025-05-09 09:30:00 · 79 阅读 · 0 评论 -
TPAMI 2025 | OmniTracker:基于跟踪与检测结合的视觉目标统一跟踪方法
视觉目标跟踪(VOT)旨在估计视频序列中目标物体的位置,这是一项重要的视觉任务,在现实世界中有多种应用。根据目标物体的初始状态是由第一帧中提供的注释指定,还是由类别指定,VOT可以分为实例跟踪(如单目标跟踪(SOT)和视频目标分割(VOS))和类别跟踪(如多目标跟踪(MOT)、多目标跟踪与分割(MOTS)和视频实例分割(VIS))任务。不同的定义导致了针对这两类任务的不同解决方案,从而产生了冗余的训练成本和参数开销。原创 2025-05-08 09:30:00 · 193 阅读 · 0 评论 -
TPAMI 2024 | 基于反对抗样本的对抗训练(二)
作者的理论分析全面揭示了在四种典型学习场景下,扰动方向和范围对鲁棒模型的泛化性、鲁棒性和公平性有显著影响。主要发现总结如下:受理论发现的启发,作者首先建立了一个新的目标函数,在训练中为每个样本结合不同扰动范围的对抗样本和反对抗样本。元学习和强化学习通常用于样本加权和扰动的参数选择。相应地,作者分别提出了基于元学习和强化学习的两种方法来解决优化问题。它们的结构如图7所示。最外层的优化目标是最小化分类器的损失。内层优化目标旨在分别生成对抗样本和反对抗样本,即分别最大化和最小化样本损失。s+s^{+}s+和s−原创 2025-05-08 09:30:00 · 50 阅读 · 0 评论 -
TPAMI 2024 | 基于反对抗样本的对抗训练(一)
对抗训练在提高深度神经网络的鲁棒性方面很有效。然而,现有研究在模型的鲁棒性、泛化性和公平性方面仍存在显著缺陷。在本研究中,作者从理论和实践两个角度验证了不同扰动方向(即对抗扰动和反对抗扰动)以及扰动范围的重要性。在更普遍的扰动范围内,即不同样本可以有不同的扰动方向和变化的扰动范围,从理论上探究了对抗训练对深度学习模型在公平性、鲁棒性和泛化性方面的影响。原创 2025-05-07 09:30:00 · 42 阅读 · 0 评论 -
TPAMI 2025 | RelationLMM:作为开放通用视觉关系多面手的大型多模态模型
视觉关系对于视觉感知和推理至关重要,涵盖场景图生成、人机交互以及物体功能属性等任务。尽管已取得诸多进展,但该领域仍存在以下局限:针对特定任务构建专门模型,未考虑相似任务;任务表述严格复杂,灵活性受限;利用语言和知识进行推理的能力未得到充分挖掘。为解决这些问题,作者旨在基于大型多模态模型(LMMs)构建一个新框架,实现“一个模型搞定所有任务”。LMMs具备统一任务、灵活形式以及利用语言进行推理的潜力,然而,它们在处理视觉关系任务时表现不佳。作者发现其中的障碍包括不同任务之间的冲突以及实例级信息不足。原创 2025-05-07 09:30:00 · 39 阅读 · 0 评论