SoftHGNN:用于通用视觉识别的软超图神经网络

🔗Github地址:https://github.com/Mengqi-Lei/SoftHGNN

🔗arXiv论文:https://arxiv.org/abs/2505.15325

Self-Attention, HGNN, SoftHGNN 计算范式的差异

1. 摘要

视觉识别依赖于理解图像标记(image tokens)的语义内容以及它们之间复杂的交互关系。主流的自注意力(self-attention)方法虽然能够有效建模全局的成对关系,但难以捕捉真实世界场景中固有的高阶关联,同时也常常存在冗余计算的问题。超图(hypergraph)通过建模高阶交互关系扩展了传统图结构,为解决这些局限性提供了一种有前景的框架。然而,现有的超图神经网络(Hypergraph Neural Networks, HGNN)通常依赖于静态或人工构造的超边,这会导致超边数量过多且冗余,同时采用刚性的二元节点归属方式,忽略了视觉语义的连续性。
为了突破这些瓶颈,提出了软超图神经网络(Soft Hypergraph Neural Networks, SoftHGNN),扩展了超图计算理论,使其在视觉识别任务中真正高效且通用。SoftHGNN框架引入了软超边(soft hyperedges)的概念,其中,每个节点与超边的关联不再是硬性的二元分配,而是通过连续的归属权重来表达。 这种动态且可微的关联机制是通过可学习的语义原型向量实现的。通过计算token特征与这些原型之间的相似度,模型能够生成稀疏但语义丰富的超边。 这种设计允许节点以灵活的权重参与多个超边,更好地捕捉视觉语义的不确定性和渐变性。为了提高超边数量扩展时的计算效率,本文引入了一种仅激活 top-k 超边的稀疏超边选择机制,并结合负载均衡正则项(load-balancing regularizer),确保超边的合理利用和均衡分配。
在包含了3个典型视觉识别任务的5个公开数据集上的实验结果表明,SoftHGNN 能够高效建模高阶视觉关系,显著提升模型的性能表现。

2. 引言

近年来,视觉识别领域取得了显著进展,这主要得益于以深度神经网络为基础的模型,尤其是卷积神经网络(CNN)和 Transformer 模型。CNN 擅长捕捉局部空间结构信息,而基于自注意力机制的 Transformer 模型则能有效地建模图像 Token 之间的全局关系。当前主流的范式,如 Vision Transformer 及其变体,通常将图像划分为一系列视觉 Token,并重点关注这些 Token 之间的两两关系。

尽管取得了令人瞩目的成果,但基于自注意力机制的视觉模型仍面临两大挑战。其一,自注意力天然构建了一个完全连接的语义图,主要关注 Token 之间的两两关系,难以有效地表达真实视觉场景中普遍存在的高阶关联。例如,“一个人持拍击球”的简单场景,涉及人、球拍和球三者的多方交互——这种高阶关联仅通过两两建模难以捕捉。其二,Transformer 常采用稠密的全局注意力,导致大量冗余计算、高昂的开销以及模型收敛困难。

为缓解上述问题,超图作为传统图结构的扩展,因其显式建模高阶关联的能力而受到广泛关注。超图神经网络通过超边将多个顶点的关系编码在一起,有望更好地捕捉视觉数据中的复杂语义交互。例如,已有研究已初步验证了 HGNN 在视觉任务中的有效性。然而,将现有主要面向网络型数据设计的 HGNN 直接应用于视觉场景,会遇到两个关键瓶颈:

  1. 冗余超边。传统超图构建常基于 k 近邻或 ε‑球准则,为每个顶点生成一个超边。由于视觉任务中的顶点数(通常为 B×H×W,其中 B 是批量大小)极大,这种方法会产生大量远超实际有意义关联的超边,导致严重的计算冗余和效率低下。
  2. 硬超边的局限。已有 HGNN 多采用硬二值关联,要么将顶点完全包含于超边中,要么完全排除。这种刚性划分忽略了视觉语义的连续性与模糊性。例如在部分遮挡场景中,被遮挡区域应以较低权重参与相关超边,而非被完全剔除;而硬超边往往引入顶点冗余或覆盖不足,严重削弱模型性能。

针对上述瓶颈,我们提出了 Soft Hypergraph Neural Network(SoftHGNN),将超图计算方法扩展为既通用又高效的视觉识别框架。

  • 核心创新:采用可微分的“软”顶点参与机制,以可学习的超边原型向量替代静态硬超边。模型通过度量视觉 Token 与原型向量的相似度,动态生成语义富集的软超边。每条超边都以可学习的连续权重,柔性地连接所有顶点,自适应地建模视觉特征中的抽象高阶关联。
  • 计算效率:仅需维持常规模型规模的软超边集合,就能显著减少计算量,相较传统 HGNN 大幅提升效率。
  • 模块化特性:SoftHGNN 可作为“即插即用”模块,方便地集成至各类视觉识别模型,填补现有方法在高阶关联建模方面的空白,从而带来明显的性能提升。

在某些复杂场景中,为了更全面地捕捉丰富的视觉语义关联,可能需要更多候选的软超边。但通常只有其中一小部分对识别任务至关重要。为此,我们引入了 稀疏超边选择机制:预定义较大规模的软超边集合,但仅选取最关键的 k 条进行消息传递;同时设计了 负载均衡正则化,防止超边过度活跃或长期未被选中,确保超边利用的充分与均衡。

为了验证方法的泛化与有效性,我们在五个主流数据集——CIFAR‑10、CIFAR‑100、ShanghaiTech Part‑A、ShanghaiTech Part‑B 以及 MS COCO 上,针对图像分类、群体计数与目标检测三类典型视觉任务进行了大规模实验。结果表明,SoftHGNN 系列方法均能高效准确地捕捉视觉场景中的高阶语义关联,显著提升各项任务性能。

主要贡献:

  • 提出 Soft Hypergraph Neural Network(SoftHGNN),通过特征驱动的软超边机制,自适应地刻画视觉特征中的抽象高阶语义关联;
  • 设计稀疏超边选择策略,扩展 SoftHGNN 的超边容量同时保持高计算效率,并引入负载均衡正则化以避免超边选择失衡;
  • 在五个数据集、三类主流视觉识别任务上进行了大规模实验,充分证明了方法在捕捉高阶语义关联方面的精度与效率优势。

3. 传统超图基础理论

A. 超图

超图是对普通图的一种扩展,用于显式地刻画数据中的高阶关系。形式上,超图可表示为 G = ( V , E ) G=(V,E) G=(V,E),其中 V V V 是顶点集合, E E E 是超边集合。与传统图中每条边只能连接两个顶点不同,超图中的每条超边可以同时连接任意数量的顶点,因此能够自然地捕捉多个顶点之间的复杂高阶关联。超图的结构通常由一个关联矩阵(或称为顶点–超边指示矩阵) H ∈ R ∣ V ∣ × ∣ E ∣ H\in\mathbb{R}^{|V|\times|E|} HRV×E 来描述:若顶点 v v v 属于超边 e e e,则 H v , e = 1 H_{v,e}=1 Hv,e=1,否则 H v , e = 0 H_{v,e}=0 Hv,e=0

B. 超图神经网络

超图神经网络(HGNN)是一类将神经网络与超图结构相结合的表示学习方法,其核心是在超图上进行卷积(或消息传递),以捕捉高阶语义关联。一次典型的超图卷积包含两个阶段的聚合与散播:

  1. 顶点→超边 聚合:将所有顶点的特征按超边关系聚合到超边上;
  2. 超边→顶点 散播:再将超边上的信息反馈到顶点上。

X ( t ) ∈ R ∣ V ∣ × d X^{(t)}\in\mathbb{R}^{|V|\times d} X(t)RV×d 为第 t t t 层的顶点特征矩阵,超图卷积可写作:

X ( t + 1 ) = σ ( D v − 1   H   W   D e − 1   H ⊤   X ( t )   Θ ( t ) ) , X^{(t+1)} = \sigma\bigl(D_v^{-1}\,H\,W\,D_e^{-1}\,H^\top\,X^{(t)}\,\Theta^{(t)}\bigr), X(t+1)=σ(Dv1HWDe1HX(t)Θ(t)),

其中

  • H H H 是超图的关联矩阵;

  • W ∈ R ∣ E ∣ × ∣ E ∣ W\in\mathbb{R}^{|E|\times|E|} WRE×E 为超边权重矩阵,通常取为单位矩阵;

  • Θ ( t ) \Theta^{(t)} Θ(t) 是第 t t t 层的可学习变换矩阵;

  • σ ( ⋅ ) \sigma(\cdot) σ() 表示非线性激活函数;

  • D v D_v Dv D e D_e De 分别是顶点和超边的度矩阵,其对角元定义为

    ( D v ) i , i = ∑ e ∈ E H i , e , ( D e ) j , j = ∑ v ∈ V H v , j . (D_v)_{i,i}=\sum_{e\in E}H_{i,e},\quad (D_e)_{j,j}=\sum_{v\in V}H_{v,j}. (Dv)i,i=eEHi,e,(De)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值