🔗Github地址:https://github.com/Mengqi-Lei/SoftHGNN
🔗arXiv论文:https://arxiv.org/abs/2505.15325

文章目录
1. 摘要
视觉识别依赖于理解图像标记(image tokens)的语义内容以及它们之间复杂的交互关系。主流的自注意力(self-attention)方法虽然能够有效建模全局的成对关系,但难以捕捉真实世界场景中固有的高阶关联,同时也常常存在冗余计算的问题。超图(hypergraph)通过建模高阶交互关系扩展了传统图结构,为解决这些局限性提供了一种有前景的框架。然而,现有的超图神经网络(Hypergraph Neural Networks, HGNN)通常依赖于静态或人工构造的超边,这会导致超边数量过多且冗余,同时采用刚性的二元节点归属方式,忽略了视觉语义的连续性。
为了突破这些瓶颈,提出了软超图神经网络(Soft Hypergraph Neural Networks, SoftHGNN),扩展了超图计算理论,使其在视觉识别任务中真正高效且通用。SoftHGNN框架引入了软超边(soft hyperedges)的概念,其中,每个节点与超边的关联不再是硬性的二元分配,而是通过连续的归属权重来表达。 这种动态且可微的关联机制是通过可学习的语义原型向量实现的。通过计算token特征与这些原型之间的相似度,模型能够生成稀疏但语义丰富的超边。 这种设计允许节点以灵活的权重参与多个超边,更好地捕捉视觉语义的不确定性和渐变性。为了提高超边数量扩展时的计算效率,本文引入了一种仅激活 top-k 超边的稀疏超边选择机制,并结合负载均衡正则项(load-balancing regularizer),确保超边的合理利用和均衡分配。
在包含了3个典型视觉识别任务的5个公开数据集上的实验结果表明,SoftHGNN 能够高效建模高阶视觉关系,显著提升模型的性能表现。
2. 引言
近年来,视觉识别领域取得了显著进展,这主要得益于以深度神经网络为基础的模型,尤其是卷积神经网络(CNN)和 Transformer 模型。CNN 擅长捕捉局部空间结构信息,而基于自注意力机制的 Transformer 模型则能有效地建模图像 Token 之间的全局关系。当前主流的范式,如 Vision Transformer 及其变体,通常将图像划分为一系列视觉 Token,并重点关注这些 Token 之间的两两关系。
尽管取得了令人瞩目的成果,但基于自注意力机制的视觉模型仍面临两大挑战。其一,自注意力天然构建了一个完全连接的语义图,主要关注 Token 之间的两两关系,难以有效地表达真实视觉场景中普遍存在的高阶关联。例如,“一个人持拍击球”的简单场景,涉及人、球拍和球三者的多方交互——这种高阶关联仅通过两两建模难以捕捉。其二,Transformer 常采用稠密的全局注意力,导致大量冗余计算、高昂的开销以及模型收敛困难。
为缓解上述问题,超图作为传统图结构的扩展,因其显式建模高阶关联的能力而受到广泛关注。超图神经网络通过超边将多个顶点的关系编码在一起,有望更好地捕捉视觉数据中的复杂语义交互。例如,已有研究已初步验证了 HGNN 在视觉任务中的有效性。然而,将现有主要面向网络型数据设计的 HGNN 直接应用于视觉场景,会遇到两个关键瓶颈:
- 冗余超边。传统超图构建常基于 k 近邻或 ε‑球准则,为每个顶点生成一个超边。由于视觉任务中的顶点数(通常为 B×H×W,其中 B 是批量大小)极大,这种方法会产生大量远超实际有意义关联的超边,导致严重的计算冗余和效率低下。
- 硬超边的局限。已有 HGNN 多采用硬二值关联,要么将顶点完全包含于超边中,要么完全排除。这种刚性划分忽略了视觉语义的连续性与模糊性。例如在部分遮挡场景中,被遮挡区域应以较低权重参与相关超边,而非被完全剔除;而硬超边往往引入顶点冗余或覆盖不足,严重削弱模型性能。
针对上述瓶颈,我们提出了 Soft Hypergraph Neural Network(SoftHGNN),将超图计算方法扩展为既通用又高效的视觉识别框架。
- 核心创新:采用可微分的“软”顶点参与机制,以可学习的超边原型向量替代静态硬超边。模型通过度量视觉 Token 与原型向量的相似度,动态生成语义富集的软超边。每条超边都以可学习的连续权重,柔性地连接所有顶点,自适应地建模视觉特征中的抽象高阶关联。
- 计算效率:仅需维持常规模型规模的软超边集合,就能显著减少计算量,相较传统 HGNN 大幅提升效率。
- 模块化特性:SoftHGNN 可作为“即插即用”模块,方便地集成至各类视觉识别模型,填补现有方法在高阶关联建模方面的空白,从而带来明显的性能提升。
在某些复杂场景中,为了更全面地捕捉丰富的视觉语义关联,可能需要更多候选的软超边。但通常只有其中一小部分对识别任务至关重要。为此,我们引入了 稀疏超边选择机制:预定义较大规模的软超边集合,但仅选取最关键的 k 条进行消息传递;同时设计了 负载均衡正则化,防止超边过度活跃或长期未被选中,确保超边利用的充分与均衡。
为了验证方法的泛化与有效性,我们在五个主流数据集——CIFAR‑10、CIFAR‑100、ShanghaiTech Part‑A、ShanghaiTech Part‑B 以及 MS COCO 上,针对图像分类、群体计数与目标检测三类典型视觉任务进行了大规模实验。结果表明,SoftHGNN 系列方法均能高效准确地捕捉视觉场景中的高阶语义关联,显著提升各项任务性能。
主要贡献:
- 提出 Soft Hypergraph Neural Network(SoftHGNN),通过特征驱动的软超边机制,自适应地刻画视觉特征中的抽象高阶语义关联;
- 设计稀疏超边选择策略,扩展 SoftHGNN 的超边容量同时保持高计算效率,并引入负载均衡正则化以避免超边选择失衡;
- 在五个数据集、三类主流视觉识别任务上进行了大规模实验,充分证明了方法在捕捉高阶语义关联方面的精度与效率优势。
3. 传统超图基础理论
A. 超图
超图是对普通图的一种扩展,用于显式地刻画数据中的高阶关系。形式上,超图可表示为 G = ( V , E ) G=(V,E) G=(V,E),其中 V V V 是顶点集合, E E E 是超边集合。与传统图中每条边只能连接两个顶点不同,超图中的每条超边可以同时连接任意数量的顶点,因此能够自然地捕捉多个顶点之间的复杂高阶关联。超图的结构通常由一个关联矩阵(或称为顶点–超边指示矩阵) H ∈ R ∣ V ∣ × ∣ E ∣ H\in\mathbb{R}^{|V|\times|E|} H∈R∣V∣×∣E∣ 来描述:若顶点 v v v 属于超边 e e e,则 H v , e = 1 H_{v,e}=1 Hv,e=1,否则 H v , e = 0 H_{v,e}=0 Hv,e=0。
B. 超图神经网络
超图神经网络(HGNN)是一类将神经网络与超图结构相结合的表示学习方法,其核心是在超图上进行卷积(或消息传递),以捕捉高阶语义关联。一次典型的超图卷积包含两个阶段的聚合与散播:
- 顶点→超边 聚合:将所有顶点的特征按超边关系聚合到超边上;
- 超边→顶点 散播:再将超边上的信息反馈到顶点上。
记 X ( t ) ∈ R ∣ V ∣ × d X^{(t)}\in\mathbb{R}^{|V|\times d} X(t)∈R∣V∣×d 为第 t t t 层的顶点特征矩阵,超图卷积可写作:
X ( t + 1 ) = σ ( D v − 1 H W D e − 1 H ⊤ X ( t ) Θ ( t ) ) , X^{(t+1)} = \sigma\bigl(D_v^{-1}\,H\,W\,D_e^{-1}\,H^\top\,X^{(t)}\,\Theta^{(t)}\bigr), X(t+1)=σ(Dv−1HWDe−1H⊤X(t)Θ(t)),
其中
-
H H H 是超图的关联矩阵;
-
W ∈ R ∣ E ∣ × ∣ E ∣ W\in\mathbb{R}^{|E|\times|E|} W∈R∣E∣×∣E∣ 为超边权重矩阵,通常取为单位矩阵;
-
Θ ( t ) \Theta^{(t)} Θ(t) 是第 t t t 层的可学习变换矩阵;
-
σ ( ⋅ ) \sigma(\cdot) σ(⋅) 表示非线性激活函数;
-
D v D_v Dv 与 D e D_e De 分别是顶点和超边的度矩阵,其对角元定义为
( D v ) i , i = ∑ e ∈ E H i , e , ( D e ) j , j = ∑ v ∈ V H v , j . (D_v)_{i,i}=\sum_{e\in E}H_{i,e},\quad (D_e)_{j,j}=\sum_{v\in V}H_{v,j}. (Dv)i,i=e∈E∑Hi,e,(De)

最低0.47元/天 解锁文章
5469

被折叠的 条评论
为什么被折叠?



