LEARNING ON LARGE-SCALE TEXT-ATTRIBUTED GRAPHS VIA VARIATIONAL INFERENCE

mumukehao

于 2025-02-23 18:35:07 发布

阅读量704

点赞数 16

CC 4.0 BY-SA版权

分类专栏：文本属性图文章标签：文本属性图

本文链接：https://blog.youkuaiyun.com/chairuilin/article/details/145813403

文本属性图专栏收录该内容

12 篇文章

订阅专栏

LEARNING ON LARGE-SCALE TEXT-ATTRIBUTED GRAPHS VIA VARIATIONAL INFERENCE

ICLR23

推荐指数：#paper/⭐⭐#

作者的写作手法感觉就是有点把模型往数学化的方式去写,内容其实就相当于一个LM与GCN互相提供伪标签监督。利用KL散度来优化有点意思

动机

关键挑战

传统方法同时训练LLMs和GNNs时，计算复杂度高，难以扩展到大规模图数据。

方法创新：GLEM框架

交替训练机制：
- E步：固定GNN参数，GNN预测的伪标签与观察到的标签一起用于LM训练，使其学习与图拓扑一致的文本表示。
- M步：固定LLM参数，LM提供文本嵌入和伪标签给GNN，提升结构建模能力。
模块解耦：避免同时训练两个大模型，显著降低计算开销。
互增强机制：LLM和GNN通过交替更新互相提供监督信号（伪标签)，逐步提升整体性能。

模型细节

伪似然变分框架

这是一个基于伪似然变分框架的方法，该方法用于模型设计，提供了一种原则性和灵活性的公式化方式。具体来说，这个方法的目标是最大化观测到的节点标签的对数似然函数，即 $p(y_L | s_V, A)$

直接优化这个函数通常是困难的，因为存在未观测到的节点标签 $y_U$ 。为了解决这个问题，该框架不直接优化对数似然函数，而是优化一个称为证据下界（Evidence Lower Bound，ELBO）的量。ELBO 的表达式如下：

$logp(yL∣sV,A)≥Eq(yU∣sU)[log⁡p(yL,yU∣sV,A)−log⁡q(yU∣sU)]\\log p(y_L | s_V, A) \geq \mathbb{E}_{q(y_U | s_U)}[\log p(y_L, y_U | s_V, A) - \log q(y_U | s_U)]$

这里， $q(y_U | s_U)$

E-step（期望步） ：优化变分分布 $，目的是最小化和后验分布$
M-step（最大化步） ：优化目标分布 ( p )，以最大化伪似然函数：

$Eq(yU∣sU)[log⁡p(yL,yU∣sV,A)]≈Eq(yU∣sU)[∑n∈Vlog⁡p(yn∣sV,A,yV∖n)]\mathbb{E}_{q(y_U | s_U)}[\log p(y_{L}, y_{U} | s_{V}, A)] \approx \mathbb{E}_{q(y_U | s_U)}\left[\sum_{n \in V}\log p(y_{n} | s_{V}, A, y_{V \setminus n})\right]$

这个过程通过交替执行 E-step 和 M-step 来实现，直到收敛。这种方法允许模型在不需要直接处理未观测标签的情况下，有效地学习节点表示。简而言之，这种方法通过优化一个下界来间接优化对数似然函数，这个下界可以通过交替优化两个分布来逐步提高，从而使得模型能够更好地处理未观测数据，并提高学习效果。

具体的两个模型的介绍

在这部分内容中，文章详细阐述了GLEM方法中使用的两种分布—— $和的参数化过程，以及它们如何用于节点标签分布的建模和优化。$

分布 $的参数化$

分布 $的目标是利用文本信息来定义节点标签分布,这相当于一个语言模型(LM)。在 GLEM 中，采用均场形式（mean-field form），假设不同节点的标签是独立的，每个节点的标签只依赖于它自己的文本信息。这导致了以下形式的分解：$

分布 $的参数化$

分布 $pp定义了一个条件分布 pϕ(yn∣sV,A,yV\n)p_{\phi}(y_{n}|s_{V}, A, y_{V\backslash n})$

由于节点文本 $s_V$

E-STEP: LM OPTIMIZATION

目标：在E-step中，固定GNN，更新LM以最大化证据下界。这样做的目的是将不同节点之间的全局语义相关性提取到LM中。最大化关于 LM 的证据下限等同于最小化后验分布和变分分布之间的 KL 散度
优化方法：直接优化KL散度是困难的，因为KL散度依赖于难以处理的变分分布的熵。为了克服这个挑战，作者采用了wake-sleep算法来最小化反向KL散度，从而得到一个更易于处理的目标函数。
目标函数：目标函数是关于LM $qθq_\theta$
分布计算：唯一的困难在于计算分布 $pϕ(yn∣sV,A,yL)p_\phi(y_n|s_V, A, y_L)$
解决方案：为了解决这个问题，作者提出用LM预测的伪标签来标注图中所有未标记的节点，从而可以近似分布：
$pϕ(yn∣sV,A,yL)≈pϕ(yn∣sV,A,yL,y^U\n)p_\phi(y_n|s_V, A, y_L) \approx p_\phi(y_n|s_V, A, y_L, \hat{y}_{U\backslash n})$
最终目标函数：结合上述目标函数和标记节点，得到训练LM的最终目标函数：
$O(q)=α∑n∈UEp(yn∣sV,A,yL,y^U\n)[log⁡q(yn∣sn)]+(1−α)∑n∈Llog⁡q(yn∣sn)\mathcal{O}(q) = \alpha \sum_{n \in U} \mathbb{E}_{p(y_n|s_V, A, y_L, \hat{y}_{U\backslash n})}[\log q(y_n|s_n)] + (1-\alpha) \sum_{n \in L} \log q(y_n|s_n)$

M-STEP: GNN OPTIMIZATION

目标：在GNN阶段，目标是固定语言模型 $qθq_\theta$

方法：
- 使用语言模型为所有节点生成节点表示 $h_V$
- 利用语言模型 $qθq_\theta$
伪似然重写：结合节点表示和LM $qθq_\theta$

一旦训练完成，E-step中的LM（记为GLEM-LM）和M-step中的GNN（记为GLEM-GNN）都可以用来进行节点标签预测。

实验

结果：
- GLEM-GNN：在所有三个数据集上取得了新的最佳性能，证明了其在节点分类任务中的有效性。
- GLEM-LM：通过结合图结构信息，显著提升了语言模型的性能。
- 可扩展性：GLEM 能够适应大型语言模型（如 DeBERTa-large），并且在效率和性能之间取得了良好的平衡。

‍