TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs

本文链接：https://blog.youkuaiyun.com/chairuilin/article/details/145851935

TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs

Neurips 24

推荐指数：#paper/⭐⭐⭐#（数据集）

动机

原有的数据集，其缺乏textual信息

TEG-DB是第一个专门为文本边图设计的开放数据集和基准
我们进行了广泛的基准测试实验，并对基于TEK的方法进行了全面分析，深入研究了各个方面，例如不同模型和不同规模的PLM生成的嵌入的影响、GNN中不同嵌入方法（包括分离和纠缠嵌入）的后果、边缘文本的影响和不同领域数据集的影响。通过应对关键挑战并强调有希望的机会，我们的研究刺激并指导了TEK勘探和开发的未来方向。(一会重写)

数据集

已存在方法的实施：

基于PLM的方法

$\begin{aligned}h_{u}^{(k+1)}&=\mathrm{MLP}_{\boldsymbol{\psi}}^{(k)}\left(h_u^{(k)}\right)\\h_{u}^{(0)}&=\mathrm{PLM}(T_{u})+\sum_{v\in\mathcal{N}(u)}\mathrm{PLM}(T_{e_{v,u}})\end{aligned}$

$T_{\boldsymbol{u}}$ 与 $T_{e_{v,u}}$ 分别代表节点u的原始文本以及边 $e_{u,v}$ 的文本。

Edge-aware的基于GNN的范式

$\boldsymbol{h}_u^{(k+1)}=\mathrm{UPDATE}_{\boldsymbol{\omega}}^{(k)}\left(\boldsymbol{h}_u^{(k)},\mathrm{AGGREGATE}_{\boldsymbol{\omega}}^{(k)}\left(\left\{\boldsymbol{h}_v^{(k)},\boldsymbol{e}_{v,\boldsymbol{u}},v\in\mathcal{N}(u)\right\}\right)\right)$

但是，其有如下两个问题：

在TEG中，节点与边文本通常具有语义强耦合性（例如社交网络中用户节点的描述与评论边内容互为补充）。传统GNN将二者独立编码为分离的嵌入向量，导致交互依存关系丢失。
GNN的静态嵌入机制难以捕捉文本边中动态语境信息（如多义词在不同边中的语义差异、长文本的篇章逻辑）。

纠缠的GNN范式

现有方法通常独立编码节点与边文本（先提取边文本嵌入，再输入GNN），忽略了二者在TEG中的强语义耦合性（如节点内容与边文本的逻辑关联）。这种分离式嵌入会破坏交互依赖信息。

因此，作者提出的这种范式，在嵌入生成前，将相连节点与边的文本进行联合编码（如拼接或交叉注意力），捕获其交互语义后再生成联合嵌入。

$\begin{aligned} h_{u}^{(k+1)} & =\mathrm{UPDATE}_{\boldsymbol{\omega}}^{(k)}\left(h_{u}^{(k)},\mathrm{AGGREGATE}_{\boldsymbol{\omega}}^{(k)}\left(\left\{\boldsymbol{h}_{v}^{(k)},v\in\mathcal{N}(u)\right\}\right)\right) \\ h_{u}^{0} & =\mathrm{PLM}(T_{u},\{T_{v},T_{e_{v,u}},v\in\mathcal{N}(u)\}) \end{aligned}$