Graph-BERT论文中核心公式解析_亲密度矩阵-优快云博客

公式：
$\alpha \cdot (I - (1-\alpha) \cdot \bar{A})^{-1}$

公式：
$e_j^{(x)} = \text{Embed}(x_j), \quad e_j^{(x)} \in \mathbb{R}^{d_h \times 1}$

公式：
$e_j^{(r)} = \text{Position-Embed}(\text{WL}(v_j))$

原理：
- ( \text{WL}(v_j) ) 使用 Weisfeiler-Lehman (WL) 算法 计算的角色代码，用于捕捉节点的全局角色信息。
- Position-Embed 使用正弦和余弦函数生成嵌入，类似 Transformer 中的时间位置编码。
意义：
- 捕捉节点在全局图结构中的绝对角色信息，例如节点的度、位置等。

公式：
$e_j^{(p)} = \text{Position-Embed}(P(v_j))$

公式：
$e_j^{(d)} = \text{Position-Embed}(H(v_j, v_i))$

公式：
$H^{(l)} = \text{softmax}\left(\frac{Q K^\top}{\sqrt{d_h}}\right)V + G_\text{Res}(H^{(l-1)}, X)$

注意力机制：
- ( Q = H^{(l-1)} W_Q^{(l)} )：从上一层生成的 Query。
- ( K = H^{(l-1)} W_K^{(l)} )：Key，用于计算与其他节点的相关性。
- ( V = H^{(l-1)} W_V^{(l)} )：Value，用于加权生成下一层的节点表示。
- 注意力计算：
  $\text{Attention} = \text{softmax}\left(\frac{Q K^\top}{\sqrt{d_h}}\right)V$
  - 点积注意力：计算 Query 和 Key 的相似性，关注重要的上下文节点。
  - 归一化：通过 Softmax，将权重分布到所有上下文节点。
残差连接：
- ( G_\text{Res}(H^{(l-1)}, X) ) 是图残差项，直接将上一层的特征与输入特征结合，缓解深层网络的梯度消失问题。

公式：
$\mathcal{L}_1 = \frac{1}{|V|} \sum_{v_i \in V} \|x_i - \hat{x}_i\|_2$

原理：
- 使用节点表示 ( z_i ) 重建节点的原始特征 ( x_i )。
- 通过最小化预测值 ( \hat{x}_i ) 和真实值 ( x_i ) 的差异，保证节点表示包含丰富的特征信息。
意义：
- 使模型学习每个节点的独立特征，为下游任务提供坚实基础。

公式：
$\mathcal{L}_2 = \frac{1}{|V|^2} \|\hat{S} - S\|_F^2$

原理：
- ( \hat{S} ) 是从节点嵌入 ( z_i, z_j ) 计算的相似度矩阵，定义为：
  $\hat{S}_{i,j} = \frac{z_i^\top z_j}{\|z_i\| \cdot \|z_j\|}$
- ( S ) 是图的真实亲密度矩阵。
- 通过最小化 Frobenius 范数，确保模型能够捕捉图的拓扑结构。
意义：
- 保证模型的节点嵌入反映了图的整体结构特性。

公式：
$\hat{y}_i = \text{softmax}\left(\text{FC}(z_i)\right)$

公式：
$\min_{\mu_1, \dots, \mu_l} \min_{C} \sum_{j=1}^l \sum_{v_i \in C_j} \|z_i - \mu_j\|_2$