图嵌入应用与常用符号体系解析
1. 图嵌入的应用
图嵌入在机器学习领域有着广泛的应用,主要分为无监督应用和有监督应用两类。
1.1 无监督应用
- 图重建 :目标是学习映射函数,将节点映射到一个流形上,从而能够重建图。这是一种无监督学习,因为除了图结构外没有其他监督信息。模型通过最小化重建误差进行训练,即从学习到的嵌入中恢复原始图的误差。从高层次来看,图重建类似于降维,其主要目标是将图上定义的数据压缩成低维向量,与标准降维方法(如PCA)将高维向量压缩成低维向量不同。
- 链接预测 :旨在预测缺失或未观察到的链接,例如动态和时间网络中未来可能出现的链接,还能帮助识别和去除虚假链接。这是图学习模型在工业中的主要应用,常见的应用场景包括社交网络中的友谊预测、推荐系统中的用户 - 产品交互预测、欺诈检测系统中的可疑链接预测以及知识图中实体间缺失关系的预测。训练链接预测模型的常见方法是屏蔽图中的一些边(正边和负边),用剩余的边训练模型,然后在屏蔽的边集上进行测试。需要注意的是,链接预测与图重建不同,链接预测旨在预测原始图中未观察到的链接,而图重建仅希望通过最小化重建误差来计算保留图结构的嵌入。虽然链接预测在某些方面与有监督任务相似,因为边有标签(正、负、未观察到),但它通常被归类为无监督应用,因为边标签通常在训练期间不使用,仅用于衡量嵌入的预测质量。
- 聚类 :对于发现社区非常有用,在现实世界中有许多应用。例如,生物网络中的蛋白质簇(具有相似属性的蛋白质组)或社交网络中的人群簇(具有相似兴趣的人群组)。本章介绍的无监督方法可以通过将聚类算法(如k - 均值)应用于编码器输出的嵌入来解决聚类问题。此外,在学习浅层嵌入模型或图卷积嵌入模型时,聚类可以与学习算法相结合。
- 可视化 :有许多现成的工具可用于将图节点映射到二维流形上进行可视化。可视化允许网络科学家定性地理解图的属性、节点之间的关系或可视化节点簇。流行的工具包括基于力导向布局的方法,有各种Web应用程序的Javascript实现。无监督图嵌入方法也用于可视化目的,首先训练一个编码器 - 解码器模型(对应于浅层嵌入或图卷积网络),然后使用t - SNE或PCA将每个节点表示映射到二维空间。这种“嵌入→降维”的过程通常用于定性评估图学习算法的性能。如果节点有属性,可以使用这些属性为二维可视化图上的节点着色。好的嵌入算法会将具有相似属性的节点嵌入到嵌入空间中彼此靠近的位置。此外,除了将每个节点映射到二维坐标外,将每个图映射到一个表示的方法也可以投影到二维空间,以可视化和定性分析图级别的属性。
1.2 有监督应用
- 节点分类 :是一个重要的有监督图应用,目标是学习能够准确预测节点标签的节点表示。例如,在引文网络中节点标签可以是科学主题,在社交网络中可以是性别和其他属性。由于标记大型图既耗时又昂贵,半监督节点分类是一种特别常见的应用。在半监督设置中,只有一部分节点被标记,目标是利用节点之间的链接来预测未标记节点的属性。这种设置是直推式的,因为只有一个部分标记的固定图。也可以进行归纳式节点分类,即对多个图中的节点进行分类。需要注意的是,如果节点特征能够描述目标标签,那么它们可以显著提高节点分类任务的性能。例如,GCN和GraphSAGE等方法由于能够结合结构信息和来自特征的语义信息,在多个节点分类基准测试中取得了最先进的性能,而图上的随机游走等方法则无法利用特征信息,因此在这些任务上的性能较低。
- 图分类 :是一个有监督应用,目标是预测图的标签。图分类问题是归纳式的,一个常见的例子是对化学化合物进行分类,例如从分子预测毒性或气味。图分类需要某种池化操作,以便将节点级信息聚合为图级信息。由于图结构缺乏规律性,将池化概念推广到任意图并非易事,因此图池化是一个活跃的研究领域。除了上述有监督方法外,还提出了许多用于学习图级表示的无监督方法。
2. 常用符号体系
在机器学习和相关领域,使用一致的符号体系对于准确表达和理解概念非常重要,但由于涉及的数据、模型和算法种类繁多,以及不同领域和文献之间的差异,制定统一的符号体系具有挑战性。以下是一些常见的符号及其含义。
2.1 常见数学符号
| 符号 | 含义 |
|---|---|
| ∞ | 无穷大 |
| → | 趋向于,例如n →∞ |
| ∝ | 成比例,例如y = ax可写成y ∝x |
| ≜ | 定义为 |
| O(·) | 大O符号,大致表示数量级 |
| Z⁺ | 正整数集 |
| R | 实数集 |
| R⁺ | 正实数集 |
| Sᴷ | K维概率单纯形 |
| Sᴰ⁺⁺ | D × D正定矩阵锥 |
| ≈ | 约等于 |
| {1, …, N} | 有限集{1, 2, …, N} |
| 1 : N | 有限集{1, 2, …, N} |
| [ℓ, u] | 连续区间{ℓ ≤ x ≤ u} |
2.2 函数相关符号
-
一元函数
| 符号 | 含义 |
| ---- | ---- |
| ⌊x⌋ | x的向下取整,即向下舍入到最接近的整数 |
| ⌈x⌉ | x的向上取整,即向上舍入到最接近的整数 |
| ¬a | 逻辑非 |
| I (x) | 指示函数,若x为真则I (x) = 1,否则I (x) = 0 |
| δ(x) | 狄拉克δ函数,若x = 0则δ(x) = ∞,否则δ(x) = 0 |
| |x| | 绝对值 |
| |S| | 集合S的大小(基数) |
| n! | 阶乘函数 |
| log(x) | x的自然对数 |
| exp(x) | 指数函数eˣ |
| Γ(x) | 伽马函数,Γ(x) = ∫₀^∞ uˣ⁻¹e⁻ᵘdu |
| Ψ(x) | 双伽马函数,Ψ(x) = d/dx log Γ(x) |
| σ(x) | sigmoid(逻辑)函数,1 / (1 + e⁻ˣ) | -
二元函数
| 符号 | 含义 |
| ---- | ---- |
| a ∧ b | 逻辑与 |
| a ∨ b | 逻辑或 |
| B(a, b) | 贝塔函数,B(a, b) = Γ(a)Γ(b) / Γ(a + b) |
| (ⁿₖ) | n选k,等于n! / (k!(n - k)!) |
| δᵢⱼ | 克罗内克δ函数,等于I (i = j) |
| u ⊙ v | 两个向量的逐元素乘积 |
| u ⊛ v | 两个向量的卷积 | -
多元函数
| 符号 | 含义 |
| ---- | ---- |
| B(x) | 多元贝塔函数,∏ₖ Γ(xₖ) / Γ(∑ₖ xₖ) |
| Γ(x) | 多元伽马函数,πᴰ(ᴰ⁻¹) / 4 ∏ᴰ₁ Γ (x + (1 - d) / 2) |
| S(x) | softmax函数,[eᵃᶜ / ∑ᶜ′₁ eᵃᶜ′]ᶜ₁ |
2.3 线性代数符号
-
通用符号
- 向量用小写粗体字母表示,如x, w;矩阵用大写粗体字母表示,如X, W;标量用非粗体小写字母表示。当从N个标量列表创建向量时,写成x = [x₁, …, xₙ],根据上下文可能是列向量或行向量(除非另有说明,向量通常假定为列向量)。当从向量列表创建M × N矩阵时,如果按列堆叠则写成X = [x₁, …, xₙ],如果按行堆叠则写成X = [x₁; …; xₘ]。
-
向量符号
| 符号 | 含义 |
| ---- | ---- |
| uᵀv | 内积(标量积),∑ⁿ₁ uᵢvᵢ |
| uvᵀ | 外积(N × N矩阵) |
| u ⊙ v | 逐元素乘积,[u₁v₁, …, uₙvₙ] |
| vᵀ | v的转置 |
| dim(v) | v的维数(即N) |
| diag(v) | 由向量v构成的对角N × N矩阵 |
| 1或1ₙ | 全1向量(长度为N) |
| 0或0ₙ | 全0向量(长度为N) |
| |v| = |v|₂ | 欧几里得或ℓ₂范数,√∑ⁿ₁ v²ᵢ |
| |v|₁ | ℓ₁范数,∑ⁿ₁ |vᵢ| | -
矩阵符号
| 符号 | 含义 |
| ---- | ---- |
| X:,j | 矩阵的第j列 |
| Xᵢ,: | 矩阵的第i行(视为列向量) |
| Xᵢⱼ | 矩阵的(i, j)元素 |
| S ≻ 0 | 当且仅当S是正定矩阵时为真 |
| tr(S) | 方阵的迹 |
| det(S) | 方阵的行列式 |
| |S| | 方阵的行列式 |
| S⁻¹ | 方阵的逆 |
| X† | 矩阵的伪逆 |
| Xᵀ | 矩阵的转置 |
| diag(S) | 从方阵中提取的对角向量 |
| I或Iₙ | N × N单位矩阵 |
| X ⊙ Y | 逐元素乘积 |
| X ⊗ Z | 克罗内克积 | -
矩阵微积分符号
设θ ∈Rⁿ是向量,f : Rⁿ → R是标量值函数。f关于其参数的导数表示为:
∇₀f(θ) ≜ ∇f(θ) ≜ ∇f ≜ (∂f / ∂θ₁ … ∂f / ∂θₙ)
梯度是一个必须在空间中的某一点进行评估的向量,有时会写成:
gₜ ≜ g(θₜ) ≜ ∇f(θ) |θₜ
还可以计算二阶偏导数的对称N × N矩阵,即Hessian矩阵:
∇²f ≜
∂²f / ∂θ²₁ … ∂²f / ∂θ₁∂θₙ
…
∂²f / ∂θₙθ₁ … ∂²f / ∂θ²ₙ
Hessian矩阵也是一个必须在空间中的某一点进行评估的矩阵,有时会写成:
Hₜ ≜ H(θₜ) ≜ ∇²f(θ) |θₜ
3. 优化与概率统计相关符号
3.1 优化符号
通常将希望最小化的目标或成本函数写成L(θ),其中θ是要优化的变量(通常被视为统计模型的参数)。达到最小值的参数值表示为θ = argmin₀∈Θ L(θ),其中Θ是优化的集合(注意可能有多个最优值,所以实际上应写成θ ∈ argmin₀∈Θ L(θ))。在进行迭代优化时,用t表示迭代次数,用η表示步长(学习率)参数。梯度下降算法可以写成:θₜ₊₁ = θₜ - ηₜgₜ。经常用帽子符号表示估计或预测(如ˆθ, ˆy),用星号下标或上标表示真实(但通常未知)的值(如θ 或θ ),用上划线表示均值(如θ)。
3.2 概率符号
用p表示概率密度函数(pdf)或概率质量函数(pmf),用P表示累积分布函数(cdf),用Pr表示二元事件的概率。p(X)表示随机变量X的分布,p(Y)表示随机变量Y的分布,即使使用相同的p符号,它们指的是不同的分布(在可能引起混淆的情况下,写成pₓ(·)和pᵧ(·))。对分布p的近似通常用q表示,有时也用ˆp表示。在某些情况下,会区分随机变量(rv)和它可能取的值,用大写字母表示随机变量(如X),用小写字母表示其值(如x),但通常会忽略变量和值之间的区别。X ∼ p表示X服从分布p;X ⊥ Y | Z表示在给定Z的条件下,X与Y条件独立。如果X ∼ p,f(X)的期望值表示为:
E [f(X)] = Eₚₓₓ [f(X)] = Eₓ [f(X)] = ∫ₓ f(x)p(x)dx
如果f是恒等函数,则写成X ≜ E [X]。方差表示为:
V [f(X)] = Vₚₓₓ [f(X)] = Vₓ [f(X)] = ∫ₓ (f(x) - E [f(X)])²p(x)dx
如果x是随机向量,协方差矩阵表示为:
Cov [x] = E [(x - x)(x - x)ᵀ]
分布的众数表示为:
ˆx = mode [p] = argmaxₓ p(x)
参数化分布用p(x|θ)表示,其中x是随机变量,θ是参数,p是pdf或pmf。例如,N(x|µ, σ²)是均值为µ、标准差为σ的高斯(正态)分布。
3.3 信息论符号
如果X ∼ p,分布的(微分)熵表示为H (X)或H (p);如果Y ∼ q,从分布p到q的KL散度表示为KL (p∥q);如果(X, Y) ∼ p,X和Y之间的互信息表示为I (X; Y)。
3.4 统计与机器学习符号
- 有监督学习 :有监督学习中,观察到的特征(也称为输入或协变量)用x ∈ X表示,通常X = Rᴰ,意味着特征是实值的(包括离散值输入,可表示为one - hot向量)。有时会计算输入的手动指定特征,用φ(x)表示。要预测的输出(也称为目标或响应变量)用y ∈ Y表示。任务是学习条件概率分布p(y|x, θ),其中θ是模型的参数。如果Y = {1, …, C},则称为分类;如果Y = Rᴄ,则称为回归(通常C = 1,即只预测一个标量响应)。参数θ从训练数据D = {(xₙ, yₙ) : n ∈ {1, …, N}}中估计(N是训练案例的数量)。如果X = Rᴰ,可以将训练输入存储在N × D的设计矩阵X中;如果Y = Rᴄ,可以将训练输出存储在N × C的矩阵Y中;如果Y = {1, …, C},可以将每个类标签表示为C维位向量(one - hot编码),将训练输出存储在N × C的二进制矩阵Y中。
- 无监督学习和生成模型 :无监督学习通常形式化为无条件密度估计任务,即建模p(x|θ)。在某些情况下,希望进行条件密度估计,将条件值用c表示,模型变为p(x|c, θ)。这与有监督学习类似,只是x通常是高维的(如图像),c通常是低维的(如类标签或文本描述)。在一些模型中,有潜在变量(也称为隐藏变量),在训练数据中从未被观察到,这类模型称为潜在变量模型(LVM)。数据案例n的潜在变量用zₙ ∈ Z表示,有时潜在变量也称为隐藏变量,用hₙ表示,而可见变量用vₙ表示。通常潜在变量是连续或离散的,即Z = Rᴸ或Z = {1, …, K}。大多数LVM具有p(xₙ, zₙ|θ)的形式,可用于无监督学习,也可用于有监督学习,例如创建生成(无条件)模型p(xₙ, yₙ, zₙ|θ)或判别(条件)模型p(yₙ, zₙ|xₙ, θ)。
- 贝叶斯推断 :在贝叶斯推断中,参数的先验分布写成p(θ|φ),其中φ是超参数。对于共轭模型,后验分布与先验分布具有相同的形式,因此只需将超参数从先验值⌣φ更新到后验值⌢φ。在变分推断中,用ξ表示变分后验的参数,即p(θ|D) ≈ q(θ|ξ),通过优化ELBO来使这种近似更好。在蒙特卡罗采样中,用s下标或上标表示样本(如θˢ或θˢ)。
通过以上对图嵌入应用和常用符号体系的介绍,我们可以更深入地理解和应用相关的机器学习概念和方法。在实际操作中,准确使用这些符号和方法对于解决具体问题至关重要。例如,在进行图嵌入的相关任务时,根据不同的应用场景选择合适的方法,并结合正确的符号体系进行数学表达和算法实现。
图嵌入应用与常用符号体系解析
4. 操作步骤与流程示例
4.1 图嵌入应用操作步骤
-
图重建
- 数据准备:获取图数据,包括节点信息和边信息。
- 选择映射函数:可以选择参数化或非参数化的映射函数,将节点映射到流形上。
- 模型训练:通过最小化重建误差来训练模型,重建误差是从学习到的嵌入中恢复原始图的误差。
- 评估模型:使用合适的评估指标来评估模型的性能,如重建准确率等。
-
链接预测
- 数据准备:获取图数据,并对边进行标记(正、负、未观察到)。
- 数据处理:随机屏蔽一些边(正边和负边),将其作为测试集。
- 模型训练:使用剩余的边训练链接预测模型。
- 模型测试:在屏蔽的边集上测试模型的性能,评估预测的准确性。
-
聚类
- 数据准备:获取图数据,并使用编码器生成节点的嵌入。
- 选择聚类算法:如k - 均值算法。
- 进行聚类:将聚类算法应用于编码器输出的嵌入,得到节点的聚类结果。
- 评估聚类结果:使用合适的评估指标来评估聚类的质量,如轮廓系数等。
-
可视化
- 数据准备:获取图数据,并训练编码器 - 解码器模型。
- 降维处理:使用t - SNE或PCA将每个节点表示映射到二维空间。
- 可视化展示:使用可视化工具将节点在二维空间中进行展示,如果节点有属性,可以使用属性为节点着色。
-
节点分类
- 数据准备:获取图数据,并对部分节点进行标记。
- 特征提取:提取节点的特征,如果有可用的特征可以显著提高分类性能。
- 模型选择:选择合适的模型,如GCN、GraphSAGE等。
- 模型训练:使用标记的节点数据训练模型。
- 预测未标记节点:使用训练好的模型预测未标记节点的标签。
-
图分类
- 数据准备:获取图数据,并对图进行标记。
- 池化操作:选择合适的池化方法,将节点级信息聚合为图级信息。
- 模型选择:选择合适的模型,如监督学习模型或无监督学习模型。
- 模型训练:使用标记的图数据训练模型。
- 预测图标签:使用训练好的模型预测未标记图的标签。
4.2 优化算法操作步骤(以梯度下降为例)
- 定义目标函数:将希望最小化的目标或成本函数写成L(θ),其中θ是要优化的变量。
- 初始化参数:随机初始化参数θ₀。
- 计算梯度:在每次迭代t中,计算目标函数关于参数的梯度gt = ∇L(θt)。
- 更新参数:根据梯度和步长ηt更新参数,θt + 1 = θt - ηtgt。
- 终止条件判断:判断是否满足终止条件,如达到最大迭代次数或目标函数的变化小于某个阈值。如果满足终止条件,则停止迭代;否则,返回步骤3继续迭代。
5. 总结与展望
图嵌入在机器学习领域有着广泛的应用,包括无监督应用和有监督应用。无监督应用如图重建、链接预测、聚类和可视化等,能够帮助我们发现图的结构和模式;有监督应用如节点分类和图分类等,能够实现对图中节点和图本身的分类任务。同时,在机器学习中使用一致的符号体系对于准确表达和理解概念非常重要,本文介绍了常见的数学符号、函数符号、线性代数符号、优化符号、概率符号、信息论符号以及统计与机器学习符号等。
在未来,随着图数据的不断增长和应用场景的不断拓展,图嵌入技术有望在更多领域发挥重要作用。例如,在生物信息学中用于蛋白质相互作用网络的分析,在社交网络中用于用户行为预测等。同时,符号体系的统一和规范也将有助于研究人员之间的交流和合作,推动机器学习领域的进一步发展。
以下是一个简单的mermaid格式流程图,展示了链接预测的基本流程:
graph LR
A[数据准备] --> B[数据处理(屏蔽边)]
B --> C[模型训练]
C --> D[模型测试]
D --> E[评估性能]
通过对图嵌入应用和常用符号体系的深入理解和掌握,我们可以更好地应用这些技术和方法来解决实际问题,推动机器学习领域的发展。
超级会员免费看
2331

被折叠的 条评论
为什么被折叠?



