降维技术:从无监督到有监督的全面解析
1. 图布局技术概述
图布局技术旨在通过将每个顶点映射到特征空间中的嵌入点,把网络数据嵌入到特征空间里。这种嵌入要让由边连接的点对彼此靠近,尤其是边的权重较高时;而没有边连接的点则要相互远离。图布局与降维密切相关,因为度量数据可以转换为网络数据,例如使用邻近图(如κ - 最近邻图)。所以,相似度和/或相异度矩阵可以被解释为加权完全图的邻接矩阵。
常见的图布局技术有弹性嵌入(Elastic Embedding,EE)、LargeVis和均匀流形近似与投影(Uniform Manifold Approximation and Projection,UMAP)等,它们与邻域嵌入有一定关联,因为都有保留邻域关系的共同目标。不过,从技术角度看,它们在散度度量的可分离性上有所不同。图布局方法独立关注每条边,能将应力ζ分离为成对子应力ζij的和,每个子应力仅取决于相关距离Dij;而邻域嵌入方法会对成员度进行归一化,考虑每个点周围邻域的分布,这导致所有成对关系之间存在相互依赖,一个邻域点的接近度增加会降低其他所有邻域点的成员度。因此,图布局技术的计算更简单。
1.1 力导向图布局:弹性嵌入(EE)
弹性嵌入(EE)采用力导向布局的优化方法。它将应力分解为两个部分,分别对成对的点之间的距离过远和过近进行惩罚。通过梯度下降最小化这些子应力,相当于在点之间施加吸引力或排斥力。这些力根据数据空间中各点的有效相似度或相异度进行加权,最终使系统达到平衡状态,此时点的位置反映了数据结构。应力表达式为:
[
\zeta_{EE}^i \triangleq \sum_{j\neq i} w_{ij}^+ D_{ij}^2 + s^2