降维技术:从无监督到有监督的探索
1. 图布局技术
图布局技术旨在将网络数据嵌入到特征空间中,通过将每个顶点映射到一个嵌入点来实现。这种嵌入应使由边连接的点对彼此靠近,特别是当边的权重较高时;而未由边连接的点则应彼此远离。图布局与降维密切相关,因为度量数据可以转换为网络数据,例如使用邻近图(如κ - 最近邻图)。因此,相似度和/或相异度矩阵可以解释为加权完全图的邻接矩阵。
1.1 图布局技术与邻域嵌入的关系
图布局技术,如弹性嵌入(EE)、LargeVis和均匀流形近似与投影(UMAP),与邻域嵌入有一定关联,因为它们都有保留邻域关系的共同目标。从技术角度看,两者都基于散度度量来比较数据空间和嵌入空间中的成对相似度。然而,它们在散度度量的可分离性上有所不同。图布局方法独立关注每条边,允许将应力ζ分离为成对子应力ζij的总和,每个子应力仅取决于相关距离Dij。相反,邻域嵌入方法对成员度进行归一化,考虑每个点周围的邻域分布,这导致所有成对关系之间存在相互依赖,一个邻域点的接近度增加会降低其他所有邻域点的成员度。因此,图布局技术的计算更简单。
1.2 力导向图布局:弹性嵌入(EE)
弹性嵌入(EE)采用力导向布局优化方法。它将应力分解为两个部分,分别惩罚点对之间的远距和近距。通过梯度下降最小化这些子应力,相当于在点之间施加吸引力或排斥力。这些力根据数据空间中各点的有效相似度或相异度进行加权,最终使系统达到平衡状态,此时点的位置反映了数据结构。其应力表达式为:
[
\zeta_{i}^{EE} \triangleq \sum_{j \neq i} w_{ij}^{+} D_{ij}^{2} + s^{2} \sum_{j
超级会员免费看
订阅专栏 解锁全文
3721

被折叠的 条评论
为什么被折叠?



