无监督降维:非度量多维缩放与邻域嵌入方法解析
1. 非度量多维缩放(Non - Metric MultiDimensional Scaling)
在非度量多维缩放(Non - Metric MDS)中,嵌入点之间的距离并非直接对应数据空间距离的值,而是反映其顺序。以Kruskal算法为例,它通过最大化Shepard图的单调性来实现这一思想,该图绘制了嵌入空间距离与数据空间距离的关系。
1.1 Kruskal算法步骤
- 评估单调性 :在算法的给定步骤,应用保序回归(isotonic regression)为距离图 ${D_{ij}}$ 拟合一个单调模型,作为 ${\delta_{ij}}$ 的函数。
- 估计理想值 :此模型可估计嵌入距离的理想值 ${\tilde{D} {ij}}$,其顺序与 ${\delta {ij}}$ 一致。
- 优化嵌入点位置 :算法通过优化嵌入点的位置,以最小化误差:
$$\zeta \triangleq \frac{\sum_{i}\sum_{j\neq i}(\tilde{D} {ij} - D {ij})^2}{\sum_{i}\sum_{j\neq i}D_{ij}^2}$$
分母的归一化旨在使该应力函数对嵌入的均匀缩放保持不变,因为在这种非度量方法中,整体尺度并不相关。与邻域排名不同,距离顺序是针对所有成对距离 ${D_{ij}}$ 计算的,而非针对每个点 $i$ 独立计算。