无监督降维:非度量多维缩放与邻域嵌入方法
1. 非度量多维缩放(Non-Metric MultiDimensional Scaling)
非度量多维缩放中,嵌入点之间的距离并非直接对应数据空间距离的值,而是反映其顺序。以Kruskal算法为例,通过最大化Shepard图(绘制嵌入空间距离与数据空间距离的关系图)的单调性来实现这一思想。
为评估算法某一步的单调性,会应用保序回归来拟合一个单调模型,该模型以数据空间距离 ${\delta_{ij}}$ 为自变量,嵌入空间距离 ${D_{ij}}$ 为因变量。此模型可估算出嵌入距离的理想值 ${\tilde{D} {ij}}$,其顺序与 ${\delta {ij}}$ 一致。
随后,算法会优化嵌入点的位置,以最小化误差:
$$
\zeta \triangleq \frac{\sum_{i}\sum_{j\neq i}(\tilde{D} {ij} - D {ij})^2}{\sum_{i}\sum_{j\neq i} D_{ij}^2}
$$
分母的归一化处理旨在使该应力函数在嵌入的均匀缩放下保持不变,因为在非度量方法中,整体尺度并不重要。与邻域排名不同,距离顺序是针对所有成对距离 ${D_{ij}}$ 计算的,而非针对每个点 $i$ 独立计算。
1.1 RankVisu
RankVisu直接确保邻域排名的保留,依赖于以下逐点应力:
$$
\zeta_i \triangleq \sum_{j\in\nu_i(\kappa)\cup n_i(\kappa)} \left[\kappa + 1
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



