无监督全局评估:高维数据映射的质量评测
在高维数据处理中,将高维数据映射到低维空间是常见的操作。然而,这个过程中往往会出现各种失真情况,因此对映射的质量进行评估至关重要。本文将深入探讨无监督全局评估的相关内容,包括连续性概念、失真原因、标量指标、聚合方法以及可视化图表等方面。
1. 连续性与映射失真
在实际应用中,大多数降维(DR)方法仅定义了离散映射。连续性的正式概念可应用于将离散映射扩展到整个数据流形的情况。
- 流形撕裂与邻域缺失 :当数据点 $\xi_0$ 的邻域点 $\xi$ (即在以 $\xi_0$ 为中心的“任意”球内的点)未被映射到 $\xi_0$ 的映射图像 $x_0$ 周围的球内时,就出现了流形撕裂或邻域缺失的情况,这表明映射的连续性被破坏。
- 流形粘合与虚假邻域 :若嵌入点 $x_0$ 的邻域点 $x$ 未被映射到 $x$ 的映射图像 $\xi$ 周围的球内,则意味着映射的逆的连续性被破坏,即出现了流形粘合或虚假邻域的问题。
理想的映射应是同胚映射,即连续且其逆也连续的可逆函数。失真指标基于离散映射的可用信息,评估理论映射(及其逆)的连续性破坏情况。对于基于排名的指标,通常通过考虑 $\kappa$ - 邻域的保留来实现。
2. 失真普遍存在的原因
在将高维数据映射到低维空间的过程中,失真几乎无处不在。主要原因如下:
- 优化算法的局限性 :大多数 DR 技术的应力函数是非凸的,优化算法可能陷入局部最优,无法收敛到全局最优。 <