数据映射评估与解释:方法、指标与工具
1. 无监督全局评估
1.1 Shepard图示例
Shepard图可以直观展示不同降维方法对数据集的处理效果。以PCA和tSNE处理鸢尾花(Iris)和数字(Digits)数据集为例:
- 鸢尾花数据集 - PCA :PCA映射能相对真实地表示距离。
- 鸢尾花数据集 - tSNE :tSNE对于小距离有较好的表示,但会拉伸大距离,在图中表现为两条有偏移的噪声线。
- 数字数据集 - PCA :PCA会压缩流形,这与其线性投影的性质相符。
- 数字数据集 - tSNE :tSNE对小距离表示良好,但会拉伸长距离。
1.2 共排序矩阵
共排序矩阵是一个 (N - 1 \times N - 1) 的矩阵,元素 ((\rho, r)) 表示在数据空间中邻域排名为 (\rho_{ij} = \rho),在嵌入空间中排名为 (r_{ij} = r) 的成对邻域关系的数量。给定邻域尺度 (\kappa),共排序矩阵可分为四个块:
| 矩阵块位置 | 含义 |
| ---- | ---- |
| 左上((i \leq \kappa) 且 (j \leq \kappa)) | 可靠的 (\kappa) 邻域 |
| 右下((i > \kappa) 且 (j > \kappa)) | 不存在的 (\kappa) 邻域 |
| 左下((i > \kappa) 且 (j \leq