数据降维中的维度估计与映射评估
1. 内在维度估计方法
在数据处理中,准确估计数据的内在维度是一项关键任务,它有助于我们理解数据的结构和特征。以下介绍几种常见的内在维度估计方法。
1.1 Hidalgo 算法
Hidalgo 算法基于两近邻(two - NN)方法,对数据集的内在维度进行局部估计。它假设数据集由 $K$ 个具有特定维度 $\partial_k$ 的流形组成。在此假设基础上,该算法将比率 $\eta_i$ 的分布建模为帕累托分布的混合,其概率密度函数形式为:
[p(\eta_i) = \sum_{k = 1}^{K} w_k\partial_k\eta_i^{-\partial_k + 1}]
其中,(\sum_{k = 1}^{K} w_k = 1),每个分量 $k$ 都有一个权重 $w_k$。接着,采用贝叶斯建模方法来确定各分量的维度和权重,以及每个数据点所属的分量。由于这些帕累托分量存在大量重叠,因此引入了空间依赖性,以考虑相邻数据点更可能属于同一分量这一事实。最后,通过吉布斯采样得到贝叶斯模型的参数。
1.2 Hill 估计器
Hill 估计器基于极值理论,对连续变化的内在维度进行局部估计。对于点 $i$,考虑其半径为 $\omega$ 且基数为 $\kappa$ 的邻域,它对 $i$ 点的内在维度估计公式为:
[\hat{\partial} {Hill}^i = \left(\frac{1}{\kappa} \sum {j \in \nu_i(\kappa)} \log \left(\frac{\omega}{r_{ij}}\right)\right)^{-