数据维度估计与地图评估方法解析
1. 数据维度估计方法
1.1 现有维度估计算法
- Hidalgo 算法 :基于两近邻(two - NN)方法,该算法假设数据集由 K 个不同维度的流形组成,每个流形维度为 ∂k。它将比率 ηi 的分布建模为帕累托分布的混合,概率密度函数形式为:
[p(\eta_i) = \sum_{k = 1}^{K} w_k\partial_k\eta_i^{-\partial_k + 1}]
其中 (\sum_{k = 1}^{K} w_k = 1),每个分量 k 有一个权重 (w_k)。通过贝叶斯建模方法确定各分量的维度和权重,以及每个数据点所属的分量。由于帕累托分量大量重叠,引入了空间依赖性以考虑相邻数据点更可能属于同一分量,最后通过吉布斯采样获得贝叶斯模型的参数。 - Hill 估计器 :基于极值理论对连续变化的内在维度进行局部估计。对于点 i,考虑半径为 ω 且基数为 κ 的邻域,其内在维度估计为:
[\hat{\partial} {Hill}^i = \left(\frac{1}{\kappa} \sum {j \in \nu_i(\kappa)} \log \left(\frac{\omega}{\rho_{ij}}\right)\right)^{-1}]
当 κ 趋于无穷大时,根据中心极限定理(CLT),该估计器的分布收敛于正态分布 (N(\partial_i, \frac{\partial_i^2}{\kappa}))。
超级会员免费看
订阅专栏 解锁全文
706

被折叠的 条评论
为什么被折叠?



