7、数据维度估计与地图评估方法解析

数据维度估计与地图评估方法解析

1. 数据维度估计方法

1.1 现有维度估计算法

  • Hidalgo 算法 :基于两近邻(two - NN)方法,该算法假设数据集由 K 个不同维度的流形组成,每个流形维度为 ∂k。它将比率 ηi 的分布建模为帕累托分布的混合,概率密度函数形式为:
    [p(\eta_i) = \sum_{k = 1}^{K} w_k\partial_k\eta_i^{-\partial_k + 1}]
    其中 (\sum_{k = 1}^{K} w_k = 1),每个分量 k 有一个权重 (w_k)。通过贝叶斯建模方法确定各分量的维度和权重,以及每个数据点所属的分量。由于帕累托分量大量重叠,引入了空间依赖性以考虑相邻数据点更可能属于同一分量,最后通过吉布斯采样获得贝叶斯模型的参数。
  • Hill 估计器 :基于极值理论对连续变化的内在维度进行局部估计。对于点 i,考虑半径为 ω 且基数为 κ 的邻域,其内在维度估计为:
    [\hat{\partial} {Hill}^i = \left(\frac{1}{\kappa} \sum {j \in \nu_i(\kappa)} \log \left(\frac{\omega}{\rho_{ij}}\right)\right)^{-1}]
    当 κ 趋于无穷大时,根据中心极限定理(CLT),该估计器的分布收敛于正态分布 (N(\partial_i, \frac{\partial_i^2}{\kappa}))。

1.2 两近邻局部维度估计器(TI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值