7、数据降维中的维度估计与映射评估

数据降维中的维度估计与映射评估

1. 内在维度估计方法

在数据处理中,准确估计数据的内在维度是一项关键任务,它有助于我们理解数据的结构和特征。以下介绍几种常见的内在维度估计方法。

1.1 Hidalgo 算法

Hidalgo 算法基于两近邻(two - NN)方法,对数据集的内在维度进行局部估计。它假设数据集由 $K$ 个具有特定维度 $\partial_k$ 的流形组成。在此假设基础上,该算法将比率 $\eta_i$ 的分布建模为帕累托分布的混合,其概率密度函数形式为:
[p(\eta_i) = \sum_{k = 1}^{K} w_k\partial_k\eta_i^{-\partial_k + 1}]
其中,(\sum_{k = 1}^{K} w_k = 1),每个分量 $k$ 都有一个权重 $w_k$。接着,采用贝叶斯建模方法来确定各分量的维度和权重,以及每个数据点所属的分量。由于这些帕累托分量存在大量重叠,因此引入了空间依赖性,以考虑相邻数据点更可能属于同一分量这一事实。最后,通过吉布斯采样得到贝叶斯模型的参数。

1.2 Hill 估计器

Hill 估计器基于极值理论,对连续变化的内在维度进行局部估计。对于点 $i$,考虑其半径为 $\omega$ 且基数为 $\kappa$ 的邻域,它对 $i$ 点的内在维度估计公式为:
[\hat{\partial} {Hill}^i = \left(\frac{1}{\kappa} \sum {j \in \nu_i(\kappa)} \log \left(\frac{\omega}{r_{ij}}\right)\right)^{-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值