21、稀疏数据上的Jensen - Shannon距离评估及向量空间的多路散度度量

稀疏数据上的Jensen - Shannon距离评估及向量空间的多路散度度量

在数据处理和分析领域,距离度量是一个关键概念,特别是在处理高维稀疏数据时,如何高效地计算距离成为了一个重要的研究方向。本文将介绍Jensen - Shannon距离在稀疏数据上的评估方法,以及一种用于向量空间的多路散度度量。

Jensen - Shannon距离在稀疏数据上的评估

Jensen - Shannon散度是Kullback - Leibler散度的对称、平滑版本,具有正性、对称性、有界性等良好性质,并且在存在零值时也有明确定义。它已被证明是一种合适的距离度量的平方,在统计学和信息论中受到了一定的关注。

然而,该度量的评估成本较高,尤其是在高维稀疏空间中,基于相似度的索引技术往往效果不佳,对大型数据集合进行穷举搜索可能不可行。为了解决这个问题,研究人员通过利用仅从两个参数中均非零的维度来评估距离的性质,并确定了一个阈值函数,显著降低了函数的评估成本。

定义和代数推导

Jensen - Shannon散度的定义基于Kullback - Leibler散度:
[JS(v, w) = \frac{1}{2}KL(v, m) + \frac{1}{2}KL(w, m)]
其中(m)是(v)和(w)的向量均值。如果以2为底取对数,结果将在([0, 1])范围内有界。

通过简单的代数运算,可以得到该函数的其他形式:
- (JS(v, w) = H(m) - \frac{1}{2}H(v) - \frac{1}{2}H(w)),其中(H)是Shannon熵函数。
- (JS(v, w) = 1 - \fr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值