向量空间中的多元发散度量与马氏距离优化
在数据分析和机器学习领域,距离度量是一个核心概念,它用于衡量对象之间的相似性或差异性。本文将探讨两种重要的距离度量方法:多向发散度量(MSED)和马氏距离(Mahalanobis distance),并介绍它们的评估、性能以及相关优化技术。
多向发散度量(MSED)评估
为了评估 MSED 的性能,研究人员将其与基于 SED 度量和欧几里得距离的其他三种多向发散度量进行了比较。实验选取了随机生成的 5 维和 15 维概率向量,以及 2、4、8、16 和 32 元组。
以下是不同维度和距离度量下,MSED 与其他距离指标的皮尔逊相关系数:
|维度|距离类型|2 - 元组|4 - 元组|8 - 元组|16 - 元组|32 - 元组|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|5 维 SED|簇内平均距离|1|0.9892284|0.9918476|0.9935051|0.9947683|
| |到质心的平均距离|0.9976659|0.9929966|0.9942112|0.9946998|0.9951615|
| |簇内最大距离|1|0.9015272|0.8148037|0.7273526|0.6234713|
|5 维欧几里得|簇内平均距离|0.9245572|0.9587758|0.966835|0.9741714|0.9770738|
| |到质心的平均距离|0.9245572|0.9558159|0.9616505|0.964643|0.9684536|
| |簇内最大距离|0.9245572