目录
1. 距离测度
1.1 欧式距离
在数学中,欧氏距离或欧几里德度量是欧几里得空间中两点之间的“普通” 直线距离。通过这个距离,欧几里德空间成为度量空间。相关的规范称为欧几里得范数。较早的文献将度量指为毕达哥拉斯度量。广义的欧几里得范数项是L2范数或L2距离。
通常,对于n维空间来说,欧几里得距离可以表示为:
中的欧式距离如图1.1-1所示:
图1.1-1 中欧几里得距离的表达
标准的欧几里德距离可以是平方的,以便逐渐将更大的重量放置在更远的物体上。在这种情况下,等式变为:
平方欧几里德距离不是一个度量,因为它不满足三角不等式 ; 然而,它经常用于仅需要比较距离的优化问题。
它在理性三角学领域也被称为quadrance。
1.2 马氏距离
马氏距离是对点P和分布D的距离度量。马氏距离对多维数据进行了归一化,并测量了P点相对于D的平均值的标准差。如果P在D分布中心,那么马氏距离为0。如果对数据进行主成分分析,如图1.2-1所示,那么,当P相对于主轴越远,马氏距离的数值也就随之增长。当我们对主轴进行进行归一化后,马氏距离也就等同于在欧式空间的仿射变换。因此,马氏距离具有“无单位”和“尺度不变性”的特性,并且考虑了数据集的相关性。
图1.2-1 数据的主成分分析
马哈拉诺比斯观察距离 :
从一组带有均值的观察中得出:
那么,观察值与集合的距离使用协方差矩阵S表示为:
集合中两个随机变量的距离为:
如果协方差矩阵是单位矩阵,则马哈拉诺比斯距离减小到欧几里得距离。如果协方差矩阵是对角矩阵,那么得到的距离度量称为标准欧式距离:
其中,表示变量
的标准差。
1.2.1 利用马氏距离进行数据归一化
如图1.2.1-1所示,当数据在空间中以非常不对称的形式进行分布时,k-means算法总是试图挖掘出一些与聚类相关的信息,因为k-means聚类的核心观点在于数据是以不均匀的方式进行聚类的。然而,“不对称”和“不均匀”之间却有着重要的区别。例如,当数据在某个维度上分布很远,而在其他维度上距离相对较小时,k-means必然不会收敛到好的结果。
图1.2.1-1 (a)原始数据的垂直距离比水平距离小 (b)对空间进行方差归