距离度量方法
一.欧氏距离
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。
二维平面上两点a(x1,y1),b(x2,y2)之间的欧式距离公式:
二.曼哈顿距离
我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和
二维平面上两点a(x1,x2),b(y1,y2)之间的曼哈顿距离公式:
三.切比雪夫距离
各对应坐标数值差的最大值。若二个向量或二个点p 、q,其坐标分别为 及 ,则两者之间的切比雪夫距离定义如下:
or
四.闵可夫斯基距离
闵氏距离不是一种距离,而是一组距离的定义。
n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的闵可夫斯基距离定义为:
其中p是一个变参数。
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
根据变参数的不同,闵氏距离可以表示一类的距离。
五.标准化欧氏距离
标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。样本集的标准化过程(standardization)用公式描述就是:
经过简单的推导就可以得到两个n维向量a(x1,x2……..xn)与 b(y1,y2……..yn)间的标准化欧氏距离的公式:
六.马氏距离
有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到μ的马氏距离表示为:
而其中向量Xi与Xj之间的马氏距离定义为:
马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。
七.巴氏距离
在统计中,巴氏距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的巴氏系数密切相关。巴氏距离的定义:
在同一定义域 X中,对于离散概率分布 p和q,它被定义为:
其中BC是巴氏系数。
八.汉明距离
两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,即两个字符串对应位置的不同字符的个数。
如:
1011101与 1001001 之间的汉明距离是2
2143896与 2233796 之间的汉明距离是3
irie与 rise之间的汉明距离是 3
九.夹角余弦
几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异,可以把两点看成是空间中的两个向量,通过衡量两向量之间的相似性来衡量样本之间的相似性。
二维平面上两向量a(x1,y1),b(x2,y2)之间的夹角余弦公式:
夹角余弦取值范围为[-1,1]。