在机器学习和数据挖掘中,经常需要知道个体间差异的大小,进而评价个体的相似性和类别。
- 数据分析中的相关分析
- 数据挖掘中的分类和聚类算法,如 K 最近邻和 K 均值等等
根据数据特性的不同,可以采用不同的度量方法,定义一个距离函数 d(x,y), 需要满足下面几个准则:
d(x,x) = 0 // 到自己的距离为0
d(x,y) >= 0 // 距离非负
d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a
d(x,k)+ d(k,y) >= d(x,y) // 三角形法则: (两边之和大于第三边)
主要的距离公式包括如下:
1. 闵可夫斯基距离:是2,3,4距离的综合体
其中p是一个变参数。
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
根据变参数的不同,闵氏距离可以表示一类的距离。
2. 曼哈顿距离:
3. 欧几里得距离:
4. 切比雪夫距离: