在机器学习和数据挖掘中,经常需要知道个体间的差异,进而评价个体的相似度和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数d(x,y)需要满足下面几个条件:
1)d(x,x)=0 //到自己的距离为0
2)d(x,y)≥0 //距离非负
3)d(x,y)=d(y,x) //对称性
4)d(x,k)+d(y,k)≥d(x,y) //三角形法则
在机器学习和数据挖掘中,经常需要知道个体间的差异,进而评价个体的相似度和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数d(x,y)需要满足下面几个条件:
1)d(x,x)=0 //到自己的距离为0
2)d(x,y)≥0 //距离非负
3)d(x,y)=d(y,x) //对称性
4)d(x,k)+d(y,k)≥d(x,y) //三角形法则