某空间下的距离测度是一个函数d(x,y),该函数满足下列准则:
- d(x,y)>=0 (距离非负)
- d(x,y)=0,当且仅当x=y
- d(x,y)=d(y,x)(对称性)
- d(x,y)<=d(x,z)+d(z,y)(三角不等式)
常见的有:
- 欧氏距离
- Jaccard距离
- 余弦距离
- 编辑距离:两个字符串x,y把x替换为y所需要的单支付插入及删除操作的最小数目,一种计算的方法是
距离测度在数据挖掘与机器学习中的应用
本文介绍了数据挖掘和机器学习中的距离测度概念,包括非负性、对称性和三角不等式等性质。讨论了欧氏距离、Jaccard距离、余弦距离和编辑距离的计算方法,如编辑距离通过最长公共子序列计算。还提到了海明距离以及在特定条件下的皮尔逊相关系数。此外,文章阐述了Jaccard相似度作为衡量集合相似性的指标。

被折叠的 条评论
为什么被折叠?