相似性和想异性是重要的概念,被许多数据挖掘技术所使用:聚类、最近邻分类、异常检测等
在许多情况下,一旦计算出相似性或相异性,就不再需要原始数据了
这种方法可以看做将数据变换到相似性(相异性)空间,然后进行分析
邻近度(proximity)----相关、欧几里得距离、Jaccard距离、余弦相似性
(稠密数据、二维点)(文档 稀疏数据)
1、相似度【0,1】
1)简单属性
2)数据对象
距离:
闵可夫斯基距离:
r=1城市街区距离(L1范数)
r=2欧几里得距离(L2范数)
r=无穷 Lmax距离
特性:非负性、对称性、三角不等式()通常不成立
[1]二元数据的相似性度量 Jaccard相似性系数
余弦相似度 文档用向量表示,向量的每个属性代表一个特定的词在文档中出现的频率
广义Jaccard函数
相关性 corr(x,y) 对象属性之间线性联系的度量