相似性和相异性的度量

相似性和想异性是重要的概念,被许多数据挖掘技术所使用:聚类、最近邻分类、异常检测等

在许多情况下,一旦计算出相似性或相异性,就不再需要原始数据了

这种方法可以看做将数据变换到相似性(相异性)空间,然后进行分析


邻近度(proximity)----相关、欧几里得距离、Jaccard距离、余弦相似性

                                       (稠密数据、二维点)(文档  稀疏数据)

1、相似度【0,1】

1)简单属性

2)数据对象

距离:

闵可夫斯基距离:

r=1城市街区距离(L1范数)

r=2欧几里得距离(L2范数)

r=无穷 Lmax距离

特性:非负性、对称性、三角不等式()通常不成立



[1]二元数据的相似性度量    Jaccard相似性系数

                                              余弦相似度    文档用向量表示,向量的每个属性代表一个特定的词在文档中出现的频率

                                              广义Jaccard函数

相关性  corr(x,y)   对象属性之间线性联系的度量


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值