期望相似度

本文介绍了用于衡量二元数据对象相似性的两种常见方法:简单匹配系数(SMC)和Jaccard系数。SMC基于共享相同属性的频率,而Jaccard系数更适用于非对称属性的情况。通过给出的例子,阐述了如何计算这两个系数,并讨论了它们在不同情境下的适用性。同时,提出了计算两个随机子集期望相似度的问题,探讨了它与Jaccard相似度的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

邻近性度量

二元数据的相似性度量

两个仅包含二元属性的对象之间的相似性度量也成为相似系数(similarity coefficient),通常在0和1之间取值,值为1表明两个对象完全相似,而值为0表明对象一点也不相似。有许多理由表明在特定情形下,一种系数为何比另一种好。
设x和y是两个对象,都由n个二元属性组成。这样的两个对象(即两个二元向量)的比较可生成如下四个量(频率):
$$
f_{00}=x取0并且y取0的属性个数

f_{01}=x取0并且y取1的属性个数
f_{10}=x取1并且y取0的属性个数
f_{11}=x取1并且y取1的属性个数
$$
简单匹配系数(Simple Matching Coefficient,SMC)一种常用的相似性系数是简单匹配系数,定义如下:
在这里插入图片描述
Jaccard系数(Jaccard Coefficient)假定x 和y是两个数据对象,代表一个事物矩阵,如果每个非对称的二元属性对应于商品的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于违背顾客购买的商品数远大于其被购买的商品数,因而像SMC这样的相似性度量将会判定所有的事务都是类似的。这样,常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。Jaccard系数常用符号J表示
在这里插入图片描述
作业例题
假定全集A有n个元素,随机从中抽取出两个子集A1和A2,且每个子集都有m 个元素,求A1和A2两个集合的期望相似度。

还是没理解这个期望相似度和Jaccard相似度有什么关系。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值