邻近性度量
二元数据的相似性度量
两个仅包含二元属性的对象之间的相似性度量也成为相似系数(similarity coefficient),通常在0和1之间取值,值为1表明两个对象完全相似,而值为0表明对象一点也不相似。有许多理由表明在特定情形下,一种系数为何比另一种好。
设x和y是两个对象,都由n个二元属性组成。这样的两个对象(即两个二元向量)的比较可生成如下四个量(频率):
$$
f_{00}=x取0并且y取0的属性个数
f_{01}=x取0并且y取1的属性个数
f_{10}=x取1并且y取0的属性个数
f_{11}=x取1并且y取1的属性个数
$$
简单匹配系数(Simple Matching Coefficient,SMC)一种常用的相似性系数是简单匹配系数,定义如下:
Jaccard系数(Jaccard Coefficient)假定x 和y是两个数据对象,代表一个事物矩阵,如果每个非对称的二元属性对应于商品的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于违背顾客购买的商品数远大于其被购买的商品数,因而像SMC这样的相似性度量将会判定所有的事务都是类似的。这样,常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。Jaccard系数常用符号J表示
作业例题
假定全集A有n个元素,随机从中抽取出两个子集A1和A2,且每个子集都有m 个元素,求A1和A2两个集合的期望相似度。
还是没理解这个期望相似度和Jaccard相似度有什么关系。