数据挖掘原理与实践(4)——相似性度量

大家好,今天我给大家介绍一下什么是相似性度量,其中会重点介绍对象之间的相似性度量,有兴趣的朋友可以好好看一看。相似性度量是衡量变量之间互相关系的强弱、联系紧密程度的重要手段,因此相似性度经常被许多数据挖掘技术使用。而现阶段只有两种度量:属性之间的度量与对象之间的度量。


属性之间的相似性度量

通常,具有若干属性的对象之间的相似性用单个属性的相似性组合来定义,因此我们首先讨论具有单个属性的对象之间的相似性。

1、标称和区间属性

对于由标称属性描述的两个对象来说,什么叫相似?由于标称属性携带了对量的相异性信息,因此我们只能说两个对象有相同的值,要么就没有,通俗地讲,就是“是否”之间的关系。因而在这种情况下,如果属性值相匹配,则相似度定义为1,否则为0;相异度则用相反的方法定义。

对于区间属性,两对象间的相异性的自然度量是它们的值之差的绝对值。在这里,相异度通常在0到\infty之间。

下表则汇总了不同属性情况下的相似性度量方法。在该表中,xy是两个属性值,它们具有指定的类型,d(x,y)s(x,y)分别是xy之间的相异度和相似度(分别用ds表示)。

属性类型 相异度 相似度
标称型 d=0    如果x=yd=1   如果x\neq y s=1-d
区间或比率型 d=|x-y| s=\tfrac{1}{1+d},s=e^{-d},s=1-\tfrac{d-min_d}{max_d-min_d}

2、序数和比例数值属性

(1)序数属性

序数属性变量(Ordinal Variable)有分类的和连续的两种。分类序数属性与标称属性类似,但是其排序有一定意义,必须要按照一定次序排列,这有助于记录一些不便于客观度量的主管评价。例如书本上给的例子,职称就是一个分类的序数属性,是按照助教、讲师、副教授、教授的顺序排列的。一个连续的序数属性看上去就像一组未知范围的连续数据,但它的相对未知要比它的实际数值有意义得多。顺序是主要的,而实际的大小则是次要的

一个序数属性的集合可以映射到一个等级(rank)集合上。例如,若序数属性fM_f个状态,那么这些有序的状态就可映射为1,2,...,M_f的等级,通过等级来描述差异。序数属性f的差异程度计算方法具体如下:

  1. 属性fM_f个有序状态,将属性值x_f替换为相应的等级r_f,r_f\epsilon \left \{ 1,2,...,M_f \right \}
  2. 将序数属性等级r_f做变换z_f=\tfrac{r_f -1}{M_f -1},映射到区间[0,1]上。
  3. 利用有关间隔数值属性的任一种距离计算公式来计算差异程度。

(2)比例数值属性

比例数值变量(Ratio-scaled Variable)是在非线性尺

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值