大家好,今天我给大家介绍一下什么是相似性度量,其中会重点介绍对象之间的相似性度量,有兴趣的朋友可以好好看一看。相似性度量是衡量变量之间互相关系的强弱、联系紧密程度的重要手段,因此相似性度经常被许多数据挖掘技术使用。而现阶段只有两种度量:属性之间的度量与对象之间的度量。
属性之间的相似性度量
通常,具有若干属性的对象之间的相似性用单个属性的相似性组合来定义,因此我们首先讨论具有单个属性的对象之间的相似性。
1、标称和区间属性
对于由标称属性描述的两个对象来说,什么叫相似?由于标称属性携带了对量的相异性信息,因此我们只能说两个对象有相同的值,要么就没有,通俗地讲,就是“是否”之间的关系。因而在这种情况下,如果属性值相匹配,则相似度定义为1,否则为0;相异度则用相反的方法定义。
对于区间属性,两对象间的相异性的自然度量是它们的值之差的绝对值。在这里,相异度通常在0到之间。
下表则汇总了不同属性情况下的相似性度量方法。在该表中,和
是两个属性值,它们具有指定的类型,
和
分别是
和
之间的相异度和相似度(分别用
和
表示)。
属性类型 | 相异度 | 相似度 |
---|---|---|
标称型 | ||
区间或比率型 |
2、序数和比例数值属性
(1)序数属性
序数属性变量(Ordinal Variable)有分类的和连续的两种。分类序数属性与标称属性类似,但是其排序有一定意义,必须要按照一定次序排列,这有助于记录一些不便于客观度量的主管评价。例如书本上给的例子,职称就是一个分类的序数属性,是按照助教、讲师、副教授、教授的顺序排列的。一个连续的序数属性看上去就像一组未知范围的连续数据,但它的相对未知要比它的实际数值有意义得多。顺序是主要的,而实际的大小则是次要的。
一个序数属性的集合可以映射到一个等级(rank)集合上。例如,若序数属性有
个状态,那么这些有序的状态就可映射为1,2,...,
的等级,通过等级来描述差异。序数属性
的差异程度计算方法具体如下:
- 属性
有
个有序状态,将属性值
替换为相应的等级
。
- 将序数属性等级
做变换
,映射到区间[0,1]上。
- 利用有关间隔数值属性的任一种距离计算公式来计算差异程度。
(2)比例数值属性
比例数值变量(Ratio-scaled Variable)是在非线性尺