数据挖掘学习笔记(六)

本文介绍了数据挖掘中对象相似性与相异性的概念,包括相异性矩阵、标称属性、二进制属性、数值属性、序数属性的邻近性度量方法,如欧几里得距离、曼哈顿距离、切比雪夫距离、闵科夫斯基距离和余弦相似性,并提供了计算示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据的相似性和相异性

  • 相似性(Similarity)
    • 两个对象相似程度的数量表示
    • 数值越高表明相似性越大
    • 通常取值范围为[0,1]
  • 相异性(Dissimilarity)(例如距离)
    • 两个对象不相似程度的数量表示
    • 数值越低表明相似性越大
    • 相异性的最小值通常为0
    • 相异性的最大值(上限)是不同的
  • 邻近性(Proximity):相似性和相异性都称为邻近性

1.数据矩阵与相异矩阵

  • 数据矩阵:对象-属性结构
    • 行-对象:n个对象
    • 列-属性:p个属性
    • 二模矩阵(Two modes)
    • \begin{bmatrix} x_{11} & ... & x_{1f} & ...& x_{1p}\\ ... & ... &... &... &... \\ x_{i1}&... &x _{if} & ... & x_{ip}\\ ... & ...& ... & ... & ...\\ x _{n1}&... &x _{nf} &... &x_{np} \end{bmatrix}
  • 相异性矩阵:对象-对象结构
    • n个对象两两之间的邻近度
    • 对称矩阵
    • 单模(Single mode)
    • \begin{bmatrix} 0 & & & & \\ d(2,1)& 0 & & & \\ d(3,1)&d(3,2) & 0& & \\ :& :& : & & \\ d(n,1)&d(n,2) &... &... &0 \end{bmatrix}

2.标称属性的邻近性度量

  • 相异性
  • d(i,j)=\frac{p-m}{p}=1-\frac{m}{p}
  • p是对象的属性总数,m是匹配的属性数目(即对象i和j状态相同的属性数)
  • 相似性
  • sim(i,j)=1-d(i,j)=\frac{m}{p}

例:计算标称属性的相异性矩阵

          对象标识符                Test
                  1                   A
                  2                   B
                  3                   C
                  4                   A

相异性计算:d(2,1)=1-0/1=1    d(3,1)=1-0/1=1    d(3,2)=1-0/1=1    d(4,1)=1-1/1=0    d(4,2)=1-0/1=1    d(4,3)=1-0/1=1

相异性矩阵:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值