《机器学习》周志华(西瓜书)学习笔记 第九章 聚类

机器学习笔记

总目录

第九章 聚类

聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。

9.1 距离度量

聚类性能度量亦称聚类"有效性指标" (validity index).

目标: 聚类结果的"簇内相似 度" (intra-cluster similarity)高且"簇间相似度" (inter-cluster similarity)低.

聚类性能度量大致有两类.

  1. 一类是将聚类结果与某个"参考模 型" (reference model)进行比较,称为"外部指标" (external i丑dex)。
  2. 另一 类是直接考察聚类结果而不利用任何参考模型,称为"内部指标" (internal index).

在这里插入图片描述
基于上图中得公式可以导出下面这些常用的聚类性能度量外部指标:
在这里插入图片描述
在这里插入图片描述
基于上图中的公式可以到处下面这些常用的聚类度量内部指标:

在这里插入图片描述

9.2 距离计算

在这里插入图片描述
最常用的距离度量方法是“闵可夫斯基距离”(Minkowski distance):
在这里插入图片描述
当p=1时,闵可夫斯基距离即曼哈顿距离(Manhattan distance):
在这里插入图片描述
当p=2时,闵可夫斯基距离即欧氏距离(Euclidean distance):
在这里插入图片描述
我们常将属性划分为"连续属性" (continuous attribute)和"离散属 性" (categorical attribute),前者在定义域上有无穷多个可能的取值,后者在定 义域上是有限个取值.

  • 若属性值之间存在序关系,则可以将其转化为连续值,例如:身高属性“高”“中等”“矮”,可转化为{1, 0.5, 0}。
  • 若属性值之间不存在序关系,则通常将其转化为向量的形式,例如:性别属性“男”“女”,可转化为{(1,0),(0,1)}。

对于无序属性,我们一般采用VDM进行距离的计算.

m u , a m_{u,a} mu,a表示在属性 u 上取值为 α 的样本数, m u , a , i m_{u,a,i} mu,a,i 表示在第 4 个样本簇 中在属性 u 上取值为 α 的样本数, k 为样本簇数,则属性 u 上两个离散值 α 与 b 之间的 VDM 距离为:

在这里插入图片描述
于是,将闵可夫斯基距离和 VDM 结合即可处理混合属性.假定有 n c n_{c} nc 个有 序属性、 n − n c n -n_c nnc 个无序属性,不失一般性,令有序属性排列在无序属性之前,则:
在这里插入图片描述
当样本空间中不 同属性的重要性不同时,可使用"加权距离" (weighted distance). 以加权闵可夫斯基距离为例:

出现这个错误的原因是在导入seaborn包时,无法从typing模块中导入名为'Protocol'的对象。 解决这个问题的方法有以下几种: 1. 检查你的Python版本是否符合seaborn包的要求,如果不符合,尝试更新Python版本。 2. 检查你的环境中是否安装了typing_extensions包,如果没有安装,可以使用以下命令安装:pip install typing_extensions。 3. 如果你使用的是Python 3.8版本以下的版本,你可以尝试使用typing_extensions包来代替typing模块来解决该问题。 4. 检查你的代码是否正确导入了seaborn包,并且没有其他导入错误。 5. 如果以上方法都无法解决问题,可以尝试在你的代码中使用其他的可替代包或者更新seaborn包的版本来解决该问题。 总结: 出现ImportError: cannot import name 'Protocol' from 'typing'错误的原因可能是由于Python版本不兼容、缺少typing_extensions包或者导入错误等原因造成的。可以根据具体情况尝试上述方法来解决该问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:\Anaconda\envs\tensorflow\lib\typing....](https://blog.youkuaiyun.com/yuhaix/article/details/124528628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值