葫芦书笔记----非监督学习

本文深入探讨了非监督学习中的K均值聚类算法,包括其基本步骤、优缺点及优化方法,并介绍了高斯混合模型和自组织映射神经网络的工作原理,最后讨论了聚类算法的评估方法。

非监督学习

K均值聚类

聚类是在事先并不知道任何样本类别标签的情况下,通过数据之间的内在 关系把样本划分为若干类别,使得同类别样本之间的相似度高,不同类别之间的样本相似度低。

简述K均值算法的具体步骤

速记:预处理. 1.随机选簇心 2.按照簇心聚类 3.重新计算簇心 4.重复2,3。

K均值算法的优缺点是什么?如何对其进行优化?

详细:缺点:受初值和离群点的影响,每次的结果不稳定、结果通常不是全局最优而是局部最优解、无法很好地解决数据簇分布差别比较大的情况(比如一类是另一类样本数的100倍)、不太适用于离散分类等。

优点:对于大数据集,K均值聚类算法相对是可伸缩和高效的,它的计算复杂度是O(NKt)O(NKt)O(NKt)接近于线性,其中N是数据对象的数目,K是聚类的簇数,t是迭代的轮数。

调优:

1.数据归一化和离群点处理 2.合理选择K值 3.采用核函数

针对K均值算法的缺点,有哪些改进的模型?

速记:缺点如下。K-means++(间隔最远选择初始点)、ISODATA(当属于某个类别的样本数过少时,去掉该类;过多则分成两个子类别)

详细:K均值的主要缺点如下:

(1)需要人工预先确定 K值,且该值和真实的数据分布未必吻合。

(2)K均值只能收敛到局部最优,效果受初始值影响很大。

(3)易受到噪点的影响。

(4)样本点只能被划分到单一的类中。

改进模型如速记。

证明K均值算法的收敛性

速记:用EM算法可证。E步等同于对于每一个点找最近的簇,M步等于找到最优的簇心。

详细:有空研究下再写。

高斯混合模型

高斯混合模型就是用多个高斯分布函数的线性组合来对数据分布进行拟合。理论上高斯混合模型可以拟合出任意类型的分布。

高斯混合模型的核心思想是什么?它是如何迭代计算的?

速记:假设数据可以看作从多个高斯分布中生成出来的。EM算法计算。

详细:假设数据可以看作从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值和方差∑i\sum_ii是待估计的参数。此外,每个分模型都还有一个参数πi\pi_iπi,可以理解为权重或生成数据的概率。高斯混合模型的公式为:
p(x)=∑i=1KπiN(x∣μi,∑i) p(x)=\sum_{i=1}^K\pi_iN(x|\mu_i, \sum _i) p(x)=i=1KπiN(xμi,i)
一个例子:

有两个一维标准高斯分布的分模型N(0,1),N(5,1),其权重分别为0.7和0.3 。那么,在生成第一个数据点时,先按照权重的比例,随机选择一个分布,比如选择第一个高斯分布,接着从N(0,1)中生成一个点,如-0.5,便是第一个数据点。如此循环执行,便成出了所有的数据点。

但是,通常都是不能直接得到高斯混合模型的参数的。其实,大多数情况下都是得不到参数的,拥有的只有有限的样本。给定一个K,用EM算法求参数。关于EM算法,可以参考我的另一篇博文。

具体到高斯模型的求解,EM算法的迭代过程如下:

首先,初始随机选择各参数的值。然后,重复下述两步,直到收敛。

  1. E步。根据当前的参数,计算每个点由某个分类模型生成的概率。
  2. M步。使用E步估计出来的概率,来改进每个分模型的均值,方差,和权重。

与K均值相同的是,它们都是可用于聚类的算法;都需要指定K值;都是使用EM算法来求解;都往往只能收敛于局部最优。

相比于K均值算法来说,高斯混合模型的优点是:可以给出一个样本属于某类的概率是多少;不仅仅可以用于聚类,还可以用于概率密度估计;并且可以用于生成新的样本点。

自组织映射神经网络

自组织神经网络是如何工作的?他与K均值算法有何区别?

速记:Kohonen网络本质上是一个两层的神经网络;与KMeans的区别:不需指定K值。受噪点影响较小,但准确性较低。相对而言,可视化比较好,而且具有优雅的拓扑关系图。

详细:看书。

聚类算法的评估

以聚类问题为例,假设没有外部标签数据,如何评估两个聚类算法的优劣?

速记:估计聚类趋势,判定数据簇数,测定聚类质量。

详细:聚类评估的任务是估计在数据集上进行聚类的可行性,以及聚类方法产生结果的质量。这一过程又分为三个子任务。

  1. 评估聚类趋势。

这一步骤是检验数据分布中是否存在非随机的簇结构。如果数据是随机的,那么聚类的结果也是毫无意义的。可以通过观测聚类误差是否随类别数的增加而单调变化,如果是随机的,那么变化应该不明显。

也可以应用霍普金斯统计量来判断数据在空间上的随机性。首先,从所有样本中随机找n个点,记为p1,p2,...,pnp_1,p_2,...,p_np1,p2,...,pn,对其中的每一个点pip_ipi,都在样本空间中找到一个离他最近的点并计算它们之间的距离xix_ixi,从而得到距离向量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn;然后,从样本的可能取值范围内随机生成n个点,记为q1,q2,...,qnq_1,q_2,...,q_nq1,q2,...,qn,对每个随机生成的点,找到一个离它最近的样本点并计算它们之间的距离,得到y1,y2,...,yny_1,y_2,...,y_ny1,y2,...,yn。霍普斯金统计量H可以表示为:
H=∑i=1nyi∑i=1nxi+∑i=1nyi H=\frac{\sum_{i=1}^ny_i}{\sum^n_{i=1}x_i+\sum_{i=1}^ny_i} H=i=1nxi+i=1nyii=1nyi
如果样本接近随机分布,那么∑i=1nxi\sum^n_{i=1}x_ii=1nxi∑i=1nyi\sum_{i=1}^ny_ii=1nyi的取值应该比较接近,即H的值接近于0.5;如果聚类趋势明显,则随机生成的样本点距离应该远大于实际样本点的距离,即∑i=1nxi≪∑i=1nyi\sum^n_{i=1}x_i\ll\sum_{i=1}^ny_ii=1nxii=1nyi,H的值接近于1.

  1. 判定数据的簇数

手肘法或Gap Statistic方法。

  1. 测定聚类质量

轮廓系数、均方根标准偏差、R方、改进的HubertΓ\GammaΓ统计。

关于 阿里云盘CLI。仿 Linux shell 文件处理命令的阿里云盘命令行客户端,支持JavaScript插件,支持同步备份功能,支持相册批量下载。 特色 多平台支持, 支持 Windows, macOS, linux(x86/x64/arm), android, iOS 等 阿里云盘多用户支持 支持备份盘,资源库无缝切换 下载网盘内文件, 支持多个文件或目录下载, 支持断点续传和单文件并行下载。支持软链接(符号链接)文件。 上传本地文件, 支持多个文件或目录上传,支持排除指定文件夹/文件(正则表达式)功能。支持软链接(符号链接)文件。 同步备份功能支持备份本地文件到云盘,备份云盘文件到本地,双向同步备份保持本地文件和网盘文件同步。常用于嵌入式或者NAS等设备,支持docker镜像部署。 命令和文件路径输入支持Tab键自动补全,路径支持通配符匹配模式 支持JavaScript插件,你可以按照自己的需要定制上传/下载中关键步骤的行为,最大程度满足自己的个性化需求 支持共享相册的相关操作,支持批量下载相册所有普通照片、实况照片文件到本地 支持多用户联合下载功能,对下载速度有极致追求的用户可以尝试使用该选项。详情请查看文档多用户联合下载 如果大家有打算开通阿里云盘VIP会员,可以使用阿里云盘APP扫描下面的优惠推荐码进行开通。 注意:您需要开通【三方应用权益包】,这样使用本程序下载才能加速,否则下载无法提速。 Windows不第二步打开aliyunpan命令行程序,任何云盘命令都有类似如下日志输出 如何登出和下线客户端 阿里云盘单账户最多只允许同时登录 10 台设备 当出现这个提示:你账号已超出最大登录设备数量,请先下线一台设备,然后重启本应用,才可以继续使用 说明你的账号登录客户端已经超过数量,你需要先登出其他客户端才能继续使用,如下所示
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值