层次聚类

一、层次聚类定义

每一种聚类方法都有其特定的数据结构,对于服从高斯分布的数据用K-Means来进行聚类效果会比较好。而对于类别之间存在层结构的数据,用层次聚类会比较好。例如,要把所有的大学专业进行分类,这很明显是一个带有层次结构的分类,计算机科学与技术,物联网工程,网络工程等等,可以看成计算机学科,而计算机学科,机械等又可以看成工科专业。最终所有的学科会划分成13个学科门类。

而实现层次聚类会有两种方法,一种是自下而上进行分类,开始将每一个样本分到一个类里面,然后将相同的类进行合并得到一个新的类,重复操作直到满足条件。一种是自上而下进行分类。首先将所有的样本分到一个类里面,然后将相距比较远的类分到两个类里面,重复操作直到满足条件,这种分类方法类似于决策树的过程,从上到下形成一个树,不同的是决策树使用熵来进行分裂,而这种层次聚类是用距离的度量来进行分类。

二、层次聚类算法流程

2.1 层次聚类的三个要素

 1>首先,需要距离这个指标来衡量两个样本之间的相似程度,而常见的衡量样本之间相似度的公式有,闵可夫斯基距离,马哈拉诺比斯距离,相关系数,夹角余弦,交叉熵等等。

闵可夫斯基距离公式如下,当p=2时就是常见的欧氏距离即两点之间的距离公式。在这个算法中我们用欧式距离作为度量

                                              L_{p}(xi,xj)=(\sum_{l=1}^{n}|x_{i}^{l}-x_{j}^{l}|^{p})^{\frac{1}{p}}

马哈拉诺比斯距离公式如下,也称马氏距离。这个距离在高维高斯分布的指数部分中用到。

                                              d_{ij}=[(x_{i}-x_{j})^{T}S^{-1}(x_{i}-x_{j})]^{\frac{1}{2}}

交叉熵公式如下,它在softmax函数中,最后衡量样本集的分布和样本集的估计分布的时候用到。

                                               \sum_{i=1}^{n}-p_{i}In(p_{i})

2>可以衡量两个样本之间的距离之后,我们需要衡量两个类之间的距离,常见的衡量标准为最短距离,最长距离,中心距离,平均距离等。

最短距离:A类中的样本与B类中的样本,之间最短的距离为两个类之间的距离

最长距离:A类中的样本与B类中的样本,之间最长的距离为两个类之间的距离

3>可以衡量类间距离之后,我们需要提出什么时候终止聚类,一般是希望聚成几个类。

2.2 自底向上算法流程

 

参考资料:1>周志华-机器学习

                    2>李航-统计机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值