机器学习(九)~聚类

1. 聚类

聚类既可用于发掘数据内在分布结构,又可作为其他学习任务的前驱过程(如提前探索有几种用户类型)

1.1 相似度度量

(1)闵可夫斯基距离
(2)马哈拉诺比斯距离
(3)相关系数
(4)夹角余弦

1.2 类特征

类均值、类的直径、类的样本散布矩阵与样本协方差矩阵

1.3 类间距

最短距离、最长距离、中心距离、平均距离

2. 原型聚类

代表算法:K-means、学习向量量化、高斯混合聚类

2.1 K-means

在这里插入图片描述
在这里插入图片描述
初始中心的选择,不同的初始中心会得到不同的聚类结果;比如可以用层次聚类对样本进行聚类,得到k个类时停止。然后从每个类中选取一个与中心距离最近的点
类别数k的选择,尝试用不同的k值聚类,类别数变多超过某个值后,平均直径会不变,从而找到最优k值

2.2 学习向量量化

算法过程:
1) 随机选取一组原型向量作为簇均值{P1,P2,…,Pq}
2) 计算各点到P的距离,求最小距离的那个P和点xi
3) 将P像xi靠拢
4) 迭代,寻找最优{P1,P2,…,Pq}

2.3 高斯混合聚类

高斯混合聚类采用概率模型来表达聚类原型,采用EM算法迭代优化求解

3. 密度聚类

【密度聚类算法】
输入: 样本集D={x1,x2,…,xm};邻域参数(ε,MinPts)
输出: 簇划分C={C1,C2,…,Ck}

(1) 初始化核心对象集合
(2) 确定每个样本的邻域,如果邻域内样本数多于ε,则加入核心对象集合
(3) 对每个核心对象找到密度可达的所有点形成簇

(4) 对未访问的核心对象继续步骤(3)

4. 层次聚类

4.1 三要素

(1) 距离或相似度
(2) 合并规则–类间距最小
(3) 停止条件–类的个数达到阈值、类的直径超过阈值

4.2 层次聚合聚类算法

【层次聚合聚类算法】
输入: n个样本组成的样本集合及样本之间的距离,类个数阈值δ
输出: 对样本集合的一个层次化聚类
(1) 计算n个样本两两之间的欧氏距离{dij},记作矩阵[dij]n×n
(2) 构造n个类,每个类只包含一个样本
(3) 合并类间距离最小的两个类,其中最短距离为类间距离,构建一个新类
(4) 计算新类与当前各类的距离。若类个数为δ终止,否则返回步骤(3)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值