5 非监督学习

5 非监督学习

01 聚类

聚类是在事先并不知道任何样本类别标签的情况下, 通过数据之间的内在关系把样本划分为若干类别, 使得同类别样本之间的相似度高, 不同类别之间的样本相似度低。

02 K均值算法的优缺点

  • 缺点: 例如受初值和离群点的影响每次的结果不稳定、 结果通常不是全局最优而是局部最优解、 无法很好地解决数据簇分布差别比较大的情况(比如一类是另一类样本数量的100倍) 、 不太适用于离散分类等。
  • 优点: 对于大数据集, K均值聚类算法相对是可伸缩和高效的。

03 K均值算法的调优

  • 数据归一化和离群点处理。
  • 合理选择K值。手肘法、Gap Statistic方法。
  • 采用核函数。

04 K-means++算法

选取K个聚类中心的思想: 假设已经 选取了n个初始聚类中心(0<n<K) , 则在选取第n+1个聚类中心时, 距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。

05 ISODATA算法

  • 当属于某个类别的样本数过少时, 把该类别去除; 当属于某个类别的样本数过多、 分散程度较大时, 把该类别分为两个子类别。
  • ISODATA算法在K均值算法的基础之上增加了两个操作, 一是分裂操作, 对应着增加聚类中心数; 二是合并操作, 对应着减少聚类中心数。

06 高斯混合模型

  • 高斯混合模型假设每个簇的数据都是符合高斯分布的, 当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。
  • 高斯混合模型与K均值算法的相同点是, 它们都是可用于聚类的算法; 都需要指定K值; 都是使用EM算法来求解; 都往往只能收敛于局部最优。 而它相比于K均值算法的优点是, 可以给出一个样本属于某类的概率是多少; 不仅仅可以用于聚类, 还可以用于概率密度的估计; 并且可以用于生成新的样本点。

07 自组织映射神经网络

  • 可以用作聚类、 高维可视化、 数据压缩、 特征提取等多种用途。
  • 自组织映射神经网络与K均值算法的区别:
    • K均值算法需要事先定下类的个数, 也就是K的值。 而自组织映射神经网络则不用。
    • K均值算法为每个输入数据找到一个最相似的类后, 只更新这个类的参数; 自组织映射神经网络则会更新临近的节点。
    • 自组织映射神经网络的可视化比较好, 而且具有优雅的拓扑关系图。

08 聚类算法评估指标

  1. 估计聚类趋势
    1. 检测数据分布中是否存在非随机的簇结构,如果数据是基本随机的, 即不存在非随机簇结构, 那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著, 并且也找不到一个合适的K对应数据的真实簇数。
    2. 应用霍普金斯统计量(Hopkins Statistic) 来判断数据在空间上的随机性。
  2. 判定数据簇数
    1. 手肘法、Gap Statistic方法。
  3. 测定聚类质量
    1. 轮廓系数
    2. 均方根标准偏差
    3. R方
    4. 改进的HubertΓ统计
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值