模式识别和机器学习 | 第八章 聚类

监督学习    :分类、 回归、排序

非监督学习: 聚类、降维、概率密度估计

  • why引入非监督学习?

         原始数据易获得,但标注数据昂贵;高维降噪;预处理步骤;降低存储/计算

聚类
  •   数据分组聚集:根据数据中样本之间的距离或相似度,将样本划分为若干组/类/簇
  •   划分原则:类内样本距离小、类间样本距离大
  •   聚类的类型:基于划分的聚类(每个样本只属于一类)

                            层次划分(树形聚类,不同层次间存在嵌套) 

  •  簇的类型:     
              明显分离的簇 ( Well-separated clusters )
               基于中心的簇 ( Center-based clusters )
              基于邻近的簇 ( Contiguous-based clusters )
              基于密度的簇 ( Density-based clusters )       簇是高密度区域
              基于概念的簇 ( Property or Conceptual )
 
  •   聚类分析三要素:

               使用相似性/距离函数  ->  远近

                利用评价函数  评估     聚类结果

                 如何表示簇,划分和优化算法,算法何时停止  

  • 经典算法 : K-means 、GMM、DBSCAN、层次划分

K均值聚类(K-means)

   

            K越大,损失越小

  • 预处理:标准化数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值