监督学习 :分类、 回归、排序
非监督学习: 聚类、降维、概率密度估计
- why引入非监督学习?
原始数据易获得,但标注数据昂贵;高维降噪;预处理步骤;降低存储/计算
聚类
- 数据分组聚集:根据数据中样本之间的距离或相似度,将样本划分为若干组/类/簇
- 划分原则:类内样本距离小、类间样本距离大
- 聚类的类型:基于划分的聚类(每个样本只属于一类)
层次划分(树形聚类,不同层次间存在嵌套)
- 簇的类型:
明显分离的簇
( Well-separated clusters )
基于中心的簇
( Center-based clusters )
基于邻近的簇 ( Contiguous-based clusters )
基于密度的簇 ( Density-based clusters ) 簇是高密度区域
基于概念的簇 ( Property or Conceptual )
- 聚类分析三要素:
使用相似性/距离函数 -> 远近
利用评价函数 评估 聚类结果
如何表示簇,划分和优化算法,算法何时停止
- 经典算法 : K-means 、GMM、DBSCAN、层次划分
K均值聚类(K-means)
K越大,损失越小
- 预处理:标准化数据