《百面机器学习》读书笔记
无监督包括两类学习方法:数据聚类 与 特征变量关联。聚类算法通过多次迭代寻找数据的最优分割,特征变量关联利用相关性分析方法得到变量间的关系。
Kmeans
Kmeans++
相对于Kmeans的改进:除了第一个初始聚类中心随机选取外,其他初始聚类中心的选择离现有聚类中心越远越好
ISODATA
相对于Kmeans而言,无需确定聚类中心个数,通过动态的拆分类别或聚合类别达到聚类的目的。因此ISODATA需要设定参数来指导类别的拆分和聚类,例如每个类要求的最少样本数、最大方差等。
高斯混合模型GMM