分类:有标签算法(监督学习)
聚类:无标签算法(无监督学习)
聚类主要思想:类内距离最小,类间距离最大。
K-means:将数据集算法将输入数据集D聚成K个簇,然后输出聚簇代表集合C(k个,即中心点),聚簇成员向量M。
步骤:确定k,选择k个聚类中心,将数据集的元素就近分配到k个簇中,更新k个簇的聚类中心,再重复分配元素,直聚类中心不再改变为止。
局限性:K-均值算法依赖于初始值的选取,仅能取得局部最优解,未必能得到全局最优解。
困难:参数k的取值困难,对于噪声点敏感。
空聚类解决办法:m从最大的聚簇中随机选取一个点作为新的簇的代表。
数据要求:数值型。
缺失值:替换。
效率低。