学习路线参考《机器学习》周志华
其他参考书:《机器学习实战》《数据挖掘》《百面机器学习》
还在更新ing...
1.聚类是什么?
将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(类)。
2.聚类有什么性能度量指标?
外部指标:将聚类结果和某个参考模型进行比较,例如JC系数、FM指数、Rand指数
内部指标:直接考察聚类结果而不利用任何参考模型,例如DBI指数、DI指数。
3.距离度量有哪几种?
欧氏距离、曼哈顿距离、闵可夫斯基距离。
无序属性可采用VDM。
4.有哪些聚类方法?
4.1 k均值聚类
4.1.1 k均值聚类的流程是什么?
从数据集中随机选择k个样本作为初始均值向量,计算其他所有样本与k个均值向量的距离,距离哪个最近就把该样本标记为相应的簇,然后更新均值向量,直到当前均值向量不再变化或者达到迭代步数。
4.1.2 k均值算法的优缺点是什么?
缺点:
- 受初值和离群点的影响,每次的结果不稳定
- 结果通常不是全局最优而是局部最优解
- 样本只能被分到单一的类中