机器学习/数据挖掘面试问题——第9章 聚类

学习路线参考《机器学习》周志华

其他参考书:《机器学习实战》《数据挖掘》《百面机器学习》

还在更新ing...

1.聚类是什么?

将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(类)。

2.聚类有什么性能度量指标?

外部指标:将聚类结果和某个参考模型进行比较,例如JC系数、FM指数、Rand指数

内部指标:直接考察聚类结果而不利用任何参考模型,例如DBI指数、DI指数。

3.距离度量有哪几种?

欧氏距离、曼哈顿距离、闵可夫斯基距离。

无序属性可采用VDM。

4.有哪些聚类方法?

4.1 k均值聚类

4.1.1 k均值聚类的流程是什么?

从数据集中随机选择k个样本作为初始均值向量,计算其他所有样本与k个均值向量的距离,距离哪个最近就把该样本标记为相应的簇,然后更新均值向量,直到当前均值向量不再变化或者达到迭代步数。

4.1.2 k均值算法的优缺点是什么?

缺点:

  • 受初值和离群点的影响,每次的结果不稳定
  • 结果通常不是全局最优而是局部最优解
  • 样本只能被分到单一的类中
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值