数据分析面试题（31~40）

最新推荐文章于 2024-12-11 14:57:25 发布

原创

最新推荐文章于 2024-12-11 14:57:25 发布 · 1.2k 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

31、K-means、 K-means 算法的优缺点。

①K-means是一种常用的聚类算法，适用于处理大规模数据集。其主要思想是将数据集中的样本划分为K个簇，使得同一簇内的样本相似度较高，不同簇之间的样本相似度较低。

②优点

1、简单而直观：K-means算法简单易懂，实现简单，计算速度快。

2、可解释性强：K-means算法生成的簇中心代表了聚类的中心，易于解释和理解。

3、可扩展性好：K-means算法适用于大规模数据集，并且在处理大型数据集时具有较高的效率。

③缺点

1、需要预先指定簇数K：K-means算法需要事先知道簇的数量，这在某些情况下可能是困难的。

2、对初始中心点敏感：K-means算法对初始中心点的选择敏感，不同的初始中心点可能会导致不同的聚类结果。

3、对异常值敏感：K-means算法对异常值敏感，异常值可能会影响聚类结果，导致簇的形状不均匀。

4、仅适用于凸形簇：K-means算法假设簇是凸形状的，对非凸形状的簇效果不佳。

32、辛普森悖论，以及如何避免这种现象？

①辛普森悖论是指在某种条件下观察到的现象与在相反的条件下观察到的现象相矛盾的情况。（举例：年轻患者组中，手术治疗的成功率可能会高于药物治疗，在老年患者组中，药物治疗的成功率可能会高于手术治疗。将所有年龄段的患者数据合并起来分析，可能会得出一个错误的结论，即手术治疗的成功率低于药物治疗）

②如何避免辛普森悖论？

1、分层分析：对数据进行分层分析，观察不同子群体之间的关系，而不仅仅是总体的关系。这样可以更好地理解不同子群体的特点和趋势。

2、控制变量：在进行实验或研究时，控制可能影响结果的其他变量，以确保

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。