自然语言处理系列五十四》文本聚类算法》K-means文本聚类算法原理

陈敬雷-充电了么-CEO兼CTO

已于 2024-09-04 20:55:41 修改

阅读量1.4k

点赞数 17

分类专栏：算法大数据人工智能文章标签：自然语言处理 nlp ai 人工智能 kmeans AIGC 聚类

于 2024-09-03 20:39:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_52610848/article/details/141871200

版权

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列五十四
- 文本聚类算法》K-means文本聚类算法原理
- - K-means文本聚类算法代码实战
总结

自然语言处理系列五十四

文本聚类算法》K-means文本聚类算法原理

K-means文本聚类是K-means算法的一个常用应用场景，下面介绍K-means的算法原理以及使用Python实现单机版文本聚类和使用Mahout实现分布式文本聚类。
15.2.1 算法原理
K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。
假设要把样本集分为c个类别，算法描述如下：
（1）适当选择c个类的初始中心；
（2）在第k次迭代中，对任意一个样本，求其到c各中心的距离，将该样本归到距离最短的中心所在的类；
（3）利用均值等方法更新该类的中心值；
（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。
该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。
流程

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

陈敬雷-充电了么-CEO兼CTO 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。