文本聚类kmeans

最新推荐文章于 2024-11-02 20:48:12 发布

原创最新推荐文章于 2024-11-02 20:48:12 发布 · 797 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#聚类 #自然语言处理

AI 专栏收录该内容

6 篇文章

订阅专栏

最近做一些文本挖掘的项目,其中用到了文本聚类相关算法,比如kmeans.

就kmeans算法做一些简单记录.

Kmeans是一种非常常见的聚类算法,

算法的核心思想非常简单.

1.给定K个类别,选取K个中心点

2.对于任意其他数据,计算他与这K个中心点的距离,选取距离最近的那个中心点作为该点的类别.

3.重新计算中心点,用同一类别的所有点的均值作为新的中心点,

4.重复步骤2,直到新的中心点与旧的中心点的距离再某个设定阈值内即可.

kmeans的几个关键问题:

1.首先K值如何选取,我一般是画图,通过PCA或TSNE,umap等降维算法,将数据降维到2维平面,然后看数据分布,进行K值选取.

2,中心点怎么选,基本都是随机选取,但是要多随机几次,防止选取到某些异常的离群点.然后根据聚类出的结果,再降维数据看看聚类结果.

3.距离一般采用欧氏距离.也有一些其他距离.

4.新的中心点,一般采用算术平均值作为均值化的方法.

Kmeans实战代码

from sklearn.cluster import KMeans

#建模

kmeans_model = KMeans(n_clusters=5)
s = kmeans_model .fit(train_data)

#打印每个类的中心点

print(clf.cluster_centers_)

#打印每个样本所属的类别
print(clf.labels_)

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。