聚类算法实例：k-means实现文档分类（用jieba分词）

最新推荐文章于 2025-07-06 15:29:28 发布

原创

最新推荐文章于 2025-07-06 15:29:28 发布 · 7.2k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文档分类

对文档进行分类即对文本信息进行聚类。文本聚类是聚类算法在文本上的应用。由于聚类算法针对的是数学数据，要计算出样本点之间的“距离”。所以首先，我们要将文本数据转化为数学信息。可以使用TF-IDF加权技术计算单个词的权值。

TF-IDF常用于咨询检索与文本挖掘，用于估计某一个词对于文件集中某一文件的重要程度。TF-IDF原理是词的重要性与它在该文件出现次数成正比，与它在文件集中出现的次数成反比。

对于英文文本，每一个英文单词可以当做一个词。而对于中文文本，则需要先用分词技术对文本分词。这时已经将文本中的字词转换为矩阵形式表示，可以用k-means算法求出距离了。

k-means文档分类步骤

用k-means进行文档分类可分为以下步骤：

分词。对于含有中文的文本，应首先用jieba等库进行分词处理。
权重计算。在计算前要进行词频统计，并过滤停用词。如“了”、“的“”等词出现次数多且对文本分类无帮助，应先过滤。再用TF-IDF选取特征项。
进行k-means聚类，显示结果。

简单实

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄7年

247
原创

271
点赞

1578
收藏

158
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 凝聚的层次聚类

下一篇：: javascript教程

最新评论

正负数在计算机中的表示（原码反码补码）及位运算
做而论道_CS: 所谓的补码，就是这么来的。补码，与符号位原码反码，都没有半点关系。进位，应该是小学的知识点。计算机专家，都是从小就迷上了计算机。该学的知识，都稀里糊涂的。正数，为什么能当负数呢？　弄不明白！没有办法，只好编造一套瞎话：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模符号位也参加运算 ... 老外的算术水平，由此可见一斑。计算机专家写的这些，明显就是【拿个鞋拔子当做玉如意】。假货，不仅仅在古董行业才有啊！我们的老师，数学水平，当然不会这么差。但是由于对老外盲目的崇拜迷信，也就只会跟风了。多年来，也不知道有多少学生因此挂科。这些没有任何理论依据的谎言，还列为考研的内容！真是毁人不倦坑人不浅！
正负数在计算机中的表示（原码反码补码）及位运算
做而论道_CS: 99、255，都能当－1，这是为什么呢？　绝对不是“符号位原码反码补码取反加一 ... ” 　而是你舍弃了进位。也就是说，在计算时【减去了进位】！那就把【减进位】算进去吧。两位十进制的进位，是：10^2 = 100。　加上 99，实际是加了：99－100 = －1。　加上 98，实际是加了：98－100 = －2。　。。。八位二进制的进位，是：2^8 = 256。　加上 255，实际就是加上：255－256 = －1。　加上 254，实际就是加上：254－256 = －2。　。。。这些正数，与其负数的关系式，你一定能看出来：　正数 = 256 ＋负数。这些正数，就被计算机专家，称为 “补码” 了。于是，一个简单的算术题，就成了它们的发明！
正负数在计算机中的表示（原码反码补码）及位运算
做而论道_CS: 计算机的字长，是固定的。八位机，只会做：　八位＋八位＝一个进位、八位的和。八位二进制的范围是：0000 0000 ~ 1111 1111。与其等效的十进制是：0 ~ 255。最大值 255，就可以当做“负一”来使用。如 27 － 1 = 26，八位机的计算如下：　　　0001 1011　　(这就是 27) 　　＋1111 1111　　(这就是－1) －－－－－－－－－－ (进 1 ) 0001 1010 舍弃进位，只取八位的和，就是 26。
正负数在计算机中的表示（原码反码补码）及位运算
做而论道_CS: 你看两位十进制数：0 ~ 99。　27 + 99 = (一百) 26 　27 － 1 = 26 如果你忽略进位，这两种算法，功能就是相同的。即，舍弃了进位：　正数就能当负数！　加法，也就可以当做减法！如果在计算机中舍弃进位：　就可以省掉减法器，简化硬件！　只用一个加法器，就可以走遍天下！【忽略进位】！　这就是 “补码” 的来源与意义。
正负数在计算机中的表示（原码反码补码）及位运算
做而论道_CS: 所谓的 “补码”，并非是二进制才有。而在任何进制，都是存在的。 “补码” 的来源，只是出自一个小学的算术题而已。也并非是计算机专家的发明。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。