8、新闻组数据聚类与主题挖掘:k-means与NMF方法

新闻组数据聚类与主题挖掘:k-means与NMF方法

1. k-means聚类算法概述

在处理新闻组数据时,我们可能会遇到这样的问题:即使数据带有标签,但某些类别紧密相关甚至重叠。例如,有五个计算机相关的新闻组类别(comp.graphics、comp.os.ms - windows.misc等)以及两个宗教相关的类别(alt.atheism和talk.religion.misc)。假设这些标签不存在,相关主题的样本能否聚类在一起呢?这时,k - means聚类算法就派上用场了。

k - means算法的目标是基于特征相似度将数据划分为k个组。k是k - means聚类模型的一个预定义属性。每个聚类由一个质心(聚类的中心)指定,每个数据样本属于质心最近的聚类。训练过程中,算法会根据提供的数据迭代更新k个质心,具体步骤如下:
1. 指定k值 :算法需要知道最终要生成多少个聚类。
2. 初始化质心 :从数据集中随机选择k个样本作为质心。
3. 分配聚类 :有了k个质心后,与同一个最近质心距离最近的样本构成一个聚类,从而形成k个聚类。通常使用欧几里得距离来衡量样本与质心的接近程度,也可以使用其他距离度量,如曼哈顿距离和切比雪夫距离,如下表所示:
| 距离度量 | 说明 |
| ---- | ---- |
| 欧几里得距离 | 常用于衡量样本与质心的距离 |
| 曼哈顿距离 | 可作为替代的距离度量 |
| 切比雪夫距离 | 另一种可选的距离度量 |
4. 更新质心

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值