28、基于共识聚类和监督分类的钓鱼邮件分析

基于共识聚类和监督分类的钓鱼邮件分析

1. 独立初始聚类算法

在对数据进行聚类分析时,我们采用了多种独立的初始聚类算法,以克服传统算法的一些局限性,具体如下:
- 标准 k - 均值聚类算法 :随机选择 k 条消息作为簇的质心,将其他消息分配到最近质心的簇中。每次迭代计算当前所有簇的新质心,重新分配点,直到质心稳定。但结果常依赖于初始质心的选择。
- 全局 k - 均值算法(GKM) :从一个质心开始,即数据集所有点的均值。假设已找到 i 个质心(i < k),依次选择数据集中的点作为第 (i + 1) 个初始质心,运行标准 k - 均值算法将数据集划分为 i + 1 个簇。通过公式 (GKM(C) = \sum_{j=1}^{i + 1} \sum_{x \in C_j} ||x - m_j||^2) 评估每个划分,选择使该公式值最小的划分作为最佳聚类,迭代直到找到 k 个簇的划分。对于大数据集,可使用改进的全局 k - 均值算法(MGKM)提高效率。
- 共识多起始 k - 均值算法(CMSKM) :对标准多起始 k - 均值算法(MSKM)进行改进。标准 MSKM 选择多个随机初始质心集,运行 k - 均值算法,选择使平方和目标函数最小的划分。而 CMSKM 进行 50 次随机初始质心选择,运行标准 k - 均值算法,使用基于簇的相似性划分算法(CSPA)找到 50 个 k - 均值聚类结果的聚合共识聚类。
- 最近邻聚类算法(NN) :每次只合并单个消息到其他簇,不合并大簇。给定要找到的簇数量 k,随机选择 k 条消

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值