28、基于共识聚类和监督分类的钓鱼邮件分析

最新推荐文章于 2025-12-22 17:00:00 发布

原创最新推荐文章于 2025-12-22 17:00:00 发布 · 102 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#钓鱼邮件分析 # 共识聚类 # 监督分类

智能系统知识管理与获取的新进展专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于共识聚类和监督分类的钓鱼邮件分析

1. 独立初始聚类算法

在对数据进行聚类分析时，我们采用了多种独立的初始聚类算法，以克服传统算法的一些局限性，具体如下：
- 标准 k - 均值聚类算法 ：随机选择 k 条消息作为簇的质心，将其他消息分配到最近质心的簇中。每次迭代计算当前所有簇的新质心，重新分配点，直到质心稳定。但结果常依赖于初始质心的选择。
- 全局 k - 均值算法（GKM） ：从一个质心开始，即数据集所有点的均值。假设已找到 i 个质心（i < k），依次选择数据集中的点作为第 (i + 1) 个初始质心，运行标准 k - 均值算法将数据集划分为 i + 1 个簇。通过公式 (GKM(C) = \sum_{j=1}^{i + 1} \sum_{x \in C_j} ||x - m_j||^2) 评估每个划分，选择使该公式值最小的划分作为最佳聚类，迭代直到找到 k 个簇的划分。对于大数据集，可使用改进的全局 k - 均值算法（MGKM）提高效率。
- 共识多起始 k - 均值算法（CMSKM） ：对标准多起始 k - 均值算法（MSKM）进行改进。标准 MSKM 选择多个随机初始质心集，运行 k - 均值算法，选择使平方和目标函数最小的划分。而 CMSKM 进行 50 次随机初始质心选择，运行标准 k - 均值算法，使用基于簇的相似性划分算法（CSPA）找到 50 个 k - 均值聚类结果的聚合共识聚类。
- 最近邻聚类算法（NN） ：每次只合并单个消息到其他簇，不合并大簇。给定要找到的簇数量 k，随机选择 k 条消

会员秒杀 ¥9.9 重磅福利

超级会员免费看