基于共识聚类和监督分类的钓鱼邮件分析
1. 独立初始聚类算法
在对数据进行聚类分析时,我们采用了多种独立的初始聚类算法,以克服传统算法的一些局限性,具体如下:
- 标准 k - 均值聚类算法 :随机选择 k 条消息作为簇的质心,将其他消息分配到最近质心的簇中。每次迭代计算当前所有簇的新质心,重新分配点,直到质心稳定。但结果常依赖于初始质心的选择。
- 全局 k - 均值算法(GKM) :从一个质心开始,即数据集所有点的均值。假设已找到 i 个质心(i < k),依次选择数据集中的点作为第 (i + 1) 个初始质心,运行标准 k - 均值算法将数据集划分为 i + 1 个簇。通过公式 (GKM(C) = \sum_{j=1}^{i + 1} \sum_{x \in C_j} ||x - m_j||^2) 评估每个划分,选择使该公式值最小的划分作为最佳聚类,迭代直到找到 k 个簇的划分。对于大数据集,可使用改进的全局 k - 均值算法(MGKM)提高效率。
- 共识多起始 k - 均值算法(CMSKM) :对标准多起始 k - 均值算法(MSKM)进行改进。标准 MSKM 选择多个随机初始质心集,运行 k - 均值算法,选择使平方和目标函数最小的划分。而 CMSKM 进行 50 次随机初始质心选择,运行标准 k - 均值算法,使用基于簇的相似性划分算法(CSPA)找到 50 个 k - 均值聚类结果的聚合共识聚类。
- 最近邻聚类算法(NN) :每次只合并单个消息到其他簇,不合并大簇。给定要找到的簇数量 k,随机选择 k 条消
超级会员免费看
订阅专栏 解锁全文
2050

被折叠的 条评论
为什么被折叠?



