文本与图像聚类算法:FKCM与Cov - HGMEM的深度解析
在数据处理和分析领域,聚类算法一直是重要的研究方向。本文将详细介绍两种聚类算法,即用于文档聚类的新型模糊核C均值算法(FKCM)和改进的层次聚类算法(Cov - HGMEM),并对它们的原理、操作步骤和实验结果进行深入分析。
FKCM算法:文档聚类的新途径
文本特征向量通常具有高维度和极度稀疏的特点,这会导致聚类性能受到很大影响。为了解决这些问题,FKCM算法引入了半监督学习和核化有效性指标。
半监督学习的引入
半监督聚类主要有基于约束和基于距离两种方法。在FKCM算法中,通过引入标记向量 $B=[b_j]$ 来辅助计算隶属度 $F=[f_{ij}]$。为了同时获得聚类数据到聚类中心的最小距离和先验隶属度,定义了目标函数:
[
J(U, V)=\sum_{i = 1}^{c}\sum_{j = 1}^{n}u_{ij}^{m}d_{ij}^{2}+\alpha\sum_{i = 1}^{c}\sum_{j = 1}^{n}u_{ij}^{m}(b_{j}f_{ij})
]
其中,$\alpha$ 是调整无监督聚类和半监督聚类比例的系数,通过公式 $\alpha=\frac{n}{M}$ 计算,$n$ 和 $M$ 分别表示对象总数和标记数据的数量。
为了最小化目标函数,引入拉格朗日乘数 $\lambda$:
[
L(U, V, \lambda)=\sum_{i = 1}^{c}\sum_{j = 1}^{n}u_{ij}^{m}d_{ij}^{2}+\alpha\sum_{i = 1}^{c}\sum_{j = 1}
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



