基于簇标签最大化的新型增量生长神经气体算法:异构文本数据聚类应用
1. 引言
在文本数据聚类领域,神经网络聚类方法展现出了独特的优势。这些方法的核心原则是考虑簇之间的邻域关系,可分为预设拓扑结构(如自组织映射SOM)和动态拓扑结构(如神经气体NG、生长神经气体GNG)两类。与传统聚类方法(如K - means)相比,它们对初始条件的敏感性较低,在处理高维稀疏数据(如文本数据)时具有重要优势。
- SOM算法 :其网络架构基于数据特征可形成自组织特征图的理念,将高维数据空间映射到二维神经元网格。该算法包含两个基本步骤:一是在网格上选择获胜神经元,二是更新获胜神经元及其相邻神经元的权重。SOM的优势在于将聚类过程与聚类结果投影过程相结合,但存在边界效应问题,且由于网格拓扑结构固定,神经元不一定能贴近数据结构。
- NG算法 :神经元权重的调整不依赖于固定拓扑结构,而是通过对给定输入数据的神经元权重进行邻域排序。与SOM相比,它摆脱了地形约束,能更好地表示数据结构,理论上可获得更好的分类结果。然而,其神经元数量(即最终簇的数量)是固定参数,这是一个主要缺点。
- GNG算法 :引入了进化网络的概念,解决了NG算法的静态特性问题。在学习阶段,神经元数量会根据数据分布特征进行调整,可删除和创建神经元及它们之间的连接。但该方法的停止准则在处理复杂或稀疏多维数据时可能无法满足,这是其主要劣势。
- IGNG算法 :是GNG算法的改进版本,放宽了网络周期性进化的约束。当当前输入数据到现有神经元的距
超级会员免费看
订阅专栏 解锁全文
134

被折叠的 条评论
为什么被折叠?



