SAGH系统的结论与未来工作
1. 引言
随着互联网上信息量的爆炸式增长,信息检索和索引面临着新的挑战。为了应对这些挑战,许多智能技术,如神经网络、符号学习和遗传算法,被应用于数据分组。SAGH(超文本分组遗传分析系统)是一个基于遗传算法的超文本文档群集分析系统。本文将对SAGH系统进行总结,并提出未来可能的研究方向和改进建议。
2. SAGH系统概述
SAGH系统由七个模块组成,每个模块负责不同的处理步骤。这些模块包括:术语向量的创建、向量的分类、生成的p维空间、聚类分析矩阵的生成、矩阵标准化、群集的遗传分析和结果可视化。通过这种模块化的划分,我们可以在改变参数的情况下灵活地执行分析,而无需重新进行所有步骤。
2.1 术语向量的创建
该模块首先检查构成每个文档文本的单词,丢弃定义格式、链接、表格、图像锚点等HTML代码。接下来,该模块根据波特算法消除词缀,以防止对根本键的低估。该模块还提供了丢弃停用词或根本空缺(无词缀的停用词)的选项,从而减少了显著单词的数量,提高了系统的性能。每个分析的文档生成一个包含非停用词的词根及其在文本中出现次数的术语向量(向量–文档)。
2.2 向量的分类
向量分类模块根据以下标准对上一模块生成的向量–文档进行排序:
- 词频(term frequency) :它是术语的重复次数。
- idf(逆文档频率) :由表达式 ( \text{idf}(术语) = \log(\frac{n}{df_{\text{term}}}) ) 定义,其中 ( n ) 是要分组的文档数
超级会员免费看
订阅专栏 解锁全文
66

被折叠的 条评论
为什么被折叠?



