本体建模与语义Web知识发现 4 基于频繁模式挖掘的XML网页分类技术

最新推荐文章于 2025-12-26 02:30:57 发布

原创最新推荐文章于 2025-12-26 02:30:57 发布 · 586 阅读

1 ·

CC 4.0 BY-SA版权

知识图谱专栏收录该内容

41 篇文章

订阅专栏

提出一种新的XML文档分类方法，该方法结合XML结构相似度、频繁子树挖掘算法及粗糙集理论，实现高效的文档分析与分类。通过构造决策表并利用属性约简降低维度，提高了分类准确性和计算效率。

要实现Web的分类检索，首先解决网页分类问题。XML文档是文本内容信息与结构信息的综合体，区别于传统的文本分析的关键在于结构信息的获取与利用，针对一般文件的分类方法不但体现不出XML文件的优点，更可能使得分类效果相对于普通文本效果更差，因此有必要研究一种专门针对XML文档的分类方法。

本章在XML文档结构相似度量基础上，结合XRules规则、无序频繁子树挖掘算法和N层向量空间模型提出一种综合利用XML分层结构信息和关键词内容信息进行文档分析人数据模型---频繁结构层次向量模型，通过构造决策表，利用粗糙集理论的属性约简到特征值降维目的，实现了基于规则的分类方法。实验表明，此方法不仅具有更高的准确性，而且计算代价更小。

4.1 频繁模式挖掘算法TreeMiner

在频繁结构向量模型中，将数据库文档集合中所有频繁子树（模式）视为文档结构的特征空间，相当于传统的向量空间模型中的关键词特征。在传统的向量空间模型中，如何抽取特征关键策是一个关键的技术问题，而在频繁结构向量模型中，如何挖掘频繁模式也是一个同等重要的技术问题。

挖掘频繁子树的算法是基于最右扩展递增模式的，基本思路是：首先获得1-Subtrees，即含有一个结点的子树，通过计算每个标签的支持度，选出候选频繁结点。然后通过共享前缀的类结点右扩展生成2-Subtrees，通过类结点的范围列表连接计算子树支持度从而选择候选类，为下一层的类扩展做数据输入。依次递归由k-频繁子树生成（k+1）-频繁子树，直至产生所有频繁子树。