要实现Web的分类检索,首先解决网页分类问题。XML文档是文本内容信息与结构信息的综合体,区别于传统的文本分析的关键在于结构信息的获取与利用,针对一般文件的分类方法不但体现不出XML文件的优点,更可能使得分类效果相对于普通文本效果更差,因此有必要研究一种专门针对XML文档的分类方法。
本章在XML文档结构相似度量基础上,结合XRules规则、无序频繁子树挖掘算法和N层向量空间模型提出一种综合利用XML分层结构信息和关键词内容信息进行文档分析人数据模型---频繁结构层次向量模型,通过构造决策表,利用粗糙集理论的属性约简到特征值降维目的,实现了基于规则的分类方法。实验表明,此方法不仅具有更高的准确性,而且计算代价更小。
4.1 频繁模式挖掘算法TreeMiner
在频繁结构向量模型中,将数据库文档集合中所有频繁子树(模式)视为文档结构的特征空间,相当于传统的向量空间模型中的关键词特征。在传统的向量空间模型中,如何抽取特征关键策是一个关键的技术问题,而在频繁结构向量模型中,如何挖掘频繁模式也是一个同等重要的技术问题。
挖掘频繁子树的算法是基于最右扩展递增模式的,基本思路是:首先获得1-Subtrees,即含有一个结点的子树,通过计算每个标签的支持度,选出候选频繁结点。然后通过共享前缀的类结点右扩展生成2-Subtrees,通过类结点的范围列表连接计算子树支持度从而选择候选类,为下一层的类扩展做数据输入。依次递归由k-频繁子树生成(k+1)-频繁子树,直至产生所有频繁子树。
4.2 文档结构的相似度计算
已有的XML文档结构相似性度量主要包括距离编辑法、路径匹配法和时序分析法,基本上都是将XML文档视为一颗标记树。
本节在TreeMiner算法基础上结合文本分类的向量空间模型提出了XML文档频繁结构向量模型,通过频繁结构单元在文档中出现的频度和权重定义了文档结构相似度。
4.3 基于结构和内容联合提取的XML文档相似度量
XML文档富含结构信息,但同时也具有文本内容,所以除了考虑其结构信息外,还需分析其基于关键词特征提取的语义内容信息,特别是如何将二者有机联合进行特征提取和表示,是本节解决的根本问题。
4.4 基于粗糙集理论的网页分类技术
在进行特征权重计算和特征过滤后,从而得到训练集XML文档的结构和内容特征值矩阵表示。