FVC:用于 XML 传播的基于特征向量的分类方法
1. XML 分类方法概述
在 XML 文档分类领域,有多种方法被提出。最初的 XRules 方法,规则形式为 (T →c, (π, δ)),其中 (T) 是树结构,(c) 是类标签,(π) 是规则的支持度,(δ) 是规则的强度。训练分类器时,XRules 会挖掘所有关于特定类 (c) 的频繁结构规则,这些规则的支持度和强度需大于预定义参数 (π_{min}^c) 和 (δ_{min}^c),然后根据优先关系对规则排序得到分类器。测试阶段则包括规则检索和类预测两个步骤。
不过,XRules 存在明显不足,它仅考虑 XML 文档的结构信息,不考虑内容,因此对于符合给定模式的 XML 文档分类效果不佳。为解决这一问题,后续提出了考虑结构和内容的方法。
2. XRules+ 方法
XRules+ 是对 XRules 的简单扩展,通过在不进行额外预处理的情况下,将内容叶节点添加到 XML 结构树中。其将 XML 文档转换为树的步骤如下:
1. 为每个元素创建一个顶点,标签为元素名称。
2. 为具有父子关系的元素 (v1) 和 (v2) 创建有向边 (e(v1, v1))。
3. 为每个属性创建一个顶点,标签为属性名称。
4. 为每个属性值创建一个顶点,标签为值。
5. 为每个属性 (a) 及其值 (av) 对创建有向边 (e(a, av))。
6. 为每个属性 (a) 和包含它的元素 (v) 创建有向边 (e(v, a))。
7. 为每个术语 (t) 创建一个顶点,标签为术语。
8. 为术语 (t) 和包含它的元素 (v) 创建有向边