49、FVC:用于 XML 传播的基于特征向量的分类方法

FVC:用于 XML 传播的基于特征向量的分类方法

1. XML 分类方法概述

在 XML 文档分类领域,有多种方法被提出。最初的 XRules 方法,规则形式为 (T →c, (π, δ)),其中 (T) 是树结构,(c) 是类标签,(π) 是规则的支持度,(δ) 是规则的强度。训练分类器时,XRules 会挖掘所有关于特定类 (c) 的频繁结构规则,这些规则的支持度和强度需大于预定义参数 (π_{min}^c) 和 (δ_{min}^c),然后根据优先关系对规则排序得到分类器。测试阶段则包括规则检索和类预测两个步骤。

不过,XRules 存在明显不足,它仅考虑 XML 文档的结构信息,不考虑内容,因此对于符合给定模式的 XML 文档分类效果不佳。为解决这一问题,后续提出了考虑结构和内容的方法。

2. XRules+ 方法

XRules+ 是对 XRules 的简单扩展,通过在不进行额外预处理的情况下,将内容叶节点添加到 XML 结构树中。其将 XML 文档转换为树的步骤如下:
1. 为每个元素创建一个顶点,标签为元素名称。
2. 为具有父子关系的元素 (v1) 和 (v2) 创建有向边 (e(v1, v1))。
3. 为每个属性创建一个顶点,标签为属性名称。
4. 为每个属性值创建一个顶点,标签为值。
5. 为每个属性 (a) 及其值 (av) 对创建有向边 (e(a, av))。
6. 为每个属性 (a) 和包含它的元素 (v) 创建有向边 (e(v, a))。
7. 为每个术语 (t) 创建一个顶点,标签为术语。
8. 为术语 (t) 和包含它的元素 (v) 创建有向边

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值