2、利用存储层支持 XDBMS 中的 XML 相似性连接

利用存储层支持 XDBMS 中的 XML 相似性连接

1. 预备知识
1.1 相似性函数

我们聚焦于基于标记的相似性函数,这类函数通过衡量两个感兴趣实体的集合表示之间的重叠程度来确定它们的相似性。我们将这种集合表示称为实体的概要,概要中的元素称为标记,并且可以选择使用加权方案为标记赋予权重。

  • 概要生成 :实体的概要通过将其表示拆分为一组标记来生成,这个过程称为标记化。标记化的理念是,从显著相似的实体派生的大多数标记应该相应地一致。对于 XML,标记化可以应用于文本、结构或两者。
    • 文本标记化 :一种著名的文本标记化方法是将字符串映射到一组 q - 元组(q - grams),即长度为 q 的子字符串。例如,字符串 “Beatles” 的 2 - 元组概要为 {‘Be’, ‘ea’, ‘at’, ‘tl’, ‘le’, ‘es’}。
    • 结构标记化 :结构标记化方法作用于元素节点,捕获标签和关系。一种简单的结构(路径)标记化方法是收集路径的所有元素节点标签。例如,路径 /CD/album/artist/name 的概要为 {‘CD’, ‘album’, ‘artist’, ‘name’}。标记化的结果可能是多重集,我们通过将顺序序号符号连接到每个标记的出现来将多重集转换为集合,如多重集 {‘a’, ‘b’, ‘b’} 转换为 {a◦1, b◦1, b◦2}。
  • 加权方案 :定义适当的加权方案来量化每个标记在相似性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值