利用存储层支持 XDBMS 中的 XML 相似性连接
1. 预备知识
1.1 相似性函数
我们聚焦于基于标记的相似性函数,这类函数通过衡量两个感兴趣实体的集合表示之间的重叠程度来确定它们的相似性。我们将这种集合表示称为实体的概要,概要中的元素称为标记,并且可以选择使用加权方案为标记赋予权重。
- 概要生成 :实体的概要通过将其表示拆分为一组标记来生成,这个过程称为标记化。标记化的理念是,从显著相似的实体派生的大多数标记应该相应地一致。对于 XML,标记化可以应用于文本、结构或两者。
- 文本标记化 :一种著名的文本标记化方法是将字符串映射到一组 q - 元组(q - grams),即长度为 q 的子字符串。例如,字符串 “Beatles” 的 2 - 元组概要为 {‘Be’, ‘ea’, ‘at’, ‘tl’, ‘le’, ‘es’}。
- 结构标记化 :结构标记化方法作用于元素节点,捕获标签和关系。一种简单的结构(路径)标记化方法是收集路径的所有元素节点标签。例如,路径 /CD/album/artist/name 的概要为 {‘CD’, ‘album’, ‘artist’, ‘name’}。标记化的结果可能是多重集,我们通过将顺序序号符号连接到每个标记的出现来将多重集转换为集合,如多重集 {‘a’, ‘b’, ‘b’} 转换为 {a◦1, b◦1, b◦2}。
- 加权方案 :定义适当的加权方案来量化每个标记在相似性
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



