GRAMS3:高效的 XML 结构相似性搜索框架与异步消息知识通信
在当今的数据处理领域,XML 结构相似性搜索以及异步消息知识通信是两个重要的研究方向。前者有助于在大量 XML 数据中快速准确地找到相似结构的文档,而后者则在灾难管理等场景中为信息的有效传递提供支持。下面将详细介绍相关的技术和方法。
1. TGF - IGF 模型
为了实现 XML 结构相似性比较,提出了树元频率(Tree Gram Frequency,TGF)和逆 pq - 元频率(Inverse pq - Gram Frequency,IGF)。
- TGF 定义 :设 frequencyi,j 是 pq - 元 gi 在 XML 树 Tj 中的原始频率,则 pq - 元 gi 的归一化树元频率 gi,j 为:
[g_{i,j} = \frac{frequency_{i,j}}{\sum_{k} frequency_{k,j}}]
其中,(\sum_{k} frequency_{k,j}) 是树 Tj 中所有 pq - 元出现次数的总和。TGF 体现了第一个准则,即更频繁出现的 pq - 元具有更大的权重。
- IGF 定义 :设 |T| 是语料库中树的总数, ti 是 pq - 元 gi 出现的树的数量,则 gi 的逆
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



