基于概率索引的信息检索算法解析
1. 基于词典的格索引算法分析
在信息检索领域,基于词典的格索引算法是实现快速有效检索的重要手段。下面我们将详细分析相关算法及其复杂度。
1.1 算法 5.5 的渐近成本
算法 5.5 中,第 2 行和第 3 行的渐近成本为 $O(|E|)$,存储结果需要 $O(|Q|)$ 的内存空间。在 for 循环的 $|E|$ 步中,每一步都只涉及常数复杂度的操作,与加权图(WG)的大小无关。在空间复杂度方面,由于 MapInsertOrSum 会逐步更新 PrIx 点,所以需要在内存中保存列表 $I$。因此,如果 $M$ 是索引的 PrIx 点的数量,算法 5.5 的总体渐近时间和空间复杂度分别为 $O(|E|)$ 和 $O(M + |Q|)$。
1.2 基于词典的水平位置相关性
在之前的研究中,提出了基于单个水平坐标的相关性概率,公式如下:
[P(R| x, v, i) = \sum_{w: \exists j:w_j=v} \sum_{a: a_j\leq i < a_{j+1}} P(w, a| x)]
计算这个相关性概率(RP)可以使用与算法 5.5 非常相似的算法。不同之处在于,在遍历边时,需要一个额外的循环来增加边段中每个水平位置对应的累加器。根据相关公式,这样计算得到的 $P(R| x, v, i)$ 值与算法 5.1 中为同一行图像 $x$ 计算的后验图 $h_{v,i}$ 相同。
1.3 基于词典的序数位置相关性
转录序数位置的相关性概率公式为:
[P(
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



